Clubhouse: a ponta do iceberg de um ecossistema em formação

Quarentenado, cloroquiners, novo normal, distanciamento. Nos últimos meses, com a pandemia e as conversas geradas dos novos hábitos, termos surgiram e foram adaptados. Para os humanos, incorporá-los e contextualizá-los foi algo absolutamente natural. Mas já parou para imaginar como um robô entenderia cada uma dessas expressões? Ou como que a Siri determinaria que o distanciamento em questão é de uma pessoa para a outra e não necessariamente uma medida geográfica? Ainda que os sistemas aprendam, leva tempo, demanda repetição e variedade de referências.

Quando olhamos para assistentes de voz, sejam os embarcados nos smartphones ou aqueles presentes nos speakers, é importante entender que a interação entre humanos e interfaces evoluirá na medida em que os algoritmos aprimorarem a leitura de contextos. Ao captar uma palavra em áudio, a máquina transcreve em texto, o chamado speech to text, em seguida faz uma série de conexões. E como qualquer tecnologia, a voz está em plena evolução. A Alexa, por exemplo, lançada em português em 2019, leva tempo para diferenciar que uma mesma expressão pode ter um sentido em Salvador e outro completamente diferente no Mato Grosso do Sul. Só em português, a assistente virtual da Amazon possui mais de 80 mil habilidades, entre funções e comandos.

E a medida em que mais pessoas usam e interagem, a curva de aprimoramento segue em ascensão. Estudo da Juniper Research, estima que, até 2024, o mundo terá mais de 8,4 bilhões de dispositivos de interação por voz. Que pode ser de uma torradeira, a um carro, passando por um relógio inteligente. Neste contexto, o Clubhouse, bem como a ascensão da rede social nas últimas semanas suscitou, em vários níveis, a discussão sobre novas plataformas e dinâmicas que poderão acelerar o aprendizado dos algoritmos. Se os speakers estão em ambientes fechados e os podcasts são conversas sem interação aberta, a dinâmica do Clubhouse permite milhares de possibilidades e trocas em áudio.

Conrado Caon, CTO da agência Adventures e especialista em voz, reforça que as interações que ocorrem dentro do Clubhouse ainda não são utilizadas para treinamentos diretos de modelos de inteligência artificial. A eventual coleta não autorizada de tais expressões publicamente divulgadas poderia até ser utilizada, porém não é algo projetado originalmente com este objetivo. “Qualquer expressão que seja publicada em ambiente aberto pode eventualmente ser usada dessa maneira. Nesse mesmo cenário se enquadram todas as demais publicações abertas de conteúdo em áudio em redes sociais. Não diria que o lançamento do Clubhouse seja algo que diferencie o modelo pré-existente nas demais redes sociais de conteúdo digital”, pontua, admitindo o potencial do Clubhouse na formação desse ecossistema e no treinamento de padrões caso ele também seja direcionado a esse fim.

A COMPLEXIDADE DA VOZ

Rodrigo Helcer, CEO e fundador da plataforma Stilingue, explica que, em uma dinâmica convencional de algoritmos de áudio, as informações são processadas para que a máquina possa extrair informações direcionadas, como por exemplo, menções a nomes de marcas e análises de sentimento. Depois disso, ocorre a hierarquização de tópicos. “As interações que estão sendo geradas no Clubhouse adicionariam uma camada importante a esses processos já que o mundo do áudio é muito sensível ao tipo de contexto e ambiente: uma boa transcrição de uma conversa de telefone não serve tanto para treinar um modelo que reconheça áudios de WhatsApp. A transcrição de episódios de podcast não garante um modelo que reconheça bem o áudio de uma live”, explica Helcer.

O sinal de voz produzido pelo sistema vocal humano é extremamente complexo, o que dificulta a tarefa de caracterizá-lo. Existem inúmeros modelos matemáticos sofisticados que tentam simular a produção de voz humana, mas sua capacidade descritiva ainda é muito limitada. “A voz é um sinal que carrega muita informação. Assim, para o desenvolvimento de sistemas com objetivo de interação entre usuário e máquina, utiliza-se a combinação de algoritmos para extração e reconhecimento de características, porém uma base de dados que seja vasta pode permitir algoritmos robustos o suficiente para trabalhar em diversas culturas”, explica Jhonata Emerick, CEO da Datarisk, startup de machine learning.

Existem inúmeros desafios no treinamento de algoritmos por voz, explica Helcer. Uma das principais questões, por exemplo, é que os processos de aprimoramento exigem volume de dados ou custam muito dinheiro para serem treinados. “Dados de qualidade significam horas de áudio transcrito por especialistas. Isso não é uma coisa simples de se encontrar. Justamente nesse ponto que as big techs, que mexem com modelos de transcrição de áudio têm se saído bem, eles possuem muitos dados e investem pesado no treino dos modelos. Claro, ainda não temos os assistentes capazes de manter longas conversas de forma similar à humana, mas os avanços nos últimos anos são consideráveis”, acrescenta.

A corrida das outras plataformas em desenvolver formatos semelhantes ao Clubhouse, ilustra não só um interesse pela atenção das pessoas, mas, sobretudo, pela contribuição que o áudio pode gerar para treinar algoritmos. Após vários testes, desde agosto do ano passado, o Twitter liberou, por exemplo, a interação de voz via mensagens diretas. Nos últimos dias, a plataforma também vem aprimorando o Spaces. Lançado em novembro do ano passado, o serviço permite salas de bate papo em áudio. O Facebook também entrou na jogada admitindo que trabalha em projetos semelhantes. Mark Cuban, investidor serial e famoso pelo programa Shark Thank, anunciou, nos Estados Unidos, no início de fevereiro, que está investindo na Fireside, plataforma de áudio que oferece soluções para podcast, mas segundo o próprio Mark, “se propõe a ir além”.

VOZ ORIENTADA A NEGÓCIOS

Precisão nas interações de voz representa muito mais que uma boa experiência aos usuários. Ela pode se converter em bilhões em vendas. Os US$ 3,4 trilhões que o e-commerce deve movimentar globalmente até 2025, segundo a consultoria Finaria, por exemplo, terão parte relevante das receitas já impulsionada pelo voice-commerce. “Embora o chat de texto, teclado, mouse e outros dispositivos para a conversa, ainda sejam relevantes, cada vez mais a voz será a principal ferramenta para o conversational – seja ele com foco em e-commerce, customer care, marketing ou as simples interações do cotidiano. Com a pandemia, houve uma aceleração do consumo por meio das plataformas digitais”, avalia Julio Zaguini, CEO da Botmaker, plataforma especializada em compreensão cognitiva baseada em IA.

SEGURANÇA E PRIVACIDADE

No início desta semana, o Clubhouse confirmou à Bloomberg que está lidando com casos de vazamento e que algumas salas tiveram mensagens privadas vazadas. Isso ocorreu porque um usuário conseguiu obter áudios privados e publicá-los em site aberto. Nenhuma rede social, até hoje, esteve imune a esse problema. E redirecionando o tema à questão da voz, ele deve ser visto com ainda mais cuidado. Janaína Pereira, profissional especializada em estudos aplicados a IoT e cofundadora do Women In Voice BR, explica que o treino de algoritmo, depende, principalmente, da diversidade de pessoas interagindo, mas, sobretudo, dos profissionais que estão por trás das plataformas e processos para quebrar vieses racistas e bolhas de interpretação. “As últimas pesquisas dizem que boa parte das pessoas que usam interfaces de voz estão confiando nesse tipo de interação. Para manter essa visão positiva dos usuários, acredito que o desafio das empresas de plataformas e das marcas que criam suas experiências é atuar na transparência do uso dos dados das pessoas”, explica alertando que, mais do que as interações, é importante prestar atenção nos conteúdos que circulam no app.

O Clubhouse admite armazenar os áudios por questão de segurança em um determinado período em caso de situações extremas. A plataforma já teve de banir usuários que usaram expressões racistas, por exemplo e, neste caso, o conteúdo pode ser uma prova. No contexto da voz, em geral, Caon, da Adventures, destaca a importância da “wake word” ou palavra de despertar. “Nesse caso o assistente digital apenas processa os áudios coletados após a detecção da palavra de despertar. No caso da Amazon, a palavra de despertar é o próprio nome da assistente digital: “Alexa”. No caso do assistente do Google no Brasil a palavra de despertar é a combinação “Ok Google”. Dessa forma, apenas as gravações feitas após a identificação da palavra de invocação são processadas e levadas em consideração. Todas as demais captações de áudio em quaisquer outros momentos são descartadas”, explica.

INCLUSÃO E ACESSIBILIDADE

Toda a discussão sobre o a formação do ecossistema de voz também precisa lidar com um desafio urgente: a acessibilidade. Neste sentido, a falta de inclusão do Clubhouse de pessoas com deficiência auditiva e visual vem sendo colocada em questão nas últimas semanas. Várias campanhas foram criadas pedindo acessibilidade no uso das plataformas. Uma delas feita pela escritora Paula Pfeifer, do projeto Surdos que Ouvem, por exemplo, que utilizou suas redes para “um problema que já é recorrente sempre que tenta ser early adopter de tecnologias.” No caso de pessoas cegas, o desafio é a permissão do aplicativo para a utilização de programas que fazem leitura de tela.

Notícias