Talento

Colar inteligente reconhece comandos 'silenciosos' em inglês e mandarim
A tecnologia de reconhecimento de fala nos permite pedir à Siri para verificar o tempo para amanhã ou pedir à Alexa para tocar nossa música favorita.
Por Tom Fleischman - 15/02/2022


Ruidong Zhang, estudante de doutorado na área de ciência da informação, demonstra o dispositivo de reconhecimento de fala silencioso SpeeChin. Crédito: Ryan Young/Cornell University

A tecnologia de reconhecimento de fala nos permite pedir à Siri para verificar o tempo para amanhã ou pedir à Alexa para tocar nossa música favorita.

Mas essas tecnologias exigem fala audível. E se uma pessoa não puder falar, ou se a fala vocalizada em um determinado ambiente não for apropriada?

Cheng Zhang, professor assistente de ciência da informação na Cornell Ann S. Bowers College of Computing and Information Science, e o estudante de doutorado Ruidong Zhang têm uma resposta: SpeeChin, um dispositivo de reconhecimento de fala silenciosa (SSR) que pode identificar comandos silenciosos usando imagens de deformação da pele no pescoço e no rosto capturada por uma câmera infravermelha (IR) montada no pescoço.

A tecnologia é detalhada em "SpeeChin: A Smart Necklace for Silent Speech Recognition", publicado em 31 de dezembro na revista Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies .

Ruidong Zhang também apresentará o artigo em outubro na conferência Ubiquitous Computing (UbiComp 2022).

"Há duas perguntas: primeiro, por que um colar? E segundo, por que falar em silêncio?" disse Zhang. "Sentimos que um colar é um fator de forma com o qual as pessoas estão acostumadas, ao contrário de dispositivos montados na orelha, que podem não ser tão confortáveis. No que diz respeito à fala silenciosa, as pessoas podem pensar: 'Já tenho um dispositivo de reconhecimento de fala no meu computador. telefone.' Mas você precisa vocalizar o som para eles, e isso nem sempre é socialmente apropriado, ou a pessoa pode não conseguir vocalizar a fala."

“Este dispositivo tem o potencial de aprender os padrões de fala de uma pessoa, mesmo com fala silenciosa ”, disse ele.

“Estamos introduzindo um fator de forma totalmente novo, um novo hardware, neste campo”, disse Ruidong Zhang, que construiu o protótipo original em 2020 em sua casa na China, enquanto completava o primeiro ano de seu programa de doutorado remotamente.

O dispositivo é semelhante em aparência ao NeckFace, uma tecnologia que Cheng Zhang e seus membros da equipe do SciFi Lab revelaram no ano passado. O NeckFace rastreia continuamente expressões faciais completas usando câmeras infravermelhas para capturar imagens do queixo e do rosto por baixo do pescoço.

Como o NeckFace, o SpeeChin possui uma câmera IR montada em um estojo de colar impresso em 3D, que é pendurado em uma corrente de prata com a câmera apontando para o queixo do usuário. Para maior estabilidade, os desenvolvedores projetaram uma asa de cada lado e colocaram uma moeda na parte inferior.
 
Conveniência e privacidade, disse Cheng Zhang, são duas razões pelas quais uma câmera IR montada em um colar pode ser preferível a uma câmera tradicional na frente do rosto. "Uma câmera na frente do seu rosto está tirando fotos do que está atrás de você", disse ele, "e isso levanta preocupações com a privacidade".

Para a experimentação inicial, que contou com 20 participantes (10 falando inglês, 10 chinês mandarim), foram feitas medições para determinar a posição da linha de base do queixo e, em seguida, imagens diferenciais foram usadas para treinar o dispositivo a reconhecer comandos simples.

Ruidong Zhang fez com que os participantes pronunciassem 54 comandos em inglês, consistindo em dígitos, comandos interativos, comandos de assistente de voz, comandos de pontuação e comandos de navegação. Ele então fez o mesmo com 44 palavras ou frases simples em mandarim.

SpeeChin reconheceu comandos em inglês e mandarim com uma precisão média de 90,5% e 91,6%, respectivamente. Para testar ainda mais seus limites, os pesquisadores conduziram outro estudo com 10 participantes, todos pronunciando silenciosamente uma lista especialmente projetada de 72 "não-palavras" de uma sílaba usando fonemas - combinações de 18 consoantes e quatro vogais.

Finalmente, os pesquisadores recrutaram seis participantes para proferir 10 frases em mandarim e 10 em inglês enquanto caminhavam. As taxas de sucesso foram menores neste estudo, em parte devido à variação nos estilos de caminhada (mais versus menos movimento da cabeça, por exemplo) entre os participantes.

O projeto ilustra o poder da determinação: Ruidong Zhang construiu um laboratório em sua casa, completo com estação de solda, e recrutou pessoas em sua cidade natal como participantes do estudo.

"Mas como moro em uma cidade pequena e é difícil encontrar pessoas que falem inglês", disse ele, "na verdade acabamos em HangZhou, na Universidade de Zhejiang, para recrutar falantes de inglês. Foi uma experiência inesquecível para mim".

 

.
.

Leia mais a seguir