Pesquisadores da Universidade HSE e da Universidade Estadual de Medicina e Odontologia de Moscou desenvolveram um modelo de aprendizado de máquina que pode prever a palavra prestes a ser pronunciada por um sujeito, com base...

Crédito: Nitish V. Thakor, Science Translational Medicine
Pesquisadores da Universidade HSE e da Universidade Estadual de Medicina e Odontologia de Moscou desenvolveram um modelo de aprendizado de máquina que pode prever a palavra prestes a ser pronunciada por um sujeito, com base em sua atividade neural registrada com um pequeno conjunto de eletrodos minimamente invasivos. Seu artigo, "Decodificação de fala de um pequeno conjunto de eletrodos EEG intracranianos minimamente invasivos espacialmente segregados com uma rede neural compacta e interpretável", foi publicado no Journal of Neural Engineering .
Milhões de pessoas em todo o mundo são afetadas por distúrbios da fala , limitando sua capacidade de se comunicar. As causas da perda da fala podem variar e incluem acidente vascular cerebral e certas condições congênitas.
A tecnologia está disponível hoje para restaurar a função de comunicação desses pacientes, incluindo interfaces de "fala silenciosa" que reconhecem a fala rastreando o movimento dos músculos articulatórios enquanto a pessoa pronuncia as palavras sem emitir nenhum som. No entanto, esses dispositivos ajudam alguns pacientes, mas não outros, como pessoas com paralisia muscular facial.
As neuropróteses de fala – interfaces cérebro-computador capazes de decodificar a fala com base na atividade cerebral – podem fornecer uma solução acessível e confiável para restaurar a comunicação para esses pacientes.
Ao contrário dos computadores pessoais, os dispositivos com interface cérebro-computador (BCI) são controlados diretamente pelo cérebro, sem a necessidade de teclado ou microfone.
Uma grande barreira para o uso mais amplo de BCIs em próteses de fala é que essa tecnologia requer cirurgia altamente invasiva para implantar eletrodos no tecido cerebral.
O reconhecimento de fala mais preciso é obtido por neuropróteses com eletrodos cobrindo uma grande área da superfície cortical. No entanto, essas soluções para leitura da atividade cerebral não se destinam ao uso prolongado e apresentam riscos significativos para os pacientes.
Pesquisadores do HSE Center for Bioelectric Interfaces e da Moscow State University of Medicine and Dentistry estudaram a possibilidade de criar uma neuroprótese funcional capaz de decodificar a fala com precisão aceitável lendo a atividade cerebral de um pequeno conjunto de eletrodos implantados em uma área cortical limitada. Os autores sugerem que, no futuro, esse procedimento minimamente invasivo poderá ser realizado até mesmo sob anestesia local.
No presente estudo, os pesquisadores coletaram dados de dois pacientes com epilepsia que já haviam sido implantados com eletrodos intracranianos para fins de mapeamento pré-cirúrgico para localizar zonas de início de convulsão.
O primeiro paciente foi implantado bilateralmente com um total de cinco hastes sEEG com seis contatos em cada, e o segundo paciente foi implantado com nove tiras eletrocorticográficas (ECoG) com oito contatos em cada. Ao contrário do ECoG, os eletrodos para sEEG podem ser implantados sem uma craniotomia completa por meio de um orifício no crânio. Neste estudo, apenas os seis contatos de um único eixo sEEG em um paciente e os oito contatos de uma tira de ECoG no outro foram usados ??para decodificar a atividade neural .
Os sujeitos foram solicitados a ler em voz alta seis sentenças, cada uma apresentada de 30 a 60 vezes em ordem aleatória. As sentenças variavam em estrutura, e a maioria das palavras dentro de uma única sentença começava com a mesma letra. As frases continham um total de 26 palavras diferentes. Enquanto os sujeitos liam, os eletrodos registravam sua atividade cerebral.
Esses dados foram então alinhados com os sinais de áudio para formar 27 classes, incluindo 26 palavras e uma classe de silêncio. O conjunto de dados de treinamento resultante (contendo sinais registrados nos primeiros 40 minutos do experimento) foi inserido em um modelo de aprendizado de máquina com uma arquitetura baseada em rede neural. A tarefa de aprendizagem para a rede neural era prever a próxima palavra pronunciada (classe) com base nos dados de atividade neural anteriores à sua expressão.
Ao projetar a arquitetura da rede neural, os pesquisadores queriam torná-la simples, compacta e facilmente interpretável. Eles criaram uma arquitetura de dois estágios que primeiro extraía representações internas de fala dos dados de atividade cerebral registrados, produzindo coeficientes espectrais de log-mel e, em seguida, previa uma classe específica, ou seja, uma palavra ou silêncio.
Assim treinada, a rede neural alcançou 55% de precisão usando apenas seis canais de dados registrados por um único eletrodo sEEG no primeiro paciente e 70% de precisão usando apenas oito canais de dados registrados por uma única tira de ECoG no segundo paciente. Tal acurácia é comparável à demonstrada em outros estudos com aparelhos que exigiam a implantação de eletrodos em toda a superfície cortical.
O modelo interpretável resultante permite explicar em termos neurofisiológicos qual informação neural mais contribui para prever uma palavra prestes a ser pronunciada. Os pesquisadores examinaram os sinais provenientes de diferentes populações neuronais para determinar quais deles eram essenciais para a tarefa a jusante. Suas descobertas foram consistentes com os resultados do mapeamento de fala, sugerindo que o modelo usa sinais neurais que são fundamentais e podem, portanto, ser usados ??para decodificar a fala imaginária.
Outra vantagem dessa solução é que ela não requer engenharia manual de recursos. O modelo aprendeu a extrair representações de fala diretamente dos dados da atividade cerebral. A interpretabilidade dos resultados também indica que a rede decodifica sinais do cérebro e não de qualquer atividade concomitante, como sinais elétricos dos músculos articulatórios ou provenientes de um efeito de microfone.
Os pesquisadores enfatizam que a previsão sempre foi baseada nos dados de atividade neural anteriores ao enunciado. Isso, eles argumentam, garante que a regra de decisão não use a resposta do córtex auditivo à fala já proferida.
"O uso dessas interfaces envolve riscos mínimos para o paciente. Se tudo der certo, pode ser possível decodificar a fala imaginária da atividade neural registrada por um pequeno número de eletrodos minimamente invasivos implantados em ambiente ambulatorial com anestesia local", diz Alexey Ossadtchi, principal autor do estudo, diretor do Centro de Interfaces Bioelétricas do HSE Institute for Cognitive Neuroscience.
Mais informações: Artur Petrosyan et al, Decodificação de fala de um pequeno conjunto de eletrodos EEG intracranianos minimamente invasivos espacialmente segregados com uma rede neural compacta e interpretável, Journal of Neural Engineering (2022). DOI: 10.1088/1741-2552/aca1e1
Informações do periódico: Science Translational Medicine , Journal of Neural Engineering