Projeto baseado em IA atua na preservação da língua indígena nheengatu, no Alto Rio Negro, no Amazonas
A USP, a ONG indígena FOIRN, IBM e parceiros desenvolveram aplicativos para manter viva no mundo digital a língua que é falada por milhares de pessoas, entre indígenas e ribeirinhos do Amazonas

Claudio Pinhanez, Thomas Finbow e alunos do ensino médio de Tabocal dos Pereira - Foto: Nicole Grell
Cientistas e pesquisadores liderados pelo Centro de Inteligência Artificial (C4AI) da USP e pela IBM Research estão levando a aldeias indígenas da região do Alto do Rio Negro, no noroeste da Amazônia, equipamentos que irão possibilitar o processamento digital da língua nheengatu (ou ye?gatu, de acordo com a ortografia local). Eles integram o Projeto Ye?gatu Digital, que já equipou duas salas de aulas de comunidades indígenas da etnia Baré, Tabocal dos Pereira e Juruti, às margens do Rio Negro, em São Gabriel da Cachoeira, no Amazonas.
De acordo com o professor Claudio Pinhanez, pesquisador da IBM e vice-diretor do C4AI da USP, que coordena o projeto, a digitalização vem no sentido de preservar a língua que é falada por diversas etnias indígenas, o nheengatu. “Estamos desenvolvendo um aplicativo que é capaz de fazer correções ortográficas e sugestões de palavras, por exemplo, e realizar traduções do português para o nheengatu. O aplicativo só é possível porque estamos utilizando tecnologias de inteligência artificial (IA) de última geração”, explica. “Além disso, as salas de aula permitirão a realização de videoconferências semanais entre professores, pesquisadores e alunos e cursos a distância [para] desde as comunidades até regiões como São Paulo e Rio de Janeiro”, conta o pesquisador.
Para viabilizar tais iniciativas, cada sala de aula ganhou 20 tablets para os alunos, dois notebooks para os professores, um monitor e uma câmera para videoconferências. “Para cada uma das salas, foi instalado um equipamento comercial de internet via satélite e um kit de painel solar para alimentar os sistemas”, descreve o professor, destacando que muitos dos alunos já possuem seus aparelhos celulares. “O aplicativo tradutor ainda não foi batizado. A designação do nome ficará por conta das comunidades. Elas também serão as ‘donas’ das tecnologias que serão desenvolvidas”, afirma Pinhanez.
Visando à autossuficiência tecnológica, as salas digitais serão mantidas por membros das comunidades, com apoio técnico dos parceiros e suporte financeiro do projeto.
Cada sala digital abre um portal com comunidades de difícil acesso e possibilita que trabalhemos constantemente com os alunos e professores na criação de ferramentas para o fomento do uso da língua nheengatu no mundo digital. Um processo essencial para a sobrevivência da mesma.
Claudio Pinhanez
Parceiros
As duas comunidades que abrigam as salas de aula contam com uma população entre 20 e 50 famílias e com recursos bastante limitados em termos de energia elétrica e de acesso à internet.
Com a ajuda de entidades parceiras ligadas ao projeto, as salas foram entregues em 10 de julho deste ano, como informa o coordenador do Departamento de Comunicação da Federação das Organizações Indígenas do Rio Negro (FOIRN), Joelson Félix. A FOIRN, que é uma das entidades parceiras, é uma organização indígena não governamental e sem fins lucrativos, que representa as associações indígenas locais em toda a região do Rio Negro.
Para chegar aos locais, os idealizadores do projeto viajaram de avião cerca de 800 quilômetros (km) até o município de São Gabriel da Cachoeira, a partir de Manaus, e depois cerca de cinco horas de barco pelo Rio Negro, até Tabocal dos Pereira e Juruti.
De acordo com Pinhanez, os aplicativos com soluções de IA são desenvolvidos no âmbito do Projeto de Processamento de Línguas Indígenas (Prolind), do C4AI da USP, em conjunto com a IBM Research.
Ele também destaca que a ação é uma parceria do Centro de Inteligência Artificial e Aprendizado de Máquina (CIAAM) da USP com a FOIRN, com apoio da Coordenadoria das Associações Indígenas, Balaio, Alto Rio Negro e Xié (CAIBARNX) da IBM Research, e da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), através do C4AI. As salas de aula digitais representam a primeira etapa do projeto, conforme previsto no plano de trabalho estabelecido pelo convênio firmado entre o CIAAM e a FOIRN, em maio deste ano.
Todos os dados coletados pelo projeto serão de propriedade das comunidades indígenas e não serão utilizados em modelos ou softwares não relacionados ao projeto por pesquisadores da USP ou da IBM. O controle do uso e acesso aos aplicativos de nheengatu será feito conforme guias e regras determinadas pelas comunidades e suas organizações representativas. O software base para os aplicativos e para a construção de modelos está em processo de disponibilização como open-source para que comunidades de outras línguas indígenas possam construir suas próprias versões, e o uso dos aplicativos é, neste momento, restrito a membros dessas comunidades.

Foto: Nicole Grell
O Projeto Ye?gatu Digital prevê ainda a elaboração de um plano de expansão para 2026, com vistas a trazer a infraestrutura e as tecnologias para outras comunidades falantes de nheengatu no Alto Rio Negro e, possivelmente, para comunidades falantes de tukano e baniwa. Para tanto, terão de ser encontradas novas fontes para prover recursos para essa expansão, tanto em termos de equipamentos como para suporte técnico. De acordo com Pinhanez, cada sala digital teve um custo de R$ 50 mil só em equipamentos, conseguidos através de um doador privado.
Origens do nheengatu
De acordo com o professor Thomas Finbow, do Departamento de Linguística da Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH) da USP, o nheengatu não é uma língua que se originou no Rio Negro. “Ela é, originalmente, do Baixo Amazonas, do Pará. O nheengatu chegou ao Rio Negro com a conquista, a conversão religiosa e o comércio. Isso se intensificou a partir da década de 1730”, conta o pesquisador.
Até a década de 1960, segundo Finbow, o nheengatu ainda era a língua franca da região, que todos – brancos e indígenas – usavam para se comunicar. Durante a ditadura militar, as políticas de desenvolver e defender as regiões de fronteira norte (o plano Calha Norte) causou a vinda de muitos militares e civis de outras partes do Brasil para o Alto Rio Negro. “Isso fez com que o português se tornasse mais importante como a língua de intercomunicação geral, e o nheengatu começou a ser visto mais como uma língua indígena”, lembra.
Finbow destaca que o nheengatu ou a língua geral amazônica é uma língua tupi-guarani. “Isso quer dizer que ele pertence ao maior dos dez ramos que constituem a família tupi [arikém, mondé, tupari, ramarama, puruborá, juruna/yudjá, munduruku, mawé, aweti e tupi-guarani]. O ramo tupi-guarani é composto de mais de 40 línguas e variedades faladas desde a Guiana Francesa até o Rio Grande do Sul e da Amazônia peruana e boliviana até o litoral do Nordeste”, contabiliza.
O nheengatu descende de um koiné de línguas tupi-guarani faladas inicialmente nas regiões ao redor de São Luís do Maranhão e Belém do Pará, onde os portugueses se estabeleceram na segunda década do século 17. A principal contribuição linguística foi a língua do povo tupinambá do Maranhão e do Pará, que tinha se refugiado nessa região para evitar os conflitos com os portugueses no litoral das capitanias da Bahia e de Pernambuco, na década de 1530.
Os Tupinambá constituíam um grupo numericamente dominante naquela zona e, por isso, sua língua acabou legando mais traços linguísticos para o nheengatu.
Thomas Finbow
Os falantes do nheengatu
A estatísticas de falantes do nheengatu são controversas, como descreve o professor Finbow. “No site da Ethnologue, eles citavam um estudo de 2005, sem referência, que dizia que tinha aproximadamente 19.600 falantes do nheengatu, mas esse número não é correto. Eu até cheguei a escrever para eles para saber de onde eles tinham tirado esse número, mas me responderam que o tal estudo de 2005 não constava no sistema deles”, conta.
Além disso, de acordo com o professor, as pessoas também se confundem com as estatísticas oficiais. “Por exemplo, aproximadamente 74% da população da população de São Gabriel da Cachoeira se declarou indígena no último censo, porém, isso não quer dizer que 74% da população fale nheengatu, como diz a página da Wikipédia”, compara.
Finbow estima que, no Brasil, entre 5.000 e 7.000 pessoas falem a língua. Mesmo com as comunidades em outros países vizinhos, deve ser abaixo de 10.000 falantes. “Vamos precisar aguardar a publicação completa do último censo da Funai/IGBE.”
No contexto atual, a única região do Brasil em que existe um grupo grande de falantes nativos de nheengatu é no Alto Rio Negro. Também existem comunidades de falantes na Venezuela e na Colômbia. As pessoas que falam nheengatu se consideram indígenas, porém, no passado, era comum qualificar quem falasse apenas o nheengatu (com ou sem o português) como “ribeirinhos” ou “cabolos” e usar “índio” ou “indígena” para quem falasse outros idiomas originários. “Ou seja, ocorreu uma reavaliação do estatuto do nheengatu, que voltou a ser classificado como uma língua indígena.”
Na região do Alto e do Médio Rio Negro o y?gatu/nheengatu é falado pelos povos Baré, Baniwa, Werekena e Nadëb, além dos anciãos do povo Dâw. É uma das três línguas indígenas co-oficiais do município de São Gabriel da Cachoeira (tukano e baniwa são as outras duas, e existe um plano para incluir o yanomami).
Além do Rio Negro, também existe um pequeno grupo do povo Mawé [dos clãs Sateré e Maraguá] que são falantes de uma língua que eles chamam de “tupi”, que é uma variedade do nheengatu/língua geral que era falada na região da fronteira entre os estados do Amazonas e Pará.
Thomas Finbow
Como linguista histórico, o professor realiza seus estudos sobre tópicos relacionados com a mudança linguística, como e por que as estruturas linguísticas se desenvolvem e evoluem. “O nheengatu é um excelente tema para esse tipo de investigação, porque é uma das poucas línguas indígenas que têm uma longa história documentada [500 anos]”, descreve.
No Projeto Y?gatu Digital, a contribuição de Finbow é o conhecimento que ele possui da língua. “Investigo o nheengatu há quase oito anos e conheço os diferentes sistemas de escrita. Tem várias ortografias diferentes usadas pelas diferentes fases diacrônicas da língua e pelas diferentes comunidades. Portanto, ajudo a identificar as correspondências e divergências entre os diferentes sistemas, para que eles possam aproveitar materiais escritos de diferentes maneiras”, diz o pesquisador.