Mundo

CLICS: O maior banco de dados do mundo de associações lexicais entre idiomas
Com fluxos de trabalho detalhados assistidos por computador, o CLICS facilita a padronização de conjuntos de dados linguísticos e fornece soluções para muitos dos desafios persistentes na pesquisa linguística.
Por Max Planck Society - 13/01/2020


Distribuição global de idiomas incluídos na liberação do CLICS3, identificada

Toda língua possui casos em que dois ou mais conceitos são expressos pela mesma palavra, como a palavra em inglês "voar", que se refere tanto ao ato de voar quanto ao inseto. Ao comparar padrões nesses casos, que os linguistas chamam de colexificações, entre os idiomas, os pesquisadores podem obter insights sobre uma ampla gama de questões, incluindo a percepção humana, a evolução da linguagem e o contato com a língua. A terceira parcela do banco de dados CLICS aumenta significativamente o número de idiomas, conceitos e fontes de dados disponíveis em versões anteriores, permitindo que os pesquisadores estudem colexificações em escala global em detalhes e profundidade sem precedentes.

Com fluxos de trabalho detalhados assistidos por computador, o CLICS facilita a padronização de conjuntos de dados linguísticos e fornece soluções para muitos dos desafios persistentes na pesquisa linguística. "Embora a agregação de dados tenha sido geralmente baseada em procedimentos ad-hoc no passado, nossos novos fluxos de trabalho e diretrizes para as melhores práticas são um passo importante para garantir a reprodutibilidade da pesquisa linguística ", diz Tiago Tresoldi.

Eficácia do CLICS demonstrada em aplicações de pesquisa

A capacidade do CLICS de fornecer novas evidências para abordar questões de ponta em psicologia e cognição já foi ilustrada em um estudo recente publicado na Science , que se concentrou na codificação mundial de conceitos emocionais. O estudo comparou as redes de colexificação de palavras para conceitos emocionais de uma amostra global de idiomas e revelou que os significados das emoções variam muito entre as famílias de idiomas .

"Neste estudo, o CLICS foi usado para estudar diferenças na codificação lexical da emoção em idiomas em todo o mundo, mas o potencial do banco de dados não se limita aos conceitos de emoção. Muitas questões mais interessantes podem ser abordadas no futuro", diz Johann Lista -Mattis.

Novos padrões e fluxos de trabalho permitem a coleta reproduzível de dados lexicais globais

Com base nas novas diretrizes para formatos de dados padronizados na pesquisa multilíngue, apresentadas pela primeira vez em 2018, a equipe do CLICS conseguiu aumentar a quantidade de dados de 300 variedades de idiomas e 1200 conceitos no banco de dados original para 3156 variedades de idiomas e 2906 conceitos na instalação atual. A nova versão também garante a reprodutibilidade do processo de agregação de dados , em conformidade com as melhores práticas em gerenciamento de dados de pesquisa. "Graças aos novos padrões e fluxos de trabalho que desenvolvemos, nossos dados não são apenas FAIR (localizáveis, acessíveis, interoperáveis ​​e reproduzíveis), mas o processo de transferência de dados lingüísticos de suas formas originais para nossos padrões multilíngües também é muito mais eficiente. do que no passado ", diz Robert Forkel.

A eficácia do fluxo de trabalho desenvolvido para o CLICS foi testada e confirmada em vários experimentos de validação envolvendo uma grande variedade de acadêmicos e estudantes. Duas tarefas diferentes dos alunos foram realizadas, resultando na criação de novos conjuntos de dados e na melhoria progressiva dos dados existentes. Os alunos foram incumbidos de trabalhar com as diferentes etapas da criação do conjunto de dados descritas no estudo, por exemplo, extração de dados, mapeamento de dados (para catálogos de referência) e identificação de fontes. "Ter pessoas de fora da equipe principal usando e testando suas ferramentas é essencial e ajuda tremendamente no ajuste fino de todos os processos", diz Christoph Rzymski.

Com o CLICS e seu fluxo de trabalho acessíveis a um público mais amplo, os estudiosos não podem contribuir apenas diretamente para o banco de dados no futuro; eles também podem lucrar com o maquinário estabelecido e iniciar suas próprias coleções direcionadas. "O número de linguistas que usam ativamente nossos padrões e fluxos de trabalho está aumentando constantemente. Esperamos que o lançamento desta nova versão do CLICS os propague ainda mais", diz Simon Greenhill.

 

.
.

Leia mais a seguir