Mundo

CLICS: O maior banco de dados do mundo de associações lexicais entre idiomas
Com fluxos de trabalho detalhados assistidos por computador, o CLICS facilita a padronizaa§a£o de conjuntos de dados lingua­sticos e fornece solua§aµes para muitos dos desafios persistentes na pesquisa lingua­stica.
Por Max Planck Society - 13/01/2020


Distribuição global de idiomas inclua­dos na liberação do CLICS3, identificada

Toda la­ngua possui casos em que dois ou mais conceitos são expressos pela mesma palavra, como a palavra em inglês "voar", que se refere tanto ao ato de voar quanto ao inseto. Ao comparar padraµes nesses casos, que os linguistas chamam de colexificações, entre os idiomas, os pesquisadores podem obter insights sobre uma ampla gama de questões, incluindo a percepção humana, a evolução da linguagem e o contato com a la­ngua. A terceira parcela do banco de dados CLICS aumenta significativamente o número de idiomas, conceitos e fontes de dados disponí­veis em versaµes anteriores, permitindo que os pesquisadores estudem colexificações em escala global em detalhes e profundidade sem precedentes.

Com fluxos de trabalho detalhados assistidos por computador, o CLICS facilita a padronização de conjuntos de dados lingua­sticos e fornece soluções para muitos dos desafios persistentes na pesquisa lingua­stica. "Embora a agregação de dados tenha sido geralmente baseada em procedimentos ad-hoc no passado, nossos novos fluxos de trabalho e diretrizes para as melhores prática s são um passo importante para garantir a reprodutibilidade da pesquisa lingua­stica ", diz Tiago Tresoldi.

Efica¡cia do CLICS demonstrada em aplicações de pesquisa

A capacidade do CLICS de fornecer novas evidaªncias para abordar questões de ponta em psicologia e cognição já foi ilustrada em um estudo recente publicado na Science , que se concentrou na codificação mundial de conceitos emocionais. O estudo comparou as redes de colexificação de palavras para conceitos emocionais de uma amostra global de idiomas e revelou que os significados das emoções variam muito entre as fama­lias de idiomas .

"Neste estudo, o CLICS foi usado para estudar diferenças na codificação lexical da emoção em idiomas em todo o mundo, mas o potencial do banco de dados não se limita aos conceitos de emoção. Muitas questões mais interessantes podem ser abordadas no futuro", diz Johann Lista -Mattis.

Novos padraµes e fluxos de trabalho permitem a coleta reproduza­vel de dados lexicais globais

Com base nas novas diretrizes para formatos de dados padronizados na pesquisa multila­ngue, apresentadas pela primeira vez em 2018, a equipe do CLICS conseguiu aumentar a quantidade de dados de 300 variedades de idiomas e 1200 conceitos no banco de dados original para 3156 variedades de idiomas e 2906 conceitos na instalação atual. A nova versão também garante a reprodutibilidade do processo de agregação de dados , em conformidade com as melhores prática s em gerenciamento de dados de pesquisa. "Graças aos novos padraµes e fluxos de trabalho que desenvolvemos, nossos dados não são apenas FAIR (localiza¡veis, acessa­veis, interopera¡veis ​​e reproduza­veis), mas o processo de transferaªncia de dados linga¼a­sticos de suas formas originais para nossos padraµes multila­nga¼es também émuito mais eficiente. do que no passado ", diz Robert Forkel.

A eficácia do fluxo de trabalho desenvolvido para o CLICS foi testada e confirmada em vários experimentos de validação envolvendo uma grande variedade de acadaªmicos e estudantes. Duas tarefas diferentes dos alunos foram realizadas, resultando na criação de novos conjuntos de dados e na melhoria progressiva dos dados existentes. Os alunos foram incumbidos de trabalhar com as diferentes etapas da criação do conjunto de dados descritas no estudo, por exemplo, extração de dados, mapeamento de dados (para cata¡logos de referaªncia) e identificação de fontes. "Ter pessoas de fora da equipe principal usando e testando suas ferramentas éessencial e ajuda tremendamente no ajuste fino de todos os processos", diz Christoph Rzymski.

Com o CLICS e seu fluxo de trabalho acessa­veis a um paºblico mais amplo, os estudiosos não podem contribuir apenas diretamente para o banco de dados no futuro; eles também podem lucrar com o maquina¡rio estabelecido e iniciar suas próprias coleções direcionadas. "O número de linguistas que usam ativamente nossos padraµes e fluxos de trabalho estãoaumentando constantemente. Esperamos que o lana§amento desta nova versão do CLICS os propague ainda mais", diz Simon Greenhill.

 

.
.

Leia mais a seguir