Tecnologia Científica

Robôs falantes aprendem a lidar com interrupções humanas
Cientistas da computação da Johns Hopkins projetaram um sistema de tratamento de interrupções para facilitar conversas mais naturais com robôs sociais
Por Jamie Patterson - 03/08/2025


Getty Images


Pesquisadores da Universidade Johns Hopkins criaram um sistema que pode tornar robôs sociais mais eficazes na detecção e no gerenciamento de interrupções de usuários em tempo real, com base na intenção de um interlocutor humano — um avanço para áreas como saúde e educação, onde a conversa natural é crucial. A equipe apresentou seu trabalho na conferência Robótica: Ciência e Sistemas deste ano , realizada em Los Angeles de 21 a 25 de junho.

Apesar de todos os seus avanços, os sistemas robóticos de última geração ainda têm dificuldades em lidar com interrupções do usuário em tempo real — e muitas vezes não entendem por que os humanos interrompem em primeiro lugar.

"Ao categorizar as interrupções humanas em quatro categorias — acordo, assistência, esclarecimento e interrupção — nosso sistema adapta estratégias de tratamento para corresponder ao contexto e à intenção do usuário por trás da interrupção."

Shiye 'Sally' Cao
estudante de doutorado

Então Jiwon Moon, Engenheiro '25; os alunos de doutorado em ciência da computação Shiye "Sally" Cao , Amama Mahmood e Victor Nikhil Antony ; e os professores assistentes Ziang Xiao , Anqi "Angie" Liu e Chien-Ming Huang começaram analisando diferentes tipos de conversas humanas, como discussões, entrevistas em talk shows e coletivas de imprensa para identificar como os humanos lidam com alguém falando por cima deles.

Os pesquisadores observaram que as interrupções podem ter diferentes propósitos, como sinalizar compreensão, auxiliar o interlocutor, buscar esclarecimentos, expressar discordância, desenvolver ainda mais o tópico ou mudar de assunto. Da mesma forma, aqueles que foram interrompidos reagiram de várias maneiras: ignorando a interrupção, reconhecendo-a, mas continuando, ou cedendo à pessoa que interrompeu.

Usando esses padrões, a equipe desenvolveu um sistema robótico de tratamento de interrupções que usa grandes modelos de linguagem (LLMs) para adotar diferentes estratégias de conversação com base na intenção prevista de quem interrompe.

"Até onde sabemos, este é o primeiro sistema robótico que integrou a classificação de intenções à sua estrutura de tratamento de interrupções em tempo real", afirma o primeiro autor, Cao. "Ao categorizar as interrupções humanas em quatro categorias — concordância, assistência, esclarecimento e interrupção —, nosso sistema adapta as estratégias de tratamento para corresponder ao contexto e à intenção do usuário por trás da interrupção."

O sistema funciona detectando primeiro a sobreposição de falas em uma conversa e enviando o conteúdo dessa interrupção para um LLM. O LLM então determina a intenção por trás da interrupção e decide sobre uma entre várias estratégias de tratamento.

Quando o humano que interrompe concorda ou auxilia a conversa, o robô reconhece, acena com a cabeça e retoma a fala. Se o que interrompe pede esclarecimentos, o robô os fornece antes de continuar. E para interrupções mais perturbadoras, como aquelas que descarrilam a conversa ou mudam de assunto, o robô tem duas opções: pode manter a palavra para resumir os pontos restantes antes de passar para o usuário humano, ou pode parar de falar imediatamente.

A equipe integrou este sistema a um robô social e conduziu um estudo com usuários para avaliar sua capacidade de identificar diferentes tipos de interrupções. O sistema classificou com precisão a intenção subjacente a 88,78% das interrupções e as lidou com sucesso em 93,69% das vezes, relatam os pesquisadores.

"Curiosamente, embora manter a palavra seja uma estratégia comum para humanos lidarem com interrupções, os participantes do nosso estudo nem sempre gostaram quando o robô fez isso", diz Cao. "Eles perceberam seu papel como assistencial, em vez de colaborativo, e, portanto, esperavam que ele cedesse imediatamente a eles em cada momento. Isso mostra a importância de alinhar o papel e o contexto da tarefa de um robô com seu comportamento de lidar com interrupções."

Os pesquisadores sugerem que isso pode ajudar a reforçar o papel pretendido de um robô em um determinado contexto. Por exemplo, um robô projetado para ser uma ferramenta de assistência em uma tarefa informal deve adotar uma abordagem mais flexível e receptiva para lidar com interrupções.

A equipe também recomenda que trabalhos futuros explorem interrupções não verbais — como um usuário abrindo a boca para falar sem dizer nada — e investiguem o tratamento de interrupções em interações mais longas ou de várias sessões com vários usuários.

"Quando usadas e gerenciadas de forma eficaz, as interrupções podem levar a conversas fluidas e rápidas — mas, se gerenciadas de forma inadequada, podem interromper o fluxo da conversa, causar interrupções e fazer com que quem interrompe se sinta excluído", diz Cao. "Para que robôs conversacionais se tornem assistentes, companheiros de equipe e companheiros no dia a dia das pessoas, é fundamental que eles sejam capazes de detectar e gerenciar interrupções imediatamente. Nosso trabalho é um passo inicial rumo a essa capacidade."


Esta pesquisa foi apoiada pela National Science Foundation.

 

.
.

Leia mais a seguir