
Uma avaliação independente do ChatGPT Health apontou falhas preocupantes na identificação de emergências médicas e sinais de ideação suicida. O estudo concluiu que o sistema pode subestimar quadros graves, atrasar a busca por atendimento adequado e, em casos extremos, contribuir para mortes evitáveis.
A pesquisa foi publicada nesta semana na revista Nature Medicine e analisou a eficiência da versão do ChatGPT voltada para consultas de saúde. O recurso, lançado em janeiro para um grupo restrito de usuários, permite o compartilhamento de registros médicos e informações sensíveis em ambiente protegido. Segundo a OpenAI, mais de 40 milhões de pessoas utilizam diariamente o ChatGPT para buscar orientações médicas.
Para testar a ferramenta, pesquisadores criaram 60 cenários clínicos realistas, que variavam de situações leves a emergências graves. Três médicos avaliaram previamente cada caso e definiram qual seria a conduta adequada. Em seguida, os cenários foram submetidos ao ChatGPT Health em diferentes variações — incluindo mudanças no sexo do paciente, resultados de exames e opiniões de terceiros — gerando cerca de mil respostas para comparação.
Os resultados indicaram que, em 51,6% das situações classificadas como emergenciais, o sistema recomendou que o usuário permanecesse em casa ou marcasse consulta de rotina, em vez de buscar atendimento imediato. Por outro lado, quase 65% dos casos considerados sem risco receberam orientação para procurar atendimento urgente sem necessidade.
Embora o chatbot tenha acertado em situações clássicas, como acidente vascular cerebral e reação alérgica grave, falhou em outros contextos. Em um dos testes, um quadro de asma com sinais de insuficiência respiratória recebeu a recomendação de aguardar, conduta que poderia agravar o risco ao paciente.
O estudo também observou que o sistema tende a minimizar sintomas quando o cenário inclui a opinião de um “amigo” sugerindo que o problema não é sério. Em casos de pensamentos suicidas, as respostas variaram: quando apenas os sintomas eram descritos, o sistema apresentava alertas de crise e indicava serviços de apoio. No entanto, ao incluir resultados laboratoriais normais, os avisos deixaram de aparecer.
Os autores alertam que a ferramenta pode gerar falsa sensação de segurança ao subestimar riscos, atrasando a procura por atendimento médico. Ao mesmo tempo, recomendações excessivas de urgência podem sobrecarregar sistemas de saúde.
Em resposta ao jornal The Guardian, a OpenAI afirmou que apoia pesquisas independentes, mas declarou que o estudo não necessariamente reflete o uso real da ferramenta no cotidiano. A empresa também informou que o modelo passa por atualizações constantes.
Para os pesquisadores, mesmo testes simulados já evidenciam a necessidade de protocolos de segurança mais rigorosos, maior transparência sobre o treinamento do sistema e clareza quanto às limitações da tecnologia.






