O “Dr. Google” teve seus problemas. O ChatGPT Health pode fazer melhor?

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Play Video

O “Dr. Google” teve seus problemas. O ChatGPT Health pode fazer melhor?


Alguns médicos veem os LLMs como uma vantagem para a alfabetização médica. O paciente médio pode ter dificuldade em navegar no vasto panorama da informação médica online – e, em particular, em distinguir fontes de alta qualidade de websites polidos mas factualmente duvidosos – mas os LLMs podem fazer esse trabalho por eles, pelo menos em teoria. Tratar pacientes que pesquisaram seus sintomas no Google exigiu “muito ataque à ansiedade do paciente (e) redução da desinformação”, diz Marc Succi, professor associado da Harvard Medical School e radiologista praticante. Mas agora, diz ele, “você vê pacientes com formação universitária, ensino médio, fazendo perguntas no nível de algo que um jovem estudante de medicina poderia fazer”.

O lançamento do ChatGPT Health e do Anthropic’s anúncio subsequente de novas integrações de saúde para Claude, indicam que os gigantes da IA ​​​​estão cada vez mais dispostos a reconhecer e incentivar o uso de seus modelos relacionados à saúde. Tais utilizações certamente apresentam riscos, dadas as tendências bem documentadas dos LLMs de concordar com os usuários e inventar informações em vez de admitir ignorância.

Mas esses riscos também devem ser ponderados em relação aos benefícios potenciais. Há aqui uma analogia com os veículos autónomos: quando os decisores políticos consideram se devem permitir o Waymo na sua cidade, a métrica principal não é se os seus carros estão alguma vez envolvidos em acidentes, mas se causam menos danos do que o status quo de depender de condutores humanos. Se o Dr. ChatGPT for uma melhoria em relação ao Dr. Google – e as primeiras evidências sugerem que pode ser – isso poderia potencialmente diminuir o enorme fardo de desinformação médica e ansiedade desnecessária em relação à saúde que a Internet criou.

Determinar a eficácia de um chatbot como ChatGPT ou Claude para a saúde do consumidor, no entanto, é complicado. “É extremamente difícil avaliar um chatbot aberto”, diz Danielle Bitterman, líder clínica de ciência de dados e IA no sistema de saúde Mass General Brigham. Grandes modelos de linguagem marque bem nos exames de licenciamento médico, mas esses exames usam questões de múltipla escolha que não refletem como as pessoas usam chatbots para procurar informações médicas.

Sirisha Rambhatla, professora assistente de ciências de gestão e engenharia na Universidade de Waterloo, tentou preencher essa lacuna avaliando como o GPT-4o respondeu para licenciar questões de exames quando não tinha acesso a uma lista de respostas possíveis. Os especialistas médicos que avaliaram as respostas pontuaram apenas metade delas como totalmente corretas. Mas as questões do exame de múltipla escolha são projetadas para serem complicadas o suficiente para que as opções de resposta não as denunciem totalmente, e ainda são uma aproximação bastante distante do tipo de coisa que um usuário digitaria no ChatGPT.

UM estudo diferenteque testou o GPT-4o em instruções mais realistas enviadas por voluntários humanos, descobriu que ele respondia corretamente a perguntas médicas em cerca de 85% das vezes. Quando falei com Amulya Yadav, professor associado da Universidade Estadual da Pensilvânia que dirige o Laboratório de IA Responsável pela Emancipação Social e liderou o estudo, ele deixou claro que não era pessoalmente um fã de LLMs médicos voltados para o paciente. Mas ele admite abertamente que, tecnicamente falando, eles parecem estar à altura da tarefa – afinal, diz ele, os médicos humanos diagnosticam mal os pacientes em 10% a 15% das vezes. “Se eu olhar desapaixonadamente, parece que o mundo vai mudar, goste eu ou não”, diz ele.

Para as pessoas que procuram informações médicas on-line, diz Yadav, os LLMs parecem ser uma escolha melhor do que o Google. Succi, o radiologista, também concluiu que os LLMs podem ser uma alternativa melhor à pesquisa na web quando ele comparou as respostas do GPT-4 a perguntas sobre condições médicas crônicas comuns com as informações apresentadas no painel de conhecimento do Google, a caixa de informações que às vezes aparece no lado direito dos resultados da pesquisa.

Desde que os estudos de Yadav e Succi apareceram online, no primeiro semestre de 2025, a OpenAI lançou várias novas versões do GPT, e é razoável esperar que o GPT-5.2 tenha um desempenho ainda melhor do que seus antecessores. Mas os estudos têm limitações importantes: centram-se em questões factuais e simples e examinam apenas breves interações entre utilizadores e chatbots ou ferramentas de pesquisa na web. Algumas das fraquezas dos LLMs – mais notavelmente a sua bajulação e tendência para alucinações – podem ser mais propensas a surgir em conversas mais extensas e com pessoas que estão a lidar com problemas mais complexos. Reeva Lederman, professora da Universidade de Melbourne que estuda tecnologia e saúde, observa que os pacientes que não gostam do diagnóstico ou das recomendações de tratamento que recebem de um médico podem procurar outra opinião de um LLM – e o LLM, se for bajulador, pode encorajá-los a rejeitar o conselho do seu médico.

Alguns estudos descobriram que os LLMs terão alucinações e exibirão bajulação em resposta a solicitações relacionadas à saúde. Por exemplo, um estudo mostrou que o GPT-4 e o GPT-4o aceitarão e funcionarão com prazer com informações incorretas sobre medicamentos incluídas na pergunta do usuário. Em outroo GPT-4o frequentemente criava definições para síndromes falsas e testes de laboratório mencionados no prompt do usuário. Dada a abundância de diagnósticos e tratamentos medicamente duvidosos circulando pela Internet, esses padrões de comportamento do LLM poderiam contribuir para a disseminação de desinformação médica, especialmente se as pessoas considerarem os LLMs confiáveis.

A OpenAI relatou que a série de modelos GPT-5 é marcadamente menos bajuladora e propensa a alucinações do que seus antecessores, portanto, os resultados desses estudos podem não se aplicar ao ChatGPT Health. A empresa também avaliou o modelo que alimenta o ChatGPT Health em suas respostas a questões específicas de saúde, usando seu benchmark HeathBench disponível publicamente. O HealthBench recompensa modelos que expressam incerteza quando apropriado, recomenda que os usuários procurem atendimento médico quando necessário e evite causar estresse desnecessário aos usuários, dizendo-lhes que sua condição é mais grave do que realmente é. É razoável supor que o modelo subjacente ao ChatGPT Health exibiu esses comportamentos nos testes, embora Bitterman observe que alguns dos prompts no HealthBench foram gerados por LLMs, não por usuários, o que poderia limitar o quão bem o benchmark se traduz no mundo real.



Fonte

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

Quer saber quanto investir para gerar mais clientes?

Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.

Falar com Especialista no WhatsApp

Compartilhe nas Redes Sociais

Facebook
Twitter
LinkedIn
Threads
Telegram
WhatsApp
Reddit
X
Email
Print
Tumblr
WeCreativez WhatsApp Support
Nossa equipe de suporte ao cliente está aqui para responder às suas perguntas. Pergunte-nos o que quiser!
👋 Olá, como posso ajudar?