Como pipelines automatizados de PNL reduzem a abstração de dados oncológicos de semanas para horas – AI Time Journal

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Play Video

Como pipelines automatizados de PNL reduzem a abstração de dados oncológicos de semanas para horas – AI Time Journal


Abhijit Nayak, cientista de dados sênior da Cognizant e palestrante da conferência IEEE, discute a construção de sistemas de extração de informações de nível de produção para pesquisas sobre o câncer e por que a experiência no domínio é mais importante do que o tamanho do modelo.

Uma pesquisa de julho em Revisão de Inteligência Artificial analisaram 156 estudos de PNL em oncologia e identificaram um padrão: os modelos transformadores têm um desempenho impressionante em benchmarks de pesquisa e depois entram em colapso quando implantados em fluxos de trabalho clínicos. O ClinicalBERT extrai diagnósticos de câncer com precisão de relatórios patológicos selecionados. A mesma arquitetura falha quando a documentação hospitalar varia de acordo com médico, instituição e departamento. As bases técnicas estão mais fortes do que nunca. Os sistemas ainda não funcionam em produção.

O padrão é familiar em toda a IA de saúde: benchmarks impressionantes em conjuntos de dados selecionados, seguidos de atrito quando os mesmos sistemas atendem às condições do mundo real. Na oncologia, onde 80% dos dados necessários para decisões de tratamento e investigação se encontram em notas clínicas não estruturadas, esta lacuna tem consequências. Os registros de câncer ficam para trás. A correspondência de ensaios clínicos fica mais lenta. As informações sobre tratamento que poderiam informar os cuidados permanecem enterradas em milhões de documentos que ninguém tem tempo de ler manualmente.

Abhijit Nayak, cientista de dados sênior (PNL) da Cognizant, constrói pipelines de extração que realmente sobrevivem ao contato com dados hospitalares confusos. Seus sistemas processam milhões de registros oncológicos – extraindo diagnósticos, resultados de biomarcadores, cronogramas de tratamento – com a lógica de validação e trilhas de auditoria que os ambientes clínicos exigem. Este ano, ele está apresentando pesquisas sobre reprodutibilidade e otimização imediata do LLM em conferências do IEEE em Viena e Cingapura. Discutimos o que mata os sistemas de PNL quando eles passam do papel para a produção, como a experiência do domínio detecta casos extremos que modelos maiores não percebem e por que a compreensão dos padrões de documentação oncológica é mais importante do que a contagem de parâmetros do modelo básico.

— Uma pesquisa de julho na Artificial Intelligence Review analisou 156 estudos de PNL em oncologia e encontrou um padrão consistente — modelos que apresentam bom desempenho em pesquisa raramente sobrevivem ao contato com fluxos de trabalho clínicos. Você cria pipelines de extração que processam milhões de anotações clínicas. O que realmente mata esses sistemas quando eles passam do papel para a produção?

— Honestamente, tudo começa com algo chato — os dados parecem completamente diferentes. Quando você lê um artigo de pesquisa, eles são treinados em um conjunto de dados onde tudo está bem formatado, as frases estão completas e a terminologia é consistente. E então você recebe um relatório patológico real e é uma bagunça. Um médico escreve o estadiamento do tumor em uma tabela, enquanto outro o coloca em algum lugar no meio de um parágrafo com abreviações que nunca vi antes. As notas clínicas geralmente incluem frases como “ver resultados anteriores” sem realmente repetir os valores. Você está extraindo o mesmo tipo de informação, mas a forma como ela é escrita varia significativamente entre instituições, departamentos e, às vezes, até entre médicos individuais.

E há toda a infraestrutura sobre a qual ninguém escreve artigos, porque não é novidade, é apenas trabalho. Você precisa de ingestão, pré-processamento, extração, normalização para terminologias padrão, lógica de validação e trilhas de auditoria. Os benchmarks acadêmicos concentram-se nas pontuações F1 para reconhecimento de entidades. Mas na produção, se sua etapa de normalização falhar silenciosamente em uma entrada incomum, toda a análise posterior estará errada – e em oncologia, isso pode significar a perda de um biomarcador ou um cronograma de tratamento incorreto.

Mas acho que a parte mais difícil é ganhar a confiança do lado clínico. São pessoas que fazem abstração manual há anos. Eles conhecem todos os casos extremos, todas as exceções. Se o seu sistema tiver alucinações uma vez, se perder algo óbvio, você os perdeu. Então você acaba construindo toda essa infraestrutura de explicabilidade, mostrando frases originais, pontuações de confiança e sinalizando casos ambíguos. Nada disso é publicado porque se trata de engenharia, não de pesquisa. Mas sem isso, nada é implantado.

— Seus pipelines extraem diagnósticos, características de tumores, regimes de tratamento, resultados de biomarcadores, cronogramas de terapia — tudo a partir de texto não estruturado. Um relatório patológico de um médico pode parecer totalmente diferente de uma nota clínica de outro. Como você constrói sistemas que lidam com essa variabilidade e ainda atingem a precisão em que os médicos realmente confiam?

— Você não resolve isso com um modelo. Esse é o primeiro equívoco: as pessoas pensam que você treina um grande transformador, joga documentos nele e ele descobre tudo. Não funciona assim em oncologia. A variabilidade é muito alta e o custo dos erros é muito alto.

O que realmente funciona é dividir o problema em pedaços menores. Os relatórios patológicos necessitam de tratamento diferente dos resumos radiológicos. As notas de progresso são sua própria fera. Assim, você constrói componentes especializados – um módulo concentra-se no estadiamento do tumor, outro nos regimes de tratamento, outro na extração de biomarcadores. Cada um está sintonizado com seu tipo de documento específico, seus padrões terminológicos específicos.

E então você coloca a validação em camadas por cima. Verificações da lógica médica – esse estadiamento faz sentido para esse tipo de câncer? Este cronograma de tratamento está alinhado com o que extraímos sobre a data do diagnóstico? Se algo parecer errado, será sinalizado. Não rejeitado automaticamente, apenas sinalizado para revisão. Porque às vezes o caso estranho está realmente correto e às vezes o seu modelo cometeu um erro. Você quer que um ser humano faça essa ligação, e não que o sistema escolha silenciosamente uma interpretação.

A parte da confiança vem da transparência. Quando encontramos um valor extraído, mostramos exatamente de onde ele veio – a frase, o documento, a data. Os médicos podem clicar e verificar. Eles não estão sendo solicitados a confiar em uma caixa preta. E com o tempo, quando eles veem o sistema acertando de forma consistente, quando eles percebem que ele detecta coisas que poderiam ter perdido em um registro de 50 páginas – é aí que a adoção realmente acontece.

— Você descreveu seus sistemas como pipelines de nível de produção com MLOps, padrões de monitoramento e avaliação. Desde 2022, você lidera a estratégia de IA/ML para projetos de saúde na Cognizant — decidindo quais casos de uso priorizar e quais arquiteturas padronizar. O que é realmente necessário para transformar um sistema de PNL em oncologia de protótipo para algo em que uma equipe de pesquisa confia diariamente?

— Versionamento, monitoramento e um pipeline de correção que realmente fecha o ciclo. Cada extração precisa ser reproduzida meses depois — usando a mesma versão de modelo, configuração e pré-processamento. Em ambientes regulamentados, “atualizamos o modelo” não é uma resposta. O monitoramento detecta desvios antes dos usuários: novos modelos de relatórios, diferentes estilos de documentação, quedas de precisão em tipos específicos de câncer. Tivemos degradação da extração do estadiamento do tumor depois que um local mudou seu formato patológico. Detectei isso em painéis em questão de dias.

O ciclo de feedback costuma ser o que as equipes ignoram. Os médicos sinalizam erros, essas correções são realimentadas nos dados de treinamento, os modelos são treinados novamente e o desempenho melhora. Parece óbvio, mas operacionalizá-lo requer ferramentas – interfaces de anotação, pipelines de dados, cronogramas de retreinamento. Passamos meses construindo essa infraestrutura antes que ela começasse a dar frutos.

As decisões reais de priorização se resumem ao impacto clínico versus viabilidade técnica. Algumas extrações são de alto valor, mas extremamente difíceis, como a análise de modificações de tratamento de texto livre. Outros são vitórias mais fáceis. Você sequencia o roteiro para que as implantações iniciais ganhem credibilidade enquanto você enfrenta os problemas mais complexos em paralelo.

— Ainda este ano, você fará apresentações em duas conferências do IEEE — FMLDS em Viena sobre reprodutibilidade do LLM por meio de cache de três vias, ICNGN em Cingapura sobre otimização imediata para análise de sentimento. Como isso se conecta ao seu trabalho oncológico ou são caminhos paralelos?

— Eles estão diretamente conectados, apenas abstraídos. O artigo de reprodutibilidade surgiu de um problema de produção do mundo real – os resultados do LLM não são determinísticos, pois o mesmo prompt produz resultados ligeiramente diferentes entre as execuções. Na pesquisa, isso é barulho. Em pipelines clínicos onde são necessárias trilhas de auditoria e extrações reproduzíveis, isso é um bloqueador. A arquitetura de cache que desenvolvemos resolve isso no nível da infraestrutura.

O trabalho imediato de otimização consiste em obter um desempenho consistente sem ajustes finos. Na área da saúde, muitas vezes não é possível enviar dados de pacientes para APIs externas para treinamento de modelo. Portanto, você precisa de estratégias de estímulo que funcionem de maneira confiável imediatamente. A pesquisa de emojis parece divertida, mas a questão subjacente é séria: como projetar prompts que produzam resultados estáveis ​​e previsíveis em diferentes distribuições de entrada?

Ambos os artigos abordam problemas que encontrei primeiro na produção. O enquadramento acadêmico veio depois.

— Você atuou como jurado em hackathons Devpost AI ao lado de palestrantes da Netflix, Meta e Google. Ao avaliar projetos de equipes mais jovens, o que separa uma solução que parece impressionante em uma demonstração daquela que poderia realmente ser implantada?

A primeira coisa que vejo é o que acontece quando as entradas quebram. Os projetos de demonstração sempre mostram o caminho feliz – dados limpos, comportamento esperado, resultados impressionantes. No entanto, os sistemas implementáveis ​​precisam falhar normalmente e reconhecer quando são incertos. Em envios de assistência médica, procuro especificamente pensar em casos extremos – um classificador com 95% de precisão não significa nada se as falhas se agrupam em torno de condições raras em que a classificação incorreta realmente mata alguém. Equipes fortes estabelecem limites de confiança e gatilhos de revisão humana desde o início. E você sempre pode saber quando uma equipe conversou com usuários reais ou quando apenas criou para a demonstração. As decisões de arquitetura são completamente diferentes.

— Além da saúde, você construiu modelos básicos de IA para startups no setor filantrópico dos EUA. É um contraste nítido: a oncologia é uma questão de vida ou morte, a filantropia é um impacto social. Quão transferíveis são os métodos?

— Mais transferível do que você esperaria. As organizações filantrópicas baseiam-se em enormes quantidades de dados não estruturados – pedidos de subsídios, relatórios de impacto, narrativas de programas. O mesmo problema central: informações críticas estão enterradas em textos que ninguém tem tempo de ler manualmente. Os pipelines de extração que construí para oncologia – classificação de documentos, reconhecimento de entidades, normalização – adaptam-se diretamente. O que muda é a ontologia, não a arquitetura. Em oncologia, você extrai o estadiamento do tumor e os valores dos biomarcadores. Na filantropia, você extrai valores de financiamento, resultados de programas e foco geográfico. A lógica de validação é diferente, os dicionários de domínio são distintos, mas os padrões de engenharia permanecem os mesmos. E, honestamente, trabalhar em vários domínios torna você melhor em ambos. Você para de ajustar seu pensamento a um espaço problemático.

— O subtítulo desta entrevista é “por que a experiência no domínio é mais importante do que o tamanho do modelo.” Numa área onde cada mês traz um novo LLM com mais parâmetros, essa é uma posição contrária. Para alguém que está construindo uma carreira em IA de saúde, deveria se concentrar nos modelos básicos mais recentes ou investir na compreensão do próprio domínio médico?

Experiência de domínio, sem dúvida. Já vi equipes usarem GPT-4+ em anotações clínicas e alcançarem resultados medíocres porque não entendem completamente o que estão extraindo. Eles não conseguem dizer quando o modelo alucina um valor de biomarcador que não faz sentido clínico. Eles não sabem quais erros são catastróficos e quais são toleráveis. Enquanto isso, alguém que entende os padrões de documentação oncológica, sabe como funciona o estadiamento do tumor e pode ler um relatório patológico – essa pessoa constrói sistemas melhores com modelos menores. O modelo de base é uma ferramenta. Saber o que fazer com isso, saber como validar os resultados, saber onde os casos extremos se escondem – essa é a parte difícil e vem do conhecimento do domínio. Persiga os modelos e você estará sempre atrás. Invista no domínio e você sempre terá valor.



Fonte

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

Quer saber quanto investir para gerar mais clientes?

Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.

Falar com Especialista no WhatsApp

Compartilhe nas Redes Sociais

Facebook
Twitter
LinkedIn
Threads
Telegram
WhatsApp
Reddit
X
Email
Print
Tumblr
WeCreativez WhatsApp Support
Nossa equipe de suporte ao cliente está aqui para responder às suas perguntas. Pergunte-nos o que quiser!
👋 Olá, como posso ajudar?