Premium Edition #004

A Revolução Silenciosa: Como a descobri por que as IAs aplicadas na medicina são geniais nos testes... Mas tropeçam no consultório.

Premium Edition #004:

12 de junho de 2025, quinta

Recebeu essa newsletter de algum amigo ? 📩 

Interview in Deep ...

📄 Título: MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks

✍️ Autores: Percy Liang , Mike Pfeffer , Nigam H. Shah et al

🧾 Revista: arXiv

📅 Data de Publicação: 2 Jun 2025

📍Introdução

Olha, vou te contar uma coisa que me deixou pensativo esta semana. Você confiaria sua vida a uma IA que tira notas altas em uma prova de medicina, mas não consegue escrever um relatório de alta decente? Pois é, essa contradição cruel que eu sempre suspeitei finalmente recebeu uma resposta científica.

O pessoal de Stanford e Microsoft acabou de lançar o MedHELM, um framework que finalmente revela a verdade nua e crua sobre onde essas IAs aplicadas na medicina realmente funcionam e onde são apenas fogos de artifício.

O fim da era dos "99% de Acurácia" sem sentido.

Sabe o que mais me irrita? Esses benchmarks tradicionais, que testam IA aplicada na medicina, assemelham-se a um cursinho pré-vestibular. Há múltipla escolha aqui, questão teórica ali... Enquanto isso, o médico real está lá no consultório tentando fazer a IA ajudar com relatório de alta, mas a coisa simplesmente empaca.

Para você ter uma ideia do exagero: GPT-4 conseguiu 85% de acerto no exame médico alemão e ficou no 99,5º percentil, enquanto o Med-PaLM 2 do Google atingiu 85-86% no USMLE. Soa impressionante, não é?

Mas aqui está o problema: mesmo alcançando 90% de acerto em questões teóricas sobre habilidades médicas, esses modelos ainda tropeçam quando você precisa deles para tarefas práticas do dia a dia.

O MedHELM quebrou esse ciclo vicioso ao criar uma taxonomia de 121 tarefas médicas do mundo real, organizadas em 5 categorias e 22 subcategorias, desenvolvidas com 29 clínicos. Não é mais sobre decorar o Harrison's - é sobre conseguir funcionar no mundo real.

Eles criaram uma taxonomia inteligente, dividindo tudo em cinco categorias principais e vinte e duas subcategorias que fazem sentido: decisão clínica, geração de notas, comunicação com pacientes, assistência em pesquisa e tarefas administrativas. E, para avaliar tudo isso, desenvolveram um conjunto de 35 benchmarks (17 existentes e 18 novos).

A descoberta que mudou minha visão

Aqui está o que me fez parar tudo e repensar: eles usaram três modelos de IA independentes como "júri" para avaliar as respostas médicas, e conseguiram mais precisão que os próprios médicos humanos avaliando entre si.

Isso não é apenas impressionante — é revolucionário. Significa que, finalmente, temos uma forma objetiva de medir o que realmente importa.

O ranking real (que vai te surpreender)

Depois de avaliar nove modelos de ponta usando 35 benchmarks distintos, os resultados me surpreenderam:

DeepSeek R1 lidera com 66% de taxa de vitória, seguido pelo o3-mini com 64%. Mas aqui está o plot twist que todo mundo deveria prestar atenção: Claude 3.5 Sonnet conseguiu desempenho comparável aos modelos de topo com 40% a menos de custo computacional estimado.

Para quem pensa em implementar isso na prática, essa relação custo-benefício será o que determinará o resultado.

Onde a magia acontece (e onde vira pesadelo)

Os números não mentem e me deixaram claro onde estamos pisando em terreno firme e onde ainda é areia movediça.

Onde funciona bem?

  • Comunicação com pacientes: 0,78-0.83 de precisão normalizada

  • Geração de notas clínicas: 0,73 a 0,85.

Onde ainda patina:

  • Tarefas administrativas: apenas 0,53 a 0,63.

  • Suporte à decisão clínica: 0,56-0.72

Isso explica muitas coisas! Por que alguns colegas adoram usar IA para redigir cartas para pacientes, mas ainda lutam com agendamentos e triagem?

O calcanhar de Aquiles que ninguém fala

Aqui está o que mais me chamou atenção: modelos que conseguem diagnosticar casos complexos ainda tropeçam em tarefas administrativas básicas. É como ter um cirurgião brilhante que não consegue preencher um formulário.

Isso acontece porque essas tarefas administrativas exigem conhecimentos específicos de sistemas, fluxos de trabalho e protocolos que variam entre instituições. A IA pode saber tudo sobre fisiopatologia, mas não faz ideia de como funciona o sistema de agendamento do seu hospital.

Como usar essa informação na prática

O MedHELM não é apenas mais um artigo acadêmico — é uma bússola. Agora você pode.

  1. Escolher a IA certa para cada tarefa: você precisa de comunicação com pacientes? Qualquer modelo decente serve. Quer suporte para decisões clínicas? Invista em modelos de topo.

  2. Avaliar riscos com precisão: saiba exatamente onde a IA pode te ajudar com segurança e onde ainda é necessário sua supervisão direta.

  3. Implementar com estratégia: comece pelas áreas de maior sucesso (comunicação e notas) e expanda gradualmente.

🔍 Minha análise

Vou ser direto: este trabalho do MedHELM é o divisor de águas que esperávamos. Não é apenas mais um benchmark — é o fim da era do "trust me, bro" na avaliação de IA aplicada a medicina.

O que mais me impressiona é a honestidade brutal dos resultados. Eles não venderam ilusões; mostraram exatamente onde estamos e onde ainda temos trabalho pela frente.

A descoberta de que Claude 3.5 Sonnet oferece quase a mesma performance do DeepSeek R1 por um terço do custo é uma informação valiosa para quem está pensando em implementação real. Na medicina, não basta ser bom — é preciso que seja viável economicamente.

Mas, o que me deixa mais otimista é perceber que as áreas onde a IA já funciona bem (como comunicação com pacientes e geração de notas) são justamente aquelas que mais consomem tempo do médico no dia a dia. Se conseguirmos automatizar isso com segurança, isso já será uma revolução.

O desafio administrativo será resolvido com o tempo — são problemas de integração e padronização, não limitações fundamentais da tecnologia. Mas precisamos ser honestos sobre onde estamos atualmente.

Aqui está a verdade que incomoda: enquanto você decide se deve ou não abraçar a IA aplicada na medicina, seus colegas mais corajosos já estão ganhando de 2 a 3 horas por dia. Automatizando a comunicação com pacientes e geração de notas.

Não se trata de substituir médicos. Nunca foi. É sobre libertar médicos para fazer o que só eles sabem fazer: pensar criticamente, tomar decisões complexas, tocar o paciente, olhar nos olhos e criar aquela conexão humana que nenhuma IA jamais conseguirá replicar.

O MedHELM nos forneceu o mapa. Agora, a escolha é sua: usar esse conhecimento para liderar a transformação ou ficar para trás, assistindo quem entendeu que o futuro da medicina não é médico versus IA, mas médico potencializado por IA.

Qual é a diferença entre esses dois grupos? Os que lideram terão mais tempo para serem médicos de verdade. Os que resistem vão continuar afogados em burocracia.

Qual você deseja ser?

 🤔 Para refletir…

1. Se você soubesse que uma IA consegue comunicar-se melhor com seus pacientes do que você em 80% dos casos, isso mudaria a forma como você vê seu papel como médico?

2. Estamos medindo o que realmente importa ao avaliar IA médica, ou ainda estamos presos à mentalidade de "acertar questões de prova"?

3. Qual é o maior risco: implementar IA médica muito cedo ou deixar de implementar por medo, enquanto outros ganham anos de vantagem?

Estas não são perguntas retóricas. São reflexões que irão definir como navegaremos os próximos anos da medicina.

 🤔 Para ouvir… (versão podcast - made with NotebookLM)

O que achou da news de hoje?

Faça Login ou Inscrever-se para participar de pesquisas.

Mundo Med Tech

A newsletter by Esphyrall

Todo domingo, a Mundo Med Tech entrega em sua caixa de email, uma curadoria das principais notícias em inovação na área de saúde.

Se você adorou, pode se tornar premium e ter acesso a muuuito mais notícias fresquinhas desse mundo empolgante da tecnologia e inovação! 😍✨ 
Além disso, ainda temos extras imperdíveis que vão te deixar de queixo caído! Não perca essa oportunidade incrível! 💪💻🔥

Na fase inicial da newsletter, você vai poder aproveitar o conteúdo integral de notícias selecionadas com muito carinho, do mundo da tecnologia e inovação dentro da área de saúde. Enjoy!!! 😍✨