Resumo Semanal
7 - 13 de Abril, 2026
A semana marcou ponto de inflexão na IA: transição de modelos puramente linguísticos para sistemas integrados, autônomos e capazes de agir no mundo real. Seis papers revolucionários estabeleceram novos padrões em avaliação, agentes, aprendizado contínuo e superação de expertise humana.
Transição para Sistemas Integrados e Autônomos
Os seis papers desta semana compartilham um fio condutor: a necessidade de sistemas mais rigorosos, integrados e capazes de aprender continuamente. De benchmarks que expõem verdadeiras limitações até agentes que superam expertise humana, a semana marca transição fundamental na IA.
Video-MME Team
Benchmark revolucionário que expõe lacuna crítica na compreensão de vídeo através de hierarquia tri-nível de avaliação rigorosa.
Zhang, Wang, Zhu, Du, Miao, Lu, Xu, Hao, Cai, Wang, Zhang, Wu, Lu, Lei, Zou, Yin, Nie, Chen, Jiang, Chen, Allen
Primeira avaliação rigorosa de agentes de IA em tarefas reais de websites ao vivo, revelando lacuna massiva entre benchmarks controlados e mundo real.
Ma, Yang, Ji, Wang, Wang, Hu, Huang, Chu (DreamX Team)
Framework revolucionário para evolução coletiva de habilidades em ecossistemas multi-usuário, onde conhecimento acumula automaticamente entre usuários.
Ren, Wang, Cai, Shao, Guo, Xie, Li, Zhang, Hu, Shao, Liu
Desafia narrativa prevalente sobre SFT vs. RL, revelando que generalização é fenômeno condicional moldado por otimização, dados e capacidade.
Li, Sun, Wang, Su, Shum, Li (DeepReinforce Team)
Primeira IA a vencer consistentemente todos os participantes humanos em competições Codeforces ao vivo, incluindo Grandmasters lendários.
Receba resumos técnicos profissionais dos papers mais importantes em IA diretamente no seu email.
Newsletter Semanal
Os artigos mais relevantes da semana em Inteligência Artificial, curados e resumidos para você.
GrandCode — IA supera todos os humanos em programação competitiva
ClawBench — Agentes de IA ainda falham em tarefas cotidianas
Video-MME-v2 — Novo benchmark revela limites da compreensão de vídeo
Repensando Generalização em Reasoning SFT
SkillClaw — Skills de agentes que evoluem coletivamente
Resumos técnicos detalhados dos papers mais importantes em Data Science e IA, toda semana.