Resumo Semanal

Semana 1

7 - 13 de Abril, 2026

A semana marcou ponto de inflexão na IA: transição de modelos puramente linguísticos para sistemas integrados, autônomos e capazes de agir no mundo real. Seis papers revolucionários estabeleceram novos padrões em avaliação, agentes, aprendizado contínuo e superação de expertise humana.

Tema Unificador

Transição para Sistemas Integrados e Autônomos

Os seis papers desta semana compartilham um fio condutor: a necessidade de sistemas mais rigorosos, integrados e capazes de aprender continuamente. De benchmarks que expõem verdadeiras limitações até agentes que superam expertise humana, a semana marca transição fundamental na IA.

Computer Vision & Multimodal LearningAltíssimo

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Video-MME Team

Benchmark revolucionário que expõe lacuna crítica na compreensão de vídeo através de hierarquia tri-nível de avaliação rigorosa.

AI Agents & Web AutomationMuito Alto

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Zhang, Wang, Zhu, Du, Miao, Lu, Xu, Hao, Cai, Wang, Zhang, Wu, Lu, Lei, Zou, Yin, Nie, Chen, Jiang, Chen, Allen

Primeira avaliação rigorosa de agentes de IA em tarefas reais de websites ao vivo, revelando lacuna massiva entre benchmarks controlados e mundo real.

Agent Learning & Skill EvolutionMuito Alto

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Ma, Yang, Ji, Wang, Wang, Hu, Huang, Chu (DreamX Team)

Framework revolucionário para evolução coletiva de habilidades em ecossistemas multi-usuário, onde conhecimento acumula automaticamente entre usuários.

LLM Training & GeneralizationAltíssimo

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Ren, Wang, Cai, Shao, Guo, Xie, Li, Zhang, Hu, Shao, Liu

Desafia narrativa prevalente sobre SFT vs. RL, revelando que generalização é fenômeno condicional moldado por otimização, dados e capacidade.

Competitive Programming & Agentic RLAltíssimo

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Li, Sun, Wang, Su, Shum, Li (DeepReinforce Team)

Primeira IA a vencer consistentemente todos os participantes humanos em competições Codeforces ao vivo, incluindo Grandmasters lendários.

Newsletter Semanal

Receba resumos técnicos profissionais dos papers mais importantes em IA diretamente no seu email.

Newsletter Semanal

AI Research Weekly

Os artigos mais relevantes da semana em Inteligência Artificial, curados e resumidos para você.

Semana de 7 – 13 de Abril, 2026

Nesta Edição

1

GrandCode — IA supera todos os humanos em programação competitiva

2

ClawBench — Agentes de IA ainda falham em tarefas cotidianas

3

Video-MME-v2 — Novo benchmark revela limites da compreensão de vídeo

4

Repensando Generalização em Reasoning SFT

5

SkillClaw — Skills de agentes que evoluem coletivamente

Inscreva-se para Receber

Resumos técnicos detalhados dos papers mais importantes em Data Science e IA, toda semana.