Quando a IA constrói a si mesma, o que sobra pra SRE/DevOps

Semana estranha pra quem trabalha com infraestrutura.

No dia 4 de junho, a Anthropic publicou um ensaio chamado When AI builds itself dizendo, em bom português: “olha, a IA já está acelerando o desenvolvimento da própria IA, e seria bom o mundo ter a opção de pausar isso de forma coordenada”. A Reuters cobriu, a Economist perguntou se a IA vai escapar do controle humano, a BBC repercutiu.

Cinco dias depois… a mesma Anthropic lançou o Claude Fable 5, a versão pública do Mythos — o modelo mais capaz deles. A arquitetura da coisa é curiosa: Fable 5 e Mythos 5 compartilham o mesmo modelo por baixo, mas o Fable vem com classificadores que detectam consultas de alto risco — cibersegurança ofensiva, biologia/química, destilação de modelos — e, quando disparam, delegam a resposta pro Opus 4.8, o modelo público anterior. Já o Mythos 5, sem as travas de cyber, fica restrito às ~200 organizações vetadas do Project Glasswing.

“Pessoal, talvez a gente devesse pausar. Enquanto isso, toma aqui o modelo mais poderoso que já colocamos na rua.” (Com cinto, airbag e limitador de velocidade, justiça seja feita. Mas ainda assim.)

Dá pra ler isso com cinismo (e muita gente leu — pesquisadores como Mark Riedl chamaram de hype train de recursive self-improvement). Mas independente da intenção, os números do ensaio são o que mais me interessa aqui, porque eles falam diretamente sobre o nosso trabalho.

Os números que importam

O ensaio da Anthropic traz dados internos que eu nunca tinha visto publicados por um lab:

Mais de 80% do código que entra no monorepo da Anthropic hoje é escrito pelo Claude. Cada engenheiro está mergeando ~8x mais código por dia do que em 2024. A taxa de sucesso do Claude Code em problemas open-ended (aqueles sem especificação clara, que é onde a gente vive) chegou a 76% — subiu 50 pontos percentuais em seis meses. E o METR mediu que a duração das tarefas que modelos completam sozinhos está dobrando a cada ~4 meses. Em 2024 eram tarefas de 4 minutos; hoje, de 12+ horas.

Tem um exemplo no ensaio que me pegou: um upgrade de rotina começou a crashar dezenas de milhares de training jobs. Um engenheiro apontou o Claude pro incidente ao vivo, com pouco mais que acesso ao cluster. O modelo isolou uma flag obscura de debugging, reproduziu o crash e confirmou o fix em ~2 horas. Trabalho de 2-3 dias.

Se você é SRE, você sabe exatamente que tipo de incidente é esse. E sabe o quanto ele vale.

O problema: conhecimento técnico virou commodity?

A pergunta que está pairando: se produzir software fica tão fácil, o que sobra de valor no conhecimento técnico?

Minha resposta curta: o conhecimento de execução está virando commodity, sim. Saber a sintaxe do HPA, decorar flags do kubectl, escrever o Terraform module — isso despencou de preço. O próprio ensaio da Anthropic admite que o “fazer” (escrever código, rodar o experimento) agora custa quase nada em tempo humano.

E aqui vale ser cirúrgico com as palavras, porque essa frase tem uma pegadinha enorme: barato em tempo humano não é barato na fatura. O custo de produzir software não desapareceu — ele está migrando de coluna no balanço: sai da folha de pagamento e entra na conta de inferência. Guarda esse detalhe, porque ele é exatamente o elo entre a commoditização e a conversa da bolha logo abaixo.

Mas tem um detalhe escondido no texto que é a chave de tudo: eles citam a lei de Amdahl — o speedup total de um sistema é limitado pela fração que você não acelerou. Acelerar uma parte do processo só move o gargalo pra outro lugar. O primeiro gargalo a aparecer foi o code review humano. E a resposta de quem usa IA a sério — incluindo a própria Anthropic, que hoje passa toda mudança no codebase por um reviewer automatizado rodando Claude — foi previsível: colocar IA pra revisar a IA. Funciona? Em parte (o reviewer deles teria pego ~1/3 dos bugs por trás de incidentes históricos do claude.ai). Mas o gargalo não some. Ele desce mais um nível, pra uma camada bem mais desconfortável: quem verifica o verificador — e quem ainda entende o que está sendo entregue?

Cara. Isso é literalmente a descrição do trabalho de SRE: ser a função de confiabilidade de um sistema que produz mudança mais rápido do que humanos conseguem acompanhar.

”Mas e a bolha?”

Justo. Muito se fala que a bolha estoura, o custo da IA não fecha a conta, e voltamos ao padrão dev-humano-codando. E os dados céticos existem, são bons, e eu recomendo ler:

O estudo RCT do METR (Becker et al., 2025) virou o paper mais citado pelos céticos: devs experientes em projetos open source que conheciam bem ficaram 19% mais lentos usando IA no início de 2025 — enquanto achavam que estavam 20% mais rápidos. Esse gap de percepção é real e a gente deveria levar a sério.

Só que tem plot twist: no follow-up de fevereiro de 2026, o METR não conseguiu mais rodar o experimento direito. Por quê? Porque 30-50% dos devs convidados se recusaram a trabalhar sem IA, mesmo pagos por hora. O grupo de controle evaporou. A coorte que ficou mostrou o slowdown praticamente sumindo, e o METR hoje diz que IA “provavelmente traz ganho de produtividade em 2026”. A ferramenta deixou de ser opcional tão rápido que quebrou a metodologia do estudo. Isso, por si só, é um dado.

Agora, o custo. Aqui a história tem duas curvas que parecem se contradizer — e as duas são verdade ao mesmo tempo.

Curva 1: o preço unitário de inteligência está despencando. A análise da Epoch AI mostra quedas de 9x a 900x por ano por nível de capacidade, e há paper recente atribuindo a maior parte disso a progresso algorítmico — não a subsídio de VC queimando dinheiro pra comprar mercado.

Curva 2: a conta total está explodindo. Lembra do custo que migrou da folha de pagamento pra fatura de inferência? Ele chegou, e com juros. A Uber liberou Claude Code pra ~5 mil engenheiros em dezembro de 2025, incentivou a adoção com um leaderboard interno de uso de IA (sim, gamificaram o consumo de token), viu o custo por engenheiro bater US$ 500–2.000/mês e torrou o budget anual de IA de 2026 em meados de abril. Quatro meses. A resposta veio em maio: cap de US$ 1.500/mês por ferramenta agêntica e dashboard de consumo por funcionário. A Microsoft foi mais drástica: revogou as licenças de Claude Code de uma divisão inteira (~5 mil engenheiros, o pessoal de Windows e M365) seis meses depois de habilitar, pelo mesmo motivo. E o quadro geral, segundo o TechCrunch: o preço por token caiu ~98% desde 2022, mas workloads agênticos consomem na casa de 30x mais tokens por tarefa que um fluxo simples, e as contas enterprise dispararam. A coisa ficou tão séria que a Linux Foundation anunciou na semana passada a Tokenomics Foundation — um standards body pra fazer com gasto de token o que o FinOps fez com fatura de cloud. (E o Fable 5, pra completar, chegou custando US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de saída — o dobro do Opus 4.8. A fronteira não dá desconto.)

Então é isso, a bolha estoura e voltamos a codar na mão? Minha leitura: cuidado pra não confundir crise de governança de custo com inviabilidade da tecnologia. Repara na reação das empresas: o COO da Uber reclamou publicamente que não consegue ligar o consumo de tokens a features úteis — mas a resposta da Uber não foi desligar a IA. Foi cap, dashboard, accountability por engenheiro. A Microsoft não abandonou IA; trocou de ferramenta pra controlar o custo. É exatamente o ciclo que a nossa geração viu no cloud: fatura estoura → nasce o FinOps → otimiza → o consumo continua crescendo, só que governado. Ninguém voltou pro datacenter próprio porque a conta da AWS veio alta; nasceu uma disciplina inteira pra domar a conta. A bolha financeira (valuations, capex de datacenter) pode muito bem estourar e levar empresa junto. A queda do custo unitário de inteligência, não — ela é tendência técnica, não financeira. Voltar pro mundo onde só humano coda exigiria reverter as duas curvas ao mesmo tempo, e nenhuma delas está apontando pra trás.

O lock-in que ninguém assinou

E aqui entra a preocupação que eu acho mais subestimada de todas — e ela não é a Skynet da capa da Economist.

A Faros analisou dois anos de telemetria de 22 mil devs em mais de 4 mil times (dados reais de pipeline, não survey de percepção) e deu nome ao padrão: Acceleration Whiplash. Épicos entregues por dev subiram 66% e tasks 34% — aí está o salto que todo mundo sente. Só que, no mesmo dataset: tempo mediano de PR em review subiu 441%, incidentes por PR subiram ~243%, e 31% a mais de PRs estão entrando sem review nenhum — não por política, mas porque ninguém dá conta do volume. O sistema inteiro de entrega foi desenhado pra código em ritmo humano, e está sendo inundado por código em ritmo de máquina.

O Addy Osmani deu nome pra fatura que chega depois: comprehension debt — a distância crescente entre o código que o time shipou e o código que o time de fato entende. Diferente da dívida técnica, ela é invisível: o codebase parece saudável enquanto a compreensão apodrece por baixo, até o dia em que algo quebra e ninguém consegue narrar a lógica. Já tem paper no arXiv documentando o estágio terminal disso em times pequenos: o sistema funciona, mas o time não consegue mais mantê-lo sem IA — pra debugar o próprio código, eles voltam pra IA que o escreveu.

Esse é o lock-in real da era. Não é vendor lock-in; é lock-in de capacidade. O repositório cresce numa velocidade e num volume que tornou a manutenção manual matematicamente inviável: não existe botão de “voltar a codar na mão” quando entra 8x mais mudança por dia e um terço dela ninguém leu. Lembra dos 30-50% de devs do METR que se recusaram a trabalhar sem IA, mesmo pagos por hora? A porta já fechou atrás da gente — e diferente do lock-in de cloud, esse não tem plano de migração.

Pra quem é de ops, o cheiro é familiar: é o plantão de madrugada em que o stack trace está na tela, panel do Grafana vermelho, e ninguém na call consegue explicar o que aquele módulo deveria fazer. A novidade é que isso deixou de ser exceção de sistema legado pra virar o estado natural de codebases novinhas, geradas semana passada.

A esperança: o que de fato vai valer pra SRE/DevOps

Em setembro de 2025, o DORA (~5.000 profissionais) cunhou a tese que organizou esse debate: IA é um amplificador. Ela não conserta time ruim — magnifica as forças de organizações boas e as disfunções das ruins — e o maior retorno não vem da ferramenta, vem da qualidade das plataformas internas, dos fluxos e do sistema organizacional embaixo dela.

Sendo honesto: esse relatório já nasceu velho. A coleta foi em junho/julho de 2025, quando 61% dos respondentes nunca tinham nem encostado num workflow agêntico — e foi justamente depois disso que veio o salto que estamos vivendo. Mas eis o detalhe: a telemetria de 2026 não desmentiu a tese do amplificador. Ela mostrou o amplificador no volume máximo. No mesmo dataset da Faros que documenta o caos do review, o cycle time mediano da indústria caiu de 11 dias (2020) pra menos de 7 (2026) — e o maior driver dessa queda foi review assistido por IA e práticas assíncronas maduras. Traduzindo: os times que trataram verificação como infraestrutura estão disparando na frente, enquanto os outros se afogam no próprio throughput. A distância entre os dois grupos nunca foi tão grande, e ela é feita de plataforma, não de modelo.

Plataforma interna. Infraestrutura de verificação. Sistema. Quem constrói isso?

Juntando os pontos, o conhecimento que se valoriza daqui pra frente na nossa área, na minha leitura:

Julgamento e direção. O próprio ensaio da Anthropic admite que a vantagem comparativa humana que resta é “research taste”: escolher qual problema importa, qual resultado confiar, quando um caminho é beco sem saída. Em ops isso se traduz em: qual incidente importa, qual alerta é ruído, qual migração vale o risco. O modelo executa o playbook; alguém precisa decidir se o playbook faz sentido.

Verificação como propriedade, não como etapa. “Coloca IA pra revisar” foi a resposta fácil — e necessária, os números mostram. Mas review, humano ou de modelo, é uma etapa; confiabilidade é uma propriedade do pipeline. Quem materializa o que “correto” significa de forma executável — policy as code, testes de contrato, progressive delivery com rollback automático, observabilidade que prova comportamento em produção — constrói a única coisa que escala junto com a geração de código. SRE sempre foi sobre confiar no sistema, não na pessoa. Agora nem quem escreve nem quem revisa é mais pessoa, e a pergunta “quem verifica o verificador” só tem uma resposta sã: o pipeline.

Operar os agentes — e a fatura deles. A pesquisa de AIOps com LLM explodiu — tem survey na ACM Computing Surveys e uma lista curada de dezenas de papers de RCA, triagem de incidentes e remediação com agentes. Esses agentes vão rodar em algum lugar, com identidade, RBAC, audit trail, GPU scheduling e SLO. E depois do semestre que a Uber e a Microsoft tiveram, ficou óbvio que governar o custo deles é problema de primeira classe: a Tokenomics Foundation existir é o mercado admitindo que precisa de um FinOps da era dos agentes — caps, budgets, atribuição de gasto, otimização de model routing, cache de prompt. Quem já domou fatura de cloud reconhece esse filme do primeiro frame, e sabe que ele termina com uma disciplina nova dentro do guarda-chuva de plataforma. Isso é problema nosso. No melhor sentido: é oportunidade nossa.

Contexto de domínio e o modelo mental do sistema. O modelo sabe Kubernetes melhor que eu. Ele não sabe que aquele cluster da região X tem um peering capenga desde 2023 e que o time Y faz deploy na sexta por causa do fuso da Índia. E num mundo afundando em dívida de compreensão, quem ainda carrega o modelo mental do sistema — e o materializa em docs, ADRs e runbooks que tanto humanos quanto agentes consomem — vira o ativo mais escasso do time. Conhecimento commodity é o genérico; o específico do seu sistema é a sua alavanca, e é o que transforma um agente burro num agente útil.

O roadmap: o que estudar pra cobrir essas quatro arestas

Falar de habilidade abstrata é fácil; difícil é saber o que abrir na segunda-feira. Então aqui vai o mapa que eu acho interessante — um eixo macro por aresta, e os micro temas concretos dentro de cada um. Não é pra estudar tudo: é pra você se localizar e escolher onde está o seu maior gap.

Aresta 1 — Julgamento e direção

Macro: pensamento sistêmico e decisão sob incerteza. É a habilidade que menos automatiza e a que menos aparece em job description — mas é a que diferencia senior de staff.

Decisão como artefato: ADRs no formato MADR — que tem até paper acadêmico por trás (Kopp, Armbruster & Zimmermann, ZEUS 2018) — e RFCs internas: registrar por que além do o quê. (Se você nunca escreveu um ADR de verdade, comece por aí: é o exercício mais barato de julgamento que existe.)
SLOs e error budgets como linguagem de negociação: os livros de SRE do Google e o Implementing Service Level Objectives (Alex Hidalgo, O’Reilly) — SLO não é alerta, é ferramenta de decisão sobre risco.
Incident command e postmortems blameless: o guia público de incident response do PagerDuty é o melhor ponto de partida gratuito. Coordenar a resposta importa mais do que digitar o fix — ainda mais quando quem digita é um agente.
Spec-driven development: escrever especificações que um agente executa fielmente — o Spec Kit do GitHub formalizou a prática em workflow open source. Intenção bem escrita virou skill de engenharia, não de PM.

Aresta 2 — Verificação como propriedade do pipeline

Macro: transformar “correto” em código executável. O embasamento aqui é farto: o GenAI Code Security Report da Veracode testou 100+ LLMs em 80 tarefas e achou vulnerabilidade OWASP Top 10 em 45% do código gerado — taxa que não melhorou entre 2025 e 2026, mesmo com modelos maiores — e a literatura acadêmica documenta o problema desde Pearce et al., “Asleep at the Keyboard?” (arXiv:2108.09293, IEEE S&P 2022). Soma isso ao terço de PRs sem leitura da Faros e a conclusão é uma só: o pipeline é a última linha de defesa que sobrou.

Policy as code: OPA/Gatekeeper e Kyverno — políticas de admissão, conformidade e segurança que rodam em todo deploy, sem depender de humano lembrar.
Progressive delivery: Argo Rollouts ou Flagger — canary e blue/green com análise automática de métricas e rollback sem cerimônia. É o que torna seguro mergear volume.
GitOps como trilha de auditoria: ArgoCD ou Flux — todo estado desejado versionado, todo drift detectado. Quando 70% do commit vem de máquina, o histórico do Git é evidência forense.
Supply chain security: SLSA, Sigstore/cosign, SBOM com Syft/Grype — proveniência de artefato importa dobrado quando você não sabe quem (ou o quê) escreveu o código.
Testes que provam contrato: contract testing (Pact), testes de mutação, e chaos engineering — formalizado pela Netflix em paper (Basiri et al., Chaos Engineering, IEEE Software 2016, arXiv:1702.05843) e hoje acessível via Chaos Mesh ou LitmusChaos — pra validar hipóteses de resiliência em vez de torcer por elas.
Observabilidade como prova: OpenTelemetry de ponta a ponta e alertas de burn rate de SLO — comportamento em produção é o teste final que nenhum reviewer (humano ou modelo) substitui.

Aresta 3 — Operar os agentes e a fatura deles

Macro: o agente é um workload como outro qualquer — com identidade, SLO, superfície de ataque e budget. LLMOps é a parte nova; o resto é plataforma clássica aplicada a um vizinho barulhento.

Serving de inferência: vLLM — cujo paper do PagedAttention (Kwon et al., SOSP 2023, arXiv:2309.06180) é leitura obrigatória pra entender por que GPU de inferência desperdiça memória — e alternativas como SGLang e TGI. Quantização, continuous batching, KV cache: o básico de fazer GPU render.
GPU em Kubernetes: NVIDIA GPU Operator, MIG/time-slicing, autoscaling com Karpenter/KEDA — capacity planning voltou a ser hard skill.
Gateway e roteamento de modelos: LiteLLM, Envoy AI Gateway ou Kong AI Gateway — fallback entre provedores, caching de prompt, rate limiting por time. É o load balancer da era dos tokens.
Observabilidade de LLM: as convenções semânticas GenAI do OpenTelemetry como base neutra, e ferramentas como Langfuse, Arize Phoenix ou OpenLLMetry — mais evals contínuos. Trace de agente é o novo distributed tracing.
Protocolos e orquestração: MCP pra ferramentas, A2A pra agente-com-agente; frameworks como LangGraph no nível de aplicação e projetos K8s-native como o kagent (CNCF Sandbox) pra ciclo de vida via CRD e GitOps.
Segurança de agente: sandboxing de execução (gVisor, Firecracker, Kata), workload identity com SPIFFE/SPIRE, least privilege de tool calls, e o OWASP Top 10 para apps LLM. Prompt injection é o novo SQL injection — e indireta é pior: o paper que formalizou o ataque (Greshake et al., arXiv:2302.12173) deveria ser leitura de onboarding de qualquer time de plataforma.
FinOps de tokens: o framework da FinOps Foundation aplicado a inferência — atribuição de gasto por time, caps, showback/chargeback — e de olho na recém-anunciada Tokenomics Foundation, que quer padronizar exatamente isso.

Aresta 4 — Contexto de domínio e modelo mental

Macro: conhecimento institucional como infraestrutura — legível por humanos e por agentes. O whitepaper de Platforms da CNCF é a melhor base conceitual neutra do que “plataforma como produto” significa. É o eixo mais barato de começar e o mais subestimado.

IDP e service catalog: Backstage com TechDocs, ou alternativas gerenciadas como Port e Cortex — o catálogo é o mapa que dá contexto tanto pro dev novo quanto pro agente.
Docs-as-code e runbooks executáveis: runbook que vira automação, e arquivos de contexto pro time-agente — o padrão aberto AGENTS.md (e equivalentes como CLAUDE.md) virou a interface de conhecimento entre o seu repositório e os modelos.
RAG sobre o conhecimento interno: começa pelo paper original (Lewis et al., 2020, arXiv:2005.11401), escolhe um vector store (Qdrant, pgvector, Weaviate, Milvus — tanto faz pra aprender), e investe na parte que separa brinquedo de ferramenta: avaliação de retrieval, com frameworks tipo RAGAS. Agente sem contexto bom é estagiário confiante.
Postmortems e ADRs como dataset: escrever pensando que aquilo vai ser consumido por busca semântica daqui a dois anos. O incidente de hoje é o contexto do agente de amanhã.

Se eu tivesse que priorizar: começa pela aresta 2 — é onde os dados da Faros mostram o incêndio agora, e é o que mais transfere do que você já sabe. A 3 é onde está o crescimento (e as vagas). A 4 é o multiplicador silencioso que dá pra avançar em paralelo, um ADR por semana. E a 1 não se estuda num sprint — se pratica em todas as outras.

Um último dado pra fechar, porque ele resume o futuro pra mim. O Project Glasswing — a coalizão que junta Anthropic, AWS, Apple, Google, Microsoft, NVIDIA, a própria Linux Foundation e outros pra usar o Mythos defensivamente — encontrou mais de dez mil vulnerabilidades de severidade alta ou crítica em poucas semanas, e acabou de expandir pra mais 150 organizações em 15+ países, incluindo setores de energia, água e saúde. Achar vulnerabilidade, oficialmente, virou commodity.

E o detalhe mais revelador veio de um crítico do projeto: o Bruce Schneier, destrinchando o relatório de status, apontou que quase nenhuma dessas vulnerabilidades foi corrigida até agora. Dez mil falhas encontradas — e o patching não acompanha. Dá pra discordar do Schneier sobre o quanto disso é PR da Anthropic; mas a observação dele confirma, por via independente, a tese: o gargalo da segurança mundial deixou de ser achar e passou a ser corrigir rápido o suficiente — em produção, sem derrubar nada, em escala.

Isso, meus amigos, é ops. Sempre foi.

A IA não está tirando a confiabilidade de moda. Ela está fabricando mudança numa velocidade que torna a confiabilidade o recurso mais escasso do sistema. E escassez, como todo mundo que já negociou salário sabe, é onde mora o valor.

Fontes e leituras

Notícias da semana

Anthropic Institute — When AI builds itself (jun/2026)
Reuters — Anthropic says AI labs need coordinated plan to halt development if risks rise
The Economist — Will artificial intelligence soon escape human control?
TechCrunch — Anthropic’s Claude Fable 5 is a version of Mythos the public can access today
NBC News — cobertura do lançamento do Fable 5
CNBC — anúncio do Fable 5 e Mythos 5 e expansão do Project Glasswing pra 150 organizações
ECO (em português) — Anthropic lança Claude Fable 5, a versão pública do modelo Mythos com novas salvaguardas
crypto.news — os classificadores de segurança do Fable 5
CRN — 5 things to know on Anthropic’s Claude Mythos and Project Glasswing
BBC — cobertura

Project Glasswing em profundidade

Anthropic — página oficial do Project Glasswing, o update inicial com os números e o deep dive técnico do red team
Cloudflare — Project Glasswing: what Mythos showed us — relato prático de um parceiro usando o modelo em segurança real (leitura obrigatória pra quem é de infra)
Schneier on Security — Anthropic’s Project Glasswing Update — o contraponto cético

A conta chegando (custo operacional da IA)

Fortune (mai/2026) — Uber burned through its entire 2026 AI budget in four months
Fortune (mai/2026) — Microsoft reports are exposing AI’s real cost problem
TechCrunch (jun/2026) — The token bill comes due: inside the industry scramble to manage AI’s runaway costs (inclui o anúncio da Tokenomics Foundation, da Linux Foundation)

Papers e estudos

Becker, Rush, Barnes & Rein (METR, 2025) — Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity — arXiv:2507.09089
METR (fev/2026) — We are Changing our Developer Productivity Experiment Design (o follow-up do estudo acima)
Kwa et al. (METR, 2025) — Measuring AI Ability to Complete Long Tasks — arXiv:2503.14499 e o tracker metr.org/time-horizons
DORA / Google Cloud (2025) — State of AI-assisted Software Development e o follow-up The ROI of AI-assisted Software Development (2026)
Faros AI (mar/2026) — AI Engineering Report 2026: The Acceleration Whiplash — telemetria de 22 mil devs / 4 mil times
Addy Osmani (mar/2026) — Comprehension Debt: the hidden cost of AI-generated code (também na O’Reilly Radar)
Beyond Technical Debt: How AI-Assisted Development Creates Comprehension Debt in Resource-Constrained Indie Teams — arXiv:2512.08942
Zhang et al. (2025) — A Survey of AIOps in the Era of Large Language Models — ACM Computing Surveys — doi:10.1145/3746635
Cottier et al. (Epoch AI, 2025) — LLM inference prices have fallen rapidly but unequally across tasks
Algorithmic Efficiency and the Falling Cost of AI Inference (2025/2026) — arXiv:2511.23455
Siegel et al. (2024) — CORE-Bench (reprodutibilidade de pesquisa por agentes) — arXiv:2409.11363
Curadoria de papers LLM+AIOps — awesome-LLM-AIOps

Papers e relatórios citados no roadmap

Veracode (2025, atualizado 2026) — GenAI Code Security Report
Pearce et al. (IEEE S&P 2022) — Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions — arXiv:2108.09293
Greshake et al. (2023) — Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection — arXiv:2302.12173
Kwon et al. (SOSP 2023) — Efficient Memory Management for Large Language Model Serving with PagedAttention (o paper do vLLM) — arXiv:2309.06180
Lewis et al. (NeurIPS 2020) — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — arXiv:2005.11401
Es et al. (2023) — RAGAS: Automated Evaluation of Retrieval Augmented Generation — arXiv:2309.15217
Basiri et al. (IEEE Software 2016) — Chaos Engineering — arXiv:1702.05843
Kopp, Armbruster & Zimmermann (ZEUS 2018) — Markdown Architectural Decision Records: Format and Tool Support
CNCF TAG App Delivery — Platforms White Paper