Uma lista de leitura para desenvolvimento aumentado por IA
Este é o último post da série. É uma lista de leitura. Não uma lista abrangente — não faltam dessas — mas uma pequena, opinativa, com notas pessoais sobre por que cada item está nela.
A maioria dos itens abaixo são coisas às quais genuinamente voltei. Alguns são coisas que ainda não terminei mas sobre as quais me sinto seguro o suficiente pra recomendar. Agrupei de forma aproximada, com anotações curtas explicando o que cada um me ensinou e quando eu indicaria pra alguém.
Este post está marcado como human-written. A lista é minha. As notas são minhas. Prefiro uma lista curta e honesta do que uma longa e polida.
Fundamentos — por que modelos de linguagem fazem o que fazem
Se você está trabalhando com AI coding agents a sério, ter ao menos um modelo mental aproximado de o que realmente está dentro do modelo se paga em tudo mais que você fizer.
Andrej Karpathy — talks Intro to Large Language Models e State of GPT. O melhor resumo conciso que encontrei. A pedagogia do Karpathy é excepcionalmente clara; ele constrói a intuição camada por camada. Se você nunca assistiu um talk que explica o que é um transformer, o que o treino faz, e o que um modelo instruction-tuned está fazendo diferente de um modelo base, comece aqui. Os talks estão no YouTube. Duas horas no total. Vale a pena.
Andrej Karpathy — Deep Dive into LLMs Like ChatGPT. Uma versão mais recente e mais longa da mesma ideia, com mais profundidade em RLHF, instruction tuning, e o formato das capacidades de modelos modernos. Se você só for assistir um talk do Karpathy, assista este.
Andrej Karpathy no X / Twitter. Eu checo o feed dele quando quero saber quais observações sobre trabalhar com LLMs estão prestes a virar consenso. As guidelines comportamentais que codifiquei nas minhas próprias rules — levantar premissas, empurrar de volta, simplificar, definir sucesso — foram afiadas observando os comentários dele sobre erros comuns de coding com LLM. Ele posta esporadicamente e a maioria do que posta vale a leitura.
Stephen Wolfram — What Is ChatGPT Doing… and Why Does It Work?. Leitura longa, levemente idiossincrática, mas te dá um ângulo diferente sobre o mesmo conteúdo. Vale ler uma vez se Karpathy te deixou querendo mais profundidade na matemática.
Praticantes escrevendo sobre trabalhar com ferramentas de IA
Esse é o gênero mais difícil de fazer bem. A maioria dos posts sobre ferramental de IA são hype sem fôlego ou genéricos. Os escritores abaixo consistentemente acertam o meio útil.
Simon Willison — Simon Willison’s Weblog. Provavelmente o recurso de trabalho mais útil que tenho pra ficar atualizado. Ele posta quase diariamente, com observações hands-on sobre ferramentas, modelos e padrões. As páginas de tags dele — prompt engineering, llm, agents — são densas com exemplos concretos e replicáveis. Quando sai um novo modelo ou ferramenta, o post dele geralmente é o que te diz se é realmente diferente.
Geoffrey Litt — ensaios em geoffreylitt.com. Peças reflexivas sobre IA como colaborador criativo, frequentemente ancoradas em projetos específicos. Os textos dele sobre programação para o usuário final e software pessoal na era da IA moldaram como penso sobre as ferramentas pequenas que construo pra mim mesmo.
Maggie Appleton — ensaios e gráficos sobre IA e computação. Visual, reflexiva, com cadência mais lenta e horizonte de tempo mais longo. O texto dela sobre a floresta escura em expansão e modelos de linguagem como ferramentas em formato de pessoa me ajudaram a pensar sobre os custos e oportunidades mais sutis desses sistemas.
Subbu Allamaraju — textos sobre IA em times de engenharia reais. Prático, gentil, escrito de dentro de uma organização de engenharia real. Útil quando quero pensar sobre como essas coisas escalam além de um único praticante.
Documentação de ferramentas que realmente vale ler
Alguma documentação de ferramentas é material de referência que você só lê quando algo quebra. As seguintes valem ser lidas proativamente, mesmo quando nada está quebrado.
Docs do Cursor — particularmente as páginas de rules, agent skills (antes slash commands), e subagents. O modelo conceitual nessa documentação é no que construí a maior parte desta série do blog. Se você usa Cursor e nunca leu a seção de rules do começo ao fim, leia.
Documentação do Claude Code — particularmente as seções sobre CLAUDE.md, configuração no nível de projeto vs. no nível de usuário, e integrações de ferramentas. Mesmo que você não use Claude Code, o enquadramento é claro e complementar ao do Cursor.
Anthropic — Building with Claude e documentação de Prompt Engineering. A documentação de prompt engineering da Anthropic é excepcionalmente excepcionalmente útil para documentação de um vendor. O prompt engineering interactive tutorial em particular vale ser trabalhado.
OpenAI — Prompt Engineering Guide e o Cookbook. Mesma recomendação num sabor diferente. O Cookbook em particular tem muitos pequenos exemplos trabalhados que são bons pra construir intuição, mesmo que você acabe usando um provider diferente.
Documentação do LangGraph. Eu admiti no post anterior que meu modelo mental do LangGraph é mais nebuloso do que deveria. A documentação oficial é mais densa do que parece na primeira leitura; uma segunda passagem lenta é onde comecei a realmente entender o runtime. Seções específicas que merecem tempo focado: as páginas de checkpointing, streaming, e human-in-the-loop.
Especificação do Model Context Protocol (MCP). A spec do MCP em modelcontextprotocol.io é curta e vale ler mesmo que você não planeje escrever um servidor hoje. Saber o que são tools, resources e prompts no nível do protocolo muda como você pensa sobre capacidades de agentes.
Prompt engineering, além do básico
Além dos tutoriais introdutórios, alguns recursos me ensinaram coisas que eu não esperava.
OpenAI — GPT-5 Prompting Guide (e o equivalente pra qualquer que seja o atual). Os guias de prompting específicos por modelo valem a leitura porque cada geração tem mudanças pequenas mas reais no que funciona. Ler o guia do modelo que você está realmente usando pega quirks específicos que de outra forma levariam semanas pra descobrir.
Anthropic — posts de Constitutional AI e Claude’s Constitution. Leitura de contexto sobre como o modelo foi treinado pra empurrar de volta, preferir honestidade sobre bajulação, e reconhecer limites. Contexto útil pra entender por que alguns padrões de prompt funcionam melhor que outros especificamente no Claude.
Lilian Weng — ensaios em lilianweng.github.io. Longos, técnicos, detalhados. Os posts dela sobre prompt engineering, padrões de agentes, e alucinações de LLM são qualidade de referência. Leituras lentas, muitas citações, densos.
Livros que valem uma leitura lenta
Sou criterioso com livros nessa área. A maioria está desatualizada quando é impressa. Os abaixo têm algo mais durável pra oferecer além da sua atualidade.
Ethan Mollick — Co-Intelligence. O livro mais legível sobre como é trabalhar com IA tanto pra engenheiros quanto pra não-engenheiros. Mollick escreve sobre como IA muda como trabalhamos, com dados reais de sala de aula e ambiente de trabalho por trás das observações. Leve em ferramental, forte no lado humano.
Cal Newport — Deep Work e A World Without Email. Não são sobre IA diretamente, mas o enquadramento de atenção como recurso escasso é mais relevante do que nunca. A separação que Newport faz entre deep work e shallow work mapeia bem pra o que a IA delega bem versus o que não delega.
Sönke Ahrens — How to Take Smart Notes. O livro que realmente mudou como eu faço journaling e como estruturo notas de longo prazo. O método zettelkasten que ele descreve é algo que sistemas de IA podem amplificar dramaticamente, mas a disciplina por baixo é o que importa.
Andy Clark — Surfing Uncertainty ou The Experience Machine. Livros de ciência cognitiva sobre como a mente funciona como um motor de predição. Te dão um ângulo diferente sobre o que modelos de linguagem são e não são. Longos, densos, opcionais mas recompensadores.
Papers e pesquisa de formato mais longo
Nada exaustivo. Só os poucos que eu volto a consultar.
Anthropic — paper Sleeper Agents (2024). Uma leitura sóbria sobre os limites de safety training. Vale não pelo conselho prático imediato mas pra calibrar quanta confiança depositar em qualquer mitigação individual.
OpenAI / Anthropic — literatura sobre Faithful chain-of-thought reasoning. Um corpo crescente de trabalho sobre se as explicações que modelos produzem realmente refletem seu raciocínio interno. O resumo honesto é “às vezes, condicionalmente, menos do que você esperaria.” Vale ler pra calibração mesmo que os detalhes técnicos estejam acima do nível que você precisa no dia a dia.
Os vários papers de agent benchmark. Não mantenho uma opinião forte sobre nenhum benchmark individual, mas ler alguns ajuda a ver com que tipo de falhas o campo está realmente lutando. SWE-bench, GAIA e benchmarks de agentes similares são bons pontos de entrada.
Como ler esta lista
Algumas sugestões se você quiser realmente usar isto ao invés de só admirar. Escolha a seção que mapeia pra lacuna que você está sentindo agora, e leia cada fonte na cadência que ela pede: talks do Karpathy são para assistir devagar, Simon Willison é leitura diária rápida, Lilian Weng é leitura de fim de semana, livros são meses.
Mantenha suas próprias notas. Esta é a meta-recomendação que se liga aos posts de journaling nesta série. Leitura sem escrita é na maioria entretenimento. O ponto de uma lista de leitura é semear suas próprias notas de trabalho — o que grudou, o que me surpreendeu, o que quero experimentar. As notas são onde a leitura se transforma em capacidade.
Atualize. Esta lista vai estar parcialmente errada em seis meses. Alguns dos recursos terão rotacionado; novos vão merecer estar nela. Mantenha sua própria versão. A minha vai estar desatualizada no próximo ano, e vou ficar feliz com isso — significa que o campo continuou se movendo.
Um pequeno agradecimento
Este é o último post da série. Vinte e um posts ao longo de três semanas. Se você chegou até aqui, obrigado — eu subestimei o tamanho do pedido, e o fato de que você leu qualquer parte disso (quanto mais vários) significa algo pra mim.
A série foi um experimento em duas direções. Consigo planejar e escrever vinte e um posts em lotes, com um agente de IA ajudando em cada camada, sem perder a voz? Essa resposta acabou sendo: na maioria sim, com esforço. O trabalho de voz foi real; o trabalho de planejamento foi real; a IA fez o trabalho pesado na geração de rascunhos mas nunca o trabalho editorial. A tag em cada post — human-written ou ai-assisted — é minha melhor declaração honesta de quem fez o quê.
A outra direção era: uma série como esta pode ser útil pra alguém tentando resolver as mesmas coisas? Ainda não sei. Se foi, ficaria feliz em saber. Os canais de contato estão no final do site. Os comentários em cada post estão abertos.
De qualquer forma, vou voltar a escrever um post de cada vez, no ritmo que o trabalho sugerir, sem marcação de série. Obrigado por ler.