No início do milênio, a internet apresentou a barra de pesquisas do Google. Esse método de busca de informações foi amplamente utilizado até o surgimento das IAs generativas de texto. As chamadas LLMs (Large Language Models) permitem que o usuário converse com um interlocutor virtual que, tecnicamente, foi “ensinado” a responder sobre os mais diversos assuntos e a imitar a linguagem humana.
Paradigmas da IA
O paradigma de recuperação de informações clássico, estilo Google, realiza buscas de documentos na Web relacionados às consultas de usuários. Grande parte dessa utilização é do tipo informacional, isto é, tem como objetivo encontrar informações, fatos ou conhecimento. Essa necessidade nos conduziu ao paradigma atual, dos LLMs, em que um modelo de linguagem aprende conteúdo informacional a partir de uma enorme base de conhecimento fixa.
O LLM exige um aprendizado de máquina sofisticado, alimentado com uma base massiva de informações. Trata-se de um pré-treinamento que, em regra, não ocorre durante o momento da operação, o que pode gerar uma defasagem temporal.
— Marcelo Pita, desenvolvedor da área de Inteligência Artificial Generativa do Serpro
Diante disso, como alimentar os LLMs com novas informações e garantir a atualização dos dados? O RAG (Retrieval-Augmented Generation), uma arquitetura híbrida de IA que combina busca de informações externas contextuais com geração de texto, foi desenvolvido justamente para atender a essa demanda.
O que é RAG?
RAG, ou Retrieval-Augmented Generation, é uma técnica que possibilita a inclusão de dados externos e em tempo real nos modelos de linguagem (LLMs). Ou seja, o sistema consegue buscar informações atualizadas para gerar respostas mais precisas e relevantes.
Além disso, essa abordagem permite que os modelos de linguagem se adaptem dinamicamente a novos cenários e informações, sem a necessidade de um retreinamento completo.
“Rag esperto”
O desenvolvimento de um sistema RAG envolve algumas decisões importantes. Uma delas é o “chunking”, que organiza os dados em grupos ou “pedaços”, já os modelos de embedding capturam o significado. As estratégias de busca, por sua vez, encontram o conteúdo certo e, por fim, a inserção de contexto no prompt garante que a resposta seja clara e fiel aos dados.
No ‘RAG esperto’, o chunking é feito de forma semântica, passando por uma curadoria cuidadosa para dividir as informações em partes que fazem sentido juntas, agrupando ideias relacionadas com cada ‘pedaço’, representando um tópico ou conceito coerente.
— Marcelo Pita
Outras características de um modelo de desenvolvimento ideal incluem o uso de embeddings especializados, busca com variáveis estratégicas, curadoria humana e armazenamento em cache otimizado para recuperar informações e gerar respostas.
Serpro RAG Engine
Segundo Pita, com o Serpro RAG Engine, a empresa pública está preparada para executar projetos de IA Generativa personalizados com a tecnologia RAG.
O RAG é uma das estratégias mais interessantes e de menor custo para agregar conhecimento às LLMs. A arquitetura básica é bastante simples, mas o segredo está na combinação das estratégias utilizadas para diminuir o custo e otimizar a qualidade das respostas.
— Marcelo Pita, desenvolvedor do Serpro
Semana de IA do Serpro
Confira no canal do Serpro no YouTube a íntegra da apresentação de Marcelo Pita durante a Semana de IA do Serpro. O evento foi realizado entre os dias 13 e 17 de outubro, na sede do Serpro, em Brasília, cumprindo o objetivo de promover a discussão e o compartilhamento de experiências com palestras de especialistas de governo, empresas de TI e profissionais de mercado, além de workshops para apresentar cases reais, direcionamentos estratégicos e tendências globais na área.






