
O Serpro lança em breve uma chamada pública em busca de um parceiro para construir uma IA generativa em português, com objetivo de treinar e operar grandes modelos de linguagem (LLMs) com dados nacionais em poder do governo brasileiro.
Em conversa com jornalistas, o time de inteligência artificial do Serpro adiantou detalhes do desenvolvimento que já é feito na estatal, com IA presente em múltiplos produtos que extrapolam o setor público. E apontaram aonde o Serpro quer chegar com uma LLM própria.
“A capacidade de treinar LLM, que é uma coisa que a gente está desenvolvendo na nossa área, é um grande diferencial em nível internacional. Não é qualquer empresa que trabalha com LLM hoje que consegue fazer treinamento de LLM com novas bases”, resumiu o cientista de dados Marcelo Pita.
Com ele nessa conversa, o superintendente de Arquitetura Corporativa, Plataformas Inteligentes e Engenharia de Nuvem do Serpro, Welsinner Brito, o gerente do Centro de Excelência em Ciência de Dados e IA, Carlos Rodrigo Lima, e o gerente da Divisão de IA Generativa, Ronaldo Agra.
Segundo técnicos do Serpro, a plataforma de IA generativa da estatal combina o uso de modelos open source, disponíveis em ambientes como o TensorFlow, com parcerias firmadas com as principais empresas globais de tecnologia. Entre os modelos já em operação estão o Mistral, o Gemma 3 (da Google), o Deepseek, o Llama (da Meta), o Qwen (da Alibaba), o GPT OSS (da OpenAI), e o Gaia, desenvolvido pela Universidade Federal de Goiás como uma versão aprimorada do Gemma, adaptada ao português brasileiro.
Todos esses sistemas rodam on premises, ou seja, dentro dos data centers do Serpro. “É um primeiro passo de soberania porque esses dados, esses modelos estão rodando não só no território brasileiro, mas dentro do data center do Serpro, controlado pelo Serpro”, diz o superintendente Welsinner Brito, o Lobinho.
É uma soberania operacional. A soberania técnica é o que a empresa busca com o desenvolvimento a partir dessa anunciada parceria, que em si também promove uma soberania cultural, por meio de LLMs em português do Brasil. “E com soberania de dados, que vai ajudar, primeiro, na governança desses dados, para garantir que o critério de seleção, qualidade e tudo mais vai ser feito por nós e a partir disso usado no treinamento.”
Segundo a equipe, o parceiro deverá atender a alguns requisitos técnicos mínimos, como capacidade multimodal — interpretação de texto e imagem — e pelo menos 10 bilhões de parâmetros. O projeto também prevê a atualização contínua dos modelos e a possibilidade de treinar novas versões com dados específicos de interesse governamental.
A equipe enfatiza que o trabalho com IA envolve preocupações éticas e técnicas relevantes, especialmente na redução de viés e na qualidade das respostas geradas. Estratégias como fine-tuning e continuous training fazem parte do processo para aprimorar o desempenho e garantir que os modelos reflitam o conhecimento e a cultura brasileiros.





