Um bilhão de commits: como a IA está inundando o GitHub com segredos de código

Escrito por Time de Conteúdo | Apr 17, 2026 10:15:58 PM

Há um número que deveria estar chamando a atenção de todas as equipes de segurança agora: 1 bilhão.

É aproximadamente quantos commits os desenvolvedores enviaram ao GitHub em 2025, um aumento de 25% em relação ao ano anterior, de acordo com o relatório Octoverse 2025 do GitHub. Mais de 230 novos repositórios foram criados por minuto. Mais de 36 milhões de novos desenvolvedores ingressaram na plataforma em um único ano, mais de um por segundo.

Essas são métricas de produtividade. Mas também são métricas de exposição. Porque enterrado nesse volume de código há um inventário crescente de segredos: chaves de API, tokens de acesso, credenciais de banco de dados, senhas de contas de serviço, enviados para repositórios públicos por desenvolvedores que ou não perceberam que estavam lá, ou presumiram que ninguém olharia.

A IA não criou esse problema. Mas está o tornando significativamente pior, mais rápido do que a maioria das organizações está preparada para lidar.

O multiplicador do "vibe coding"

O GitHub Copilot agora faz parte da experiência padrão do desenvolvedor. Cerca de 80% dos novos usuários do GitHub experimentam o Copilot na primeira semana na plataforma. Mais de 1,1 milhão de repositórios públicos dependem de um SDK de LLM, número que cresceu 178% ano a ano, com quase 700 mil desses repositórios criados apenas nos últimos doze meses.

Isso importa além da produtividade. Muitos dos desenvolvedores que impulsionam esse crescimento estão construindo aplicações de produção usando assistentes de IA e prompts em linguagem natural, às vezes sem familiaridade profunda com o código gerado ou com as implicações de segurança das decisões de design feitas por eles. A indústria começou a chamar isso de "vibe coding", e isso introduz uma classe específica de risco em escala.

O relatório de dezembro de 2025 da CodeRabbit descobriu que o código gerado por IA contém 70% mais erros do que o código escrito por humanos, e esses erros tendem a ser mais graves. Vulnerabilidades de segurança aparecem em quase três vezes a linha de base humana. Configurações incorretas são 75% mais frequentes. A rotatividade de código aumentou 41%, o que significa que mais código está sendo escrito, revisado e commitado em um ritmo que comprime os ciclos de revisão que historicamente detectavam a exposição de credenciais antes de chegar a um branch público.

O sinal de exposição de segredos é direto: commits com assistência de IA mostram uma taxa de exposição de 3,2%, em comparação com uma linha de base de 1,5% em todos os commits públicos do GitHub. Aplicado a um bilhão de commits, a aritmética não é confortável.

De código vulnerável a infraestrutura explorável

O Laboratório de Segurança e Software de Sistemas do Georgia Tech rastreou pelo menos 35 CVEs divulgados apenas em março de 2026 que foram resultado direto de código gerado por IA. Isso é um único mês. Não são descobertas hipotéticas. São vulnerabilidades reais em softwares de produção que chegaram a repositórios públicos e foram subsequentemente catalogadas no banco de dados nacional de vulnerabilidades.

Os próprios dados de CodeQL do GitHub reforçam o padrão. Em 2025, o controle de acesso quebrado superou a injeção como o alerta de CodeQL mais comum, sinalizado em mais de 151.000 repositórios. Uma parte significativa decorre de endpoints gerados por IA que parecem sintaticamente corretos, mas ignoram verificações críticas de autenticação, uma classe de erro difícil de detectar sem revisão deliberada e fácil de ser produzida por LLMs quando otimizam para código funcional em vez de código seguro.

O que torna as exposições de segredos distintas de outras classes de vulnerabilidade é a imediatidade da janela de dano. Um endpoint de autenticação mal configurado exige que um invasor o identifique, compreenda e construa um exploit. Uma chave de API exposta pode ser coletada, validada e usada como arma em minutos. Scanners automatizados indexam continuamente o GitHub em busca de padrões de credenciais, e a janela entre uma credencial ser enviada e um desses scanners encontrá-la é estreita. É exatamente por isso que a velocidade de detecção importa tanto quanto a cobertura de detecção.

O problema de escala para o qual as equipes de segurança não foram criadas

As equipes de segurança não foram projetadas para monitorar uma plataforma que cresce a 230 repositórios por minuto.

A revisão manual de código não escala para um bilhão de commits. Varreduras periódicas perdem a janela em que uma credencial exposta está ativa. Volume de alertas sem contexto é um desafio estrutural para o setor em geral. Sem priorização, mesmo equipes bem equipadas acabam gerenciando um backlog em vez de fechar janelas de exposição.

A exposição raramente é óbvia. Ela não se anuncia. Acumula-se silenciosamente em arquivos de configuração, scaffolds de teste e históricos de commits que persistem muito depois que o commit de "correção" remove o segredo do branch atual. As próprias ferramentas do GitHub podem identificar alguns desses padrões, mas volume bruto de alertas sem contexto não é um resultado de segurança.

Detecção contínua em vez de conscientização periódica

As organizações que lidam bem com isso geralmente migraram para a detecção automatizada e contínua, tratando repositórios de código como parte de sua superfície de ataque externa, em vez de uma preocupação separada para os desenvolvedores autopoliciarem.

O Code Secret Exposure da Axur monitora continuamente repositórios públicos, incluindo o GitHub e outras plataformas, em busca de segredos, chaves de API, tokens e credenciais associados à sua organização. Quando uma correspondência é encontrada, ela é apresentada como um alerta priorizado e acionável, em vez de um sinal bruto para uma equipe fazer a triagem manualmente. O objetivo é fechar a janela de exposição antes que um invasor a encontre, não reconstruir o que aconteceu depois.

A solução de Exposição de segredo de código é uma das várias capacidades dentro do conjunto de Vazamento de dados da Axur. O conjunto cobre exposição de credenciais corporativas e de clientes, credenciais coletadas por infostealers, exposições de dados sensíveis e exposição de cartões de crédito, além de segredos em repositórios públicos. Cada caso de uso representa um vetor diferente pelo qual os dados da sua organização podem aparecer em lugares onde não deveriam.

O que as equipes de segurança podem fazer agora

Se sua organização usa assistentes de codificação por IA e a maioria usa neste ponto, há alguns lugares concretos nos quais focar a atenção.

Comece com visibilidade. Saiba se alguma das chaves de API, tokens ou credenciais de serviço da sua organização está atualmente exposta em um repositório público, e certifique-se de que o monitoramento cubra não apenas os estados atuais dos arquivos, mas também históricos de commits, forks e gists, onde os segredos frequentemente persistem muito depois que um desenvolvedor acredita tê-los removido.

Em seguida, certifique-se de que as descobertas sejam acionáveis. Os alertas de exposição só são úteis se forem priorizados e vinculados a um caminho claro de remediação. Uma longa fila de descobertas indiferenciadas não move o ponteiro; apenas aumenta a carga de trabalho.

Esses são problemas solucionáveis. O desafio é fazê-lo na escala em que o desenvolvimento moderno realmente opera.

A superfície de código está crescendo mais rápido do que qualquer equipe pode supervisionar manualmente. Construir visibilidade sobre ela agora, antes que a exposição se torne um incidente, é o passo mais prático disponível.

A solução de Exposição de segredo de código da Axur faz parte do conjunto Vazamento de dados. Saiba mais ou faça uma verificação de ameaças gratuita.

Fontes: GitHub Octoverse 2025 (github.blog); relatório CodeRabbit dezembro de 2025; Georgia Tech Systems Software and Security Lab, divulgações de CVE de março de 2026.

Visualizar publicação completa