Digital Fraud

Como a Axur usa machine learning para encontrar phishings

Por André Luiz R. Silva em
COMPARTILHAR

Você lembra dos robôs inteligentes em A.I. - Inteligência Artificial? Pois esse conceito tecnológico também se aplica no monitoramento de ameaças digitais! Aqui na Axur nós aplicamos o estado da arte das técnicas de machine learning na identificação de casos de phishing. Dentre os milhões de URLs que coletamos todos os dias, detectamos de forma rápida casos que poderiam afetar centenas de milhares de pessoas desavisadas. E todo o processo é muito interessante, olha só:

 

Machine learning: ensinem as máquinas!


Inteligência artificial? Machine learning? É tudo a mesma coisa? Não! É assim: a inteligência artificial é um grande campo (chega a ser um termo genérico, para falar a verdade). Ela engloba o machine learning, que é o processo pelo qual as máquinas são ensinadas a observar padrões para fazer tomadas de decisão. E, dentro do machine learning, existem ainda dois tipos:

  • Não supervisionado: é aquele que não precisa de acompanhamento, como um “autodidata” – esse tipo é usado, por exemplo, nos algoritmos de buscas da Google, que vai sendo constantemente alimentado pelo comportamento dos usuários
  • Supervisionado: é aquele que precisa ser treinado a partir de um dataset (conjunto de dados) de exemplo, com os resultados desejados e as marcações (de “verdadeiro” ou “falso”, por exemplo). Essas marcações são feitas manualmente para garantir que o modelo, após treinado, imite o comportamento humano na classificação das ocorrências – é esse o tipo que utilizamos na detecção de phishing!

 

Data science, algoritmos e muitas análises: como funciona o machine learning da Axur


O funcionamento do machine learning da Axur é bem simples – não necessariamente de fazer, claro. Mas dá para explicar o processo: tudo começa com uma base de dados, que vai e vem de diversos testes e melhorias para que depois as ações possam ser implementadas no descarte de URLs. Por “diversos” entenda muitos mesmo, pois alguns datasets levam meses ou mais para serem preparados e podem ter milhões de dados! Mas vamos do início:


Preparando os datasets

Primeiro, data science: nosso time de machine learning coleta uma base de dados com diversas URLs detectadas e que já foram verificadas pelo time de Digital  Fraud Discovery.  Em cada uma das linhas, existe um true para ocorrências que são de fato phishings ou um false para aquelas que são legítimas.

Essa base de dados é usada na primeira aula do algoritmo inicial: ele recebe uma parte dela para aprender e a parte restante para testar seu aprendizado. Ah! O processo todo é feito usando linguagens de programação específicas para a ciência de dados, com o uso de estruturas híbridas, on-premise e em nuvem, o que permite um maior poder computacional.

Depois, os resultados são conferidos por analistas especialistas em phishing, que validam os resultados e apontam anormalidades para o time de data science.


Entendendo as features: uma lição de cada vez

Agora vem uma das partes mais importantes do processo de implementação de machine learning: a chamada feature engineering, que consiste em identificar as características que permitem diferenciar os phishings dos casos legítimos de forma precisa. Alguns exemplos de features, na análise de URLs, são:

  • TLDs (top-level domains): é um campo importante pois, em phishings, é muito comum o uso de domínios .tk e .ml
  • Palavras suspeitas: termos como ‘promo’, ‘diadasmaes’ e tantos outros são muito recorrentes em phishings. Nossa lista de palavras suspeitas é um compilado dos últimos 10 anos de detecções
  • E tantos outros exemplos! Além das URLs, também podem ser analisados elementos de HTML, como um campo para a inserção de senha, e qualquer outra coisa relativa a sites


Ao todo, chegamos a analisar mais de 80 features. Com todas elas disponibilizadas, é hora de testes, testes e mais testes: a partir de análises de estatísticas, vários números e porcentagens mostram quais são as combinações mais adequadas para obter o maior número possível de acertos.

 

Controles de qualidade e monitoramento constantes


De todas as ocorrências identificadas como phishing, um pequeno percentual delas é enviado aleatoriamente para análise da equipe – isso nos permite conferir se a máquina está realmente acertando. Atualmente, a taxa de acerto dos algoritmos utilizados para validação de phishing é superior ao acerto da validação humana, afinal de contas, errar é humano. Nosso processo consegue validar um volume gigante de dados em minutos.

Quer saber mais como funciona todo o processo de monitoramento e reação da Axur a riscos digitais? Então dê uma conferida na solução Digital Fraud  Discovery, que é aquela que cuida para que nenhum phishing ou malware afete sua marca por muito tempo. Quem sabe o machine learning não pode ser um aliado?

 

 

Especialista convidado_

Mateus Dalponte

PhD em Física Aplicada e membro da Axur há 8 anos, tendo iniciado como gerente de operações de detecção, análise e remoção de fraudes. Atualmente, é responsável pela equipe de Data Science e Machine Learning, atuando na automação e ganho de escala da detecção de ameaças digitais.

event-image

ESPECIALISTA CONVIDADO

Eduardo Schultze, Coordenador do CSIRT da Axur, formado em Segurança da Informação pela UNISINOS – Universidade do Vale do Rio dos Sinos. Trabalha desde 2010 com fraudes envolvendo o mercado brasileiro, principalmente Phishing e Malware

AUTOR

André Luiz R. Silva

Jornalista formado pela UFRGS e Content Creator da Axur, responsável pelo Deep Space e por atividades de imprensa. Também já analisei dados e fraudes na equipe de Brand Protection aqui na Axur. Mas, em resumo: meu brilho nos olhos é trabalhar com tecnologia, informação e conhecimento juntos!