Cómo utiliza Axur el machine learning para encontrar phishings

Escrito por André Luiz Rodrigues | 02-oct-2019 17:31:15

¿Recuerda los robots inteligentes de A.I. Inteligencia artificial? ¡Pues ese concepto tecnológico también se aplica en el monitoreo de amenazas digitales! Aquí, en Axur, aplicamos el estado del arte de las técnicas de machine learning en la identificación de casos de phishing. Entre los millones de URLs que recolectamos todos los días, detectamos de forma rápida los casos que podrían afectar a cientos de miles de personas desprevenidas. Todo el proceso en muy interesante.

Machine learning: ¡enseñar a las máquinas!

¿Inteligencia artificial? ¿Machine learning? ¿Todo es lo mismo? ¡No! Es así: la inteligencia artificial es un gran campo (en realidad, llega a ser un término genérico). Engloba el machine learning, que es el proceso por el cual se le enseña a las máquinas a observar patrones para la toma de decisiones. Dentro del machine learning, existen dos tipos:

No supervisado: es el que no necesita acompañamiento, como un “autodidacta”. Este tipo es el que se usa, por ejemplo, en los algoritmos de búsqueda de Google que es alimentado constantemente por el comportamiento de los usuarios.
Supervisado: es el que precisa ser entrenado a partir de un dataset (conjunto de datos) como ejemplo, con los resultados deseados y las marcaciones (de “verdadero” o “falso”, por ejemplo). Esas marcaciones se realizan manualmente para garantizar que el modelo, luego de entrenado, imite el comportamiento humano en la clasificación de los incidentes. ¡Este tipo es el que utilizamos en la detección del phishing!

Data science, algoritmos y mucho análisis: cómo funciona el machine learning de Axur

El funcionamiento del machine learning de Axur es muy simple, aunque no necesariamente de hacer, claro. Pero se puede explicar el proceso: todo comienza con una base de datos, que va y viene en diversas pruebas y mejoras para que luego las acciones puedan ser implementadas en el descarte de URLs. Por “diversas” entiéndase muchas de verdad, ya que algunos datasets se preparan por meses o más y pueden tener millones de datos. Pero empecemos por el principio:

Preparando los datasets

Primero, data science: nuestro equipo de machine learning recoge una base de datos con diversas URLs detectadas y que ya fueron verificadas por el equipo de Digital Fraud Discovery. En cada una de las líneas, existe un true para los incidentes que de hecho son phishings o un false para aquellos que son legítimos.

Esta base de datos es usada en la primera clase del algoritmo inicial: una parte de ella se emplea para aprender y la parte restante para probar lo aprendido. ¡Ah! Todo el proceso se realiza utilizando lenguajes de programación específicos para la ciencia de los datos, más el uso de estructuras híbridas on-premise y en la nube, lo que permite un mayor poder computacional.

Luego, analistas especialistas en phishing verifican los resultados validándolos y señalando las anormalidades al equipo de data science.

Features, se las explicamos: una lección por vez

Ahora viene una de las partes más importantes del proceso de implementación del machine learning: la llamada feature engineering, que consiste en identificar las características que permiten diferenciar los phishings de los casos legítimos de forma precisa. Algunos ejemplos de features en el análisis de URLs son:

TLDs (top-level domains): es un campo importante pues, en phishings, es muy común el uso de dominios .tk y .ml
Palabras sospechosas: términos como ‘promo’, ‘díadelamadre’ y tantos otros son muy recurrentes en phishings. Nuestra lista de palabras sospechosas es un compilado de los últimos 10 años de detecciones
¡Y tantos otros ejemplos! Aparte de las URLs, también se pueden analizar elementos de HTML, como un campo para inserción de la contraseña y cualquier otra cosa relativa a sitios

En total, llegamos a analizar más de 80 features. Con todas ellas disponibles, llega la hora de las pruebas, pruebas y más pruebas: a partir del análisis de estadísticas, varios números y porcentajes muestran cuáles son las combinaciones más adecuadas para obtener el mayor número posible de aciertos.

Controles de calidad y monitoreo constantes

De todos los incidentes identificados como phishing, un pequeño porcentaje de ellos es enviado aleatoriamente para análisis de equipo. Esto nos permite confirmar si la máquina está acertando. Actualmente, la tasa de acierto de los algoritmos utilizados para validación de phishing es superior al acierto de validación humana; a fin de cuentas, errar es humano. Nuestro proceso consigue validar un volumen gigante de datos en minutos.

¿Desea saber más sobre el funcionamiento de todo el proceso de monitoreo y reacción contra riesgos digitales que Axur brinda? Conozca nuestras soluciones que cuidan de que ningún phishing o malware afecte su marca por mucho tiempo. El machine learning puede ser un buen aliado, ¿no cree?

Ver post completo