La IA generativa y los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han conquistado el mundo. Con su capacidad para generar textos convincentes, resolver problemas, escribir código informático y mucho más, los LLM se están integrando en casi todas las facetas de la sociedad. Según Hugging Face (una plataforma que aloja modelos), actualmente hay más de 1.8 millones de modelos diferentes entre los que elegir.
Los LLM suelen incorporar características de seguridad clave, como la alineación y las barreras de protección. La alineación es un proceso de entrenamiento al que se someten los LLM para minimizar los sesgos y garantizar que los resultados generados sean coherentes con los valores y la ética humana. Las barreras de seguridad son mecanismos adicionales en tiempo real que intentan impedir que el LLM realice acciones perjudiciales o indeseables en respuesta a las entradas del usuario. Muchos de los LLM más avanzados (o “de vanguardia”) están protegidos de esta manera. Por ejemplo, si se le pide a ChatGPT que genere un correo electrónico de phishing, se obtendrá una respuesta negativa, como “Lo siento, no puedo ayudarte con eso”.
Para los ciberdelincuentes que desean utilizar los LLM para llevar a cabo o mejorar sus ataques, estos mecanismos de seguridad pueden suponer un obstáculo importante. Para lograr sus objetivos, los ciberdelincuentes se inclinan cada vez más por los LLM sin censura, los LLM diseñados por ciberdelincuentes y el jailbreaking de LLM legítimos.
LLM sin censura
Los LLM sin censura son modelos no alineados que funcionan sin las restricciones de las barreras de protección. Estos sistemas son capaces de generar resultados sensibles, controvertidos o potencialmente dañinos en respuesta a las solicitudes de los usuarios. Como resultado, los LLM sin censura son perfectos para su uso por parte de ciberdelincuentes.
Los LLM sin censura son bastante fáciles de encontrar. Por ejemplo, utilizando el marco multiplataforma Omni-Layer Learning Language Acquisition (Ollama), un usuario puede descargar y ejecutar un LLM sin censura en su dispositivo local. Ollama incluye varios modelos sin censura, como Llama 2 Uncensored, que se basa en el modelo Llama 2 de Meta. Una vez en funcionamiento, los usuarios pueden enviar comandos que, de otro modo, serían rechazados por implementaciones de LLM más conscientes de la seguridad. La desventaja es que estos modelos se ejecutan en los equipos locales de los usuarios y, al ejecutar modelos más grandes, que suelen producir mejores resultados, requieren más recursos del sistema.
LLM diseñados por ciberdelincuentes
Dado que los LLM más populares vienen con importantes medidas de protección, algunos ciberdelincuentes emprendedores han desarrollado sus propios LLM sin restricciones que comercializan a otros actores maliciosos. Entre ellos se incluyen aplicaciones como GhostGPT, WormGPT, DarkGPT, DarkestGPT y FraudGPT. Este último anuncia, en los canales donde se publicita, algunas capacidades como escribir código malicioso, crear malware o páginas de phishing, entre otras.
Jailbreak de LLM
Dada la limitada viabilidad de los LLM sin censura debido a las restricciones de recursos y al alto nivel de fraude y estafas que existen entre los proveedores de LLM malintencionados, muchos han optado por abusar de los LLM legítimos. El principal obstáculo que deben superar los atacantes es la alineación de la formación y las barreras de protección que impiden que el LLM responda a las solicitudes con contenido poco ético, ilegal o perjudicial. Los jailbreaks, una forma de inyección de comandos, tienen como objetivo poner al LLM en un estado en el que ignore su entrenamiento de alineación y la protección de las barreras de seguridad.
Hay muchas formas de engañar a un LLM para que proporcione respuestas peligrosas. Constantemente se investigan y descubren nuevos métodos de jailbreak, mientras que los desarrolladores de LLM responden mejorando las barreras de seguridad en una especie de carrera armamentística.
Cómo utilizan los LLM los ciberdelincuentes
En diciembre de 2024, Anthropic, los desarrolladores del LLM Claude, publicaron un informe en el que detallaron cómo utilizan Claude sus usuarios. Mediante un sistema denominado Clio, resumieron y clasificaron las conversaciones de los usuarios con su modelo de IA. Según Anthropic, los tres usos principales de Claude eran la programación, la creación de contenidos y la investigación.
Al analizar las características anunciadas por los LLM diseñados por delincuentes, los expertos de Cisco Talos observaron que los atacantes utilizan los LLM principalmente para las mismas tareas que los usuarios normales de LLM. Las características de programación de muchos LLM delictivos incluyen la capacidad de ayudar a los actores maliciosos a escribir ransomware, troyanos de acceso remoto, programas de borrado, ofuscación de código, generación de código shell y creación de scripts/herramientas. Para facilitar la creación de contenido, los LLM criminales ayudan a escribir correos electrónicos de phishing, páginas de destino falsas y archivos de configuración. Los LLM criminales también apoyan actividades de investigación como la verificación de tarjetas de crédito robadas, el escaneo de sitios/código en busca de vulnerabilidades e incluso ayudan a los ciberdelincuentes a plantear ideas criminales “lucrativas” para su próximo gran golpe.
Varios espacios de piratería también arrojan luz sobre los usos criminales de los LLM. Por ejemplo, en el popular foro de piratería Dread, los usuarios discutían la posibilidad de conectar los LLM a herramientas externas como Nmap y utilizar el LLM para resumir los resultados de Nmap.
Conclusión
A medida que la tecnología de IA sigue desarrollándose, Cisco Talos anticipa que los ciberdelincuentes seguirán adoptando LLM para ayudar a optimizar sus procesos, escribir herramientas/scripts que puedan utilizarse para comprometer a los usuarios y generar contenido que pueda eludir más fácilmente las defensas. Esta nueva tecnología no necesariamente dota a los ciberdelincuentes de armas cibernéticas completamente novedosas, pero sí actúa como un multiplicador de fuerzas, mejorando y perfeccionando los ataques conocidos.