Compartir

Las alucinaciones de la GenAI son ocasionadas principalmente por las maneras en que están diseñados los modelos de lenguaje de gran tamaño (LLM)

Por Scott Zoldi, Director de Analítica de FICO

El año pasado, las “alucinaciones” producidas por la inteligencia artificial generativa (GenAI) volvieron a ser el centro de atención en los tribunales y, desde luego, en todas las noticias. Más recientemente, Bloomberg News señaló que en sus informes anuales de 2024, “Goldman Sachs Group Inc., Citigroup Inc., JPMorgan Chase & Co. y otras compañías de Wall Street están advirtiendo a los inversionistas sobre los nuevos riesgos derivados del creciente uso de la inteligencia artificial, incluidas las alucinaciones del software, los problemas de estado de ánimo entre los empleados, el uso por parte de los ciberdelincuentes y el impacto de los cambios legislativos a nivel mundial”.

Mientras tanto, Michael Barr, quien hace poco dejó su cargo de vicepresidente de supervisión de la Reserva Federal de EE. UU., anticipó estas inquietudes en los comentarios espontáneos  que realizó en febrero en el Consejo de Relaciones Exteriores en Estados Unidos, donde afirmó que la presión competitiva en torno a la incorporación de inteligencia artificial generativa podría aumentar los riesgos en los servicios financieros. La presión competitiva “puede llevar a todas las instituciones, incluidas las reguladas, a adoptar un enfoque más agresivo hacia la adopción de GenAI, lo que incrementaría los riesgos de gobernanza, alineación y financieros en torno a la IA”, destacó Barr.

No podría estar más de acuerdo. Por eso, en FICO siempre hemos abogado por operativizar la GenAI de manera responsable a través de soluciones como modelos de lenguaje enfocados (FLM, por sus siglas en inglés) y modelos de tareas enfocados, a fin de impedir las alucinaciones antes de que ocurran. En este artículo proporcionaré más contexto sobre las alucinaciones de la GenAI y hablaré acerca de estos modelos de lenguaje enfocados, que son la solución de GenAI de FICO para ayudar a garantizar que la “edad dorada de la IA” siga siendo brillante.

 

Las alucinaciones no son una ilusión

Las alucinaciones de la GenAI son, en efecto, problemáticas. Por ejemplo, investigadores de la Universidad de Stanford descubrieron el año pasado que las herramientas de GenAI para propósitos generales, como ChatGPT, tienen una tasa de error de hasta el 82% cuando se utilizan con fines legales. Las herramientas de GenAI diseñadas específicamente para aplicaciones jurídicas son mejores, ya que producen alucinaciones en el 17% de los casos, según otro estudio de Stanford, y no deberían emplearse sin revisarse de manera cuidadosa y exhaustiva.

Independientemente de la tasa de alucinaciones, el problema se agrava aún más en cualquier industria cuando el humano consume los resultados de la GenAI. La persona puede no percatarse de la alucinación ni confirmar el resultado, sino actuar directamente en función de éste.

 

El combustible que aviva el fuego

Los factores que pueden conducir a las alucinaciones de GenAI incluyen:

  • El tipo, calidad, cantidad y amplitud de los datos utilizados para el preentrenamiento.
  • Baja cobertura de datos de preentrenamiento para los tokens y temas clave solicitados. Esto se relaciona con la asociación de palabras y/o grupos de palabras con estadísticas ligadas a una solicitud o uso en una respuesta. Si la cobertura es insuficiente, el modelo de lenguaje de gran tamaño (LLM, por sus siglas en inglés) puede hacer inferencias con base en el “ruido” en lugar de señales claras respaldadas por una cobertura sólida.
  • Falta de autocontrol en la inferencia de los LLM al no prohibir el uso de ejemplos con baja cobertura de datos de preentrenamiento en las respuestas. El problema surge porque la mayoría de los LLM no consideran si existe cobertura suficiente para formar sus respuestas; en cambio, asumen que la respuesta es estadísticamente válida. La mayoría de los LLM no inspeccionan si hay baja cobertura para respaldar adecuadamente una respuesta. Idealmente, cuando ocurre esta situación, el LLM debería indicar que no tiene suficiente información para proporcionar una respuesta confiable.
  • Falta de conocimiento de que la generación aumentada de recuperación (RAG) puede aumentar la tasa de alucinaciones, ya que desensibiliza o desestabiliza las relaciones aprendidas por el modelo fundacional durante su preentrenamiento original. RAG puede sobreenfatizar y alterar las estadísticas localmente en la solicitud de formas poco naturales.

 

Las alucinaciones son difíciles de ver

Detectar las alucinaciones es complicado, porque los algoritmos de los LLM por lo general no son interpretables ni ofrecen visibilidad para justificar sus respuestas. Incluso si en la respuesta se hace referencia a un contexto de generación aumentada de recuperación (RAG), una inspección humana podría revelar que en realidad no fue utilizado en la respuesta.

La mejor manera de minimizar las alucinaciones es que cada organización desarrolle su propio modelo fundamental de IA generativa preentrenado. Muchas empresas ya están aplicando, o planean aplicar, este enfoque mediante modelos enfocados en dominios específicos y basados en tareas. De esta forma, se puede tener un control crítico de los datos que se utilizan en el preentrenamiento –donde surgen la mayoría de las alucinaciones– y limitar el uso de la contextualización aumentada para asegurar que dicho uso no incremente las alucinaciones, sino que refuerce las relaciones ya presentes en el preentrenamiento.

Además de desarrollar modelos propios generativos enfocados, es necesario minimizar el daño creado por las alucinaciones. La política [empresarial] debería priorizar el proceso de cómo se utilizarán los resultados de estas herramientas en un contexto de negocio y luego confirmar todo.

 

Los FLM se enfocan en ofrecer respuestas precisas

La estrategia de FICO para utilizar la IA generativa de manera responsable comienza con el concepto de modelos de lenguaje pequeños (SLM, por sus siglas en inglés), que, como su nombre indica, son más pequeños y menos complejos que los LLM. Los SLM están diseñados para realizar tareas lingüísticas específicas de manera eficiente y se desarrollan con menos parámetros y, a menudo, con datos de entrenamiento más pequeños. Al igual que los LLM, los SLM están disponibles a través de múltiples proveedores y presentan muchos de los mismos desafíos, aunque con un riesgo menor.

Mi estrategia para lograr una GenAI Responsable concentra las aplicaciones de SLM en un “modelo de lenguaje enfocado” (FLM): un concepto nuevo dentro del desarrollo de los SLM que se centra en un almacén de datos más pequeño pero muy deliberado, específico de una tarea o dominio muy estrecho. Un nivel de especificidad tan fino garantiza que se elijan datos de alta calidad y gran relevancia; posteriormente, se puede ajustar meticulosamente el modelo (“optimización de tareas”) para asegurar que esté correctamente enfocado en la tarea en cuestión.

El enfoque FLM es claramente diferente de los LLM y SLM disponibles comercialmente, que no ofrecen control sobre los datos utilizados para desarrollar el modelo, una capacidad fundamental para prevenir alucinaciones y daños. Un modelo de lenguaje enfocado (FLM) permite utilizar la GenAI de forma responsable porque:

  • Brinda transparencia y control sobre los datos adecuados y de alta calidad con los que se desarrolla un modelo de lenguaje enfocado para un dominio específico.
  • Además de modelos de lenguaje enfocados en dominios de la industria, los usuarios pueden crear modelos de lenguaje enfocados en tareas, con contextos de vocabulario y entrenamiento específicos para la tarea en cuestión.
  • Asimismo, debido a la transparencia y control de los datos, el FLM desarrollado puede acompañarse de una puntuación de confianza en cada respuesta, lo que permite la operación basada en riesgos de la IA generativa. Las puntuaciones de confianza miden cómo se alinean las respuestas con los anclajes de conocimiento (verdades) del dominio y/o la tarea del FLM.
Compartir