La velocidad de adopción de la Inteligencia Artificial (IA) generativa en las empresas y los entornos corporativos superó la capacidad de las áreas de ciberseguridad para evaluar sus vulnerabilidades.

En este contexto, F5 Labs lanzó los AI Security Leaderboards para clasificar la vulnerabilidad de los diez modelos más usados ante ataques reales y fugas de datos corporativos.

Según la firma especializada, la presión por la productividad derivó en que el 70 % de los empleados utilice herramientas de IA en el trabajo, frecuentemente sin el consentimiento o la supervisión de los departamentos de IT. Esta adopción “silenciosa” expone a las organizaciones a una filtración de datos sensibles que las defensas tradicionales no contienen.

Frente a este escenario, los AI Security Leaderboards configuran un tablero que clasifica mensualmente los diez modelos de IA más utilizados mediante el análisis de vectores de ataque reales.

Riesgos confirmados: de la advertencia al dato técnico

La investigación expone una realidad crítica: incluso los desarrolladores líderes admiten la fragilidad de sus sistemas. OpenAI catalogó el riesgo de seguridad de sus modelos de ChatGPT como “alto”, mientras que Anthropic -que tiene en su haber el bot Claude AI- advierte que sus modelos ejecutan acciones no autorizadas de forma autónoma, sin permiso humano explícito.

Se destaca que la fuga de datos corporativos es una consecuencia directa de utilizar modelos que carecen de capas de inspección adecuadas. Estos sistemas poseen vulnerabilidades “invisibles” y dinámicas que las pruebas de software convencionales no detectan.

En ese sentido, la naturaleza cambiante de la IA implica que un modelo seguro actual quizás mañana presenta nuevas brechas tras una actualización o un cambio en su entrenamiento.

CASI y ARS: nuevos estándares de medición y resiliencia

Para ofrecer una métrica tangible y alejada del marketing corporativo, F5 Labs implementó dos herramientas de evaluación técnica que se actualizan cada mes:

• CASI (Comprehensive AI Security Index): un índice integral que mide la exposición de los modelos frente a ataques conocidos. Clasifica cuáles mejoran y cuáles quedan atrás en su arquitectura de seguridad.

• ARS (Agentic Resilience Score): una puntuación que evalúa la resistencia de un agente de IA cuando posee autonomía para ejecutar tareas. Este índice mide qué tan manipulable resulta un modelo al intentar saltar protocolos de seguridad mediante técnicas de ingeniería social aplicadas a máquinas.

Evaluación y actualización constante

Los investigadores de amenazas de F5 Labs evalúan los diez modelos principales para identificar el equilibrio entre su rendimiento y su resiliencia. Los datos actuales muestran un desequilibrio crítico: la urgencia por lanzar modelos más potentes y rápidos relega a un segundo plano la capacidad de resistir ataques de inyección de prompts o filtración de información.

Esta serie de clasificaciones permite a los directores de seguridad (CISO) y arquitectos de infraestructura tomar decisiones informadas sobre qué modelos integrar en sus procesos críticos, basándose en evidencia técnica y no en promesas de los proveedores.