El Instituto Británico de Seguridad de la IA está llevando a cabo una evaluación para determinar si los modelos de lenguaje de gran tamaño Claude, de la empresa Anthropic, representan una amenaza real para la seguridad. La investigación se centra en comprobar si las capacidades de esta tecnología superan los marcos de seguridad actuales.
Los investigadores analizan la posibilidad de que estos modelos puedan facilitar ciberataques a gran escala o el desarrollo de armas biológicas. El objetivo de la evaluación es distinguir las vulnerabilidades técnicas reales de los riesgos meramente especulativos.
Evaluación de las capacidades del modelo
Actualmente, se están realizando auditorías técnicas para poner a prueba la capacidad de los modelos para ejecutar de forma autónoma tareas complejas y perjudiciales. El instituto analiza si Claude es capaz de eludir los protocolos de seguridad vigentes durante simulaciones de alto riesgo.
Los analistas también están examinando el "mito" que rodea a la inteligencia de este modelo. Su objetivo es determinar si el peligro percibido de la IA se debe a una capacidad funcional real o si es simplemente consecuencia de la enorme escala de sus datos de entrenamiento.
Expertos del sector siguen de cerca los resultados para comprender cuánta supervisión requieren los modelos de vanguardia. Es probable que las conclusiones de este estudio influyan en las futuras normativas para los desarrolladores de IA a nivel mundial.