Investigadores de seguridad han presentado un sistema de verificación automatizado diseñado para resolver el persistente problema de las vulnerabilidades 'alucinadas' en las pruebas de penetración impulsadas por IA. La nueva herramienta, conocida como Agente de Verificación de Explotación (EVA, por sus siglas en inglés), actúa como un auditor secundario que intenta confirmar de forma independiente cualquier fallo de seguridad identificado por los agentes de prueba principales.
Los agentes de IA son altamente eficientes al analizar las superficies de las aplicaciones, pero con frecuencia informan de señales sospechosas que carecen de fundamento. Los falsos positivos comunes incluyen alertas de inyección SQL en endpoints parametrizados, informes de cross-site scripting (XSS) detrás de políticas de contenido estrictas y reclamaciones de falsificación de solicitudes del lado del servidor (SSRF) en servidores que carecen de conectividad saliente. Estos errores a menudo obligan a los analistas humanos a pasar horas clasificando hallazgos fabricados.
Estableciendo un estándar basado en pruebas
Bajo esta nueva arquitectura, cada agente de prueba se empareja con una instancia dedicada de EVA. En lugar de reproducir un script grabado, EVA funciona como un agente inteligente que selecciona estrategias de verificación específicas según el tipo de vulnerabilidad. Si el sistema no puede replicar una explotación, el hallazgo se descarta.
"Nos negamos a entregar hallazgos que no podemos probar", declararon los desarrolladores, describiendo este enfoque como una restricción de ingeniería más que como una funcionalidad.
EVA clasifica los resultados en tres niveles: VERIFICADO, POTENCIAL y FALSO_POSITIVO. Un hallazgo solo se marca como VERIFICADO si el agente logra una explotación de extremo a extremo, como la exfiltración exitosa de datos o la ejecución de código en un navegador. Para el XSS basado en navegador, el agente utiliza un navegador Chromium sin interfaz gráfica a través de Playwright para confirmar la ejecución de JavaScript, yendo más allá de las simples técnicas de coincidencia de cadenas que a menudo generan falsas alarmas.
Para las vulnerabilidades de inyección ciega, propensas a falsos positivos causados por la inestabilidad de la red, EVA emplea análisis estadístico. El agente establece un perfil de tiempo base para la conexión y lo compara con el tiempo de respuesta de la carga útil inyectada, asegurando que solo se marquen los retrasos estadísticamente significativos.
En los casos en que un intento de verificación inicial falla, el agente no etiqueta inmediatamente el hallazgo como un falso positivo. En su lugar, inicia un protocolo de reintento, recorriendo varias codificaciones y variantes de carga útil para tener en cuenta el filtrado de entradas. Un hallazgo solo se elimina si todos los intentos de reproducción fallan.
Cuando un fallo no puede confirmarse por completo pero muestra indicadores claros de riesgo, se etiqueta como POTENCIAL. Esta clasificación incluye la documentación de las brechas de evidencia —como una anomalía de tiempo que no alcanzó el umbral estadístico—, proporcionando a los analistas humanos una visión transparente de por qué el sistema no pudo validar completamente la amenaza. Al obligar a la IA a demostrar su trabajo, los desarrolladores buscan restaurar la confianza en los informes de seguridad automatizados.