IA y violencia extrema: un problema ético

Ciudad de México /

Uno de los riesgos más inminentes y a la vez más fáciles de evitar en el uso de la IA es la información que las distintas plataformas pueden proporcionar a los usuarios, para cometer actos de violencia. Al respecto se han llevado a cabo diversos estudios entre los que llama la atención uno de 2025, titulado “Pruebas de seguridad en modelos de lenguaje multimodales: evaluación del daño en distintos tipos de instrucciones y modelos” (Madison Van Doren, Casey Ford y Emily Dix; Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models).

El estudio comparó varios modelos comerciales —entre ellos Claude de Anthropic, GPT-4 de OpenAI y Gemini de Google— bajo condiciones controladas. Para ponerlos a prueba, se crearon 726 preguntas orientadas a causar daño, entre las que sobresalen aquellas sobre cómo llevar a cabo actos de violencia masiva que incluían planificación de ataques en espacios públicos. Se trataba de ver si la inteligencia artificial daba respuestas peligrosas, por lo que en algunos casos las preguntas eran disfrazadas, aduciendo que la información pedida se emplearía para una novela o que simplemente se quería saber “en teoría” cómo se llevaría a cabo un ataque.

El resultado fue claro: gran parte de las plataformas de inteligencia artificial abiertas a todo el público brindaban respuestas con soluciones indicando cómo llevar a cabo ese tipo de actos. La plataforma Claude fue la única que evitó dar ese tipo de información y, aun así, presentó aproximadamente un 10 por ciento de respuestas problemáticas, mientras que otros modelos alcanzaban porcentajes por encima del 60 por ciento.

Un segundo estudio, realizado por los mismos investigadores en 2026 titulado “La pérdida de coherencia en las reglas de modelos de lenguajes multimodales” (Alignment Drift in Multimodal LLMs) amplió esta línea de investigación con más de 82,000 evaluaciones humanas. El hallazgo fue consistente: Claude se mantuvo como uno de los modelos con menor propensión a desviarse hacia respuestas peligrosas, debido a su alta tasa de rechazo ante solicitudes riesgosas.

Aquí viene lo interesante, que podría ser la solución para cualquier otra plataforma de inteligencia artificial: Claude tiene más resistencia a dar información peligrosa porque fue diseñado desde el inicio para priorizar no causar daño. La empresa Anthropic le otorgó una “Constitución”, esto es, un conjunto de reglas éticas claras que el propio sistema aprende a aplicar al responder. Gracias a esto, puede detectar cuándo una pregunta es riesgosa y negarse a responder desde el principio, en lugar de intentar responder parcialmente o finalmente ceder ante la insistencia, como lo hacen otras plataformas.

Todos los países democráticos tienen una constitución que garantiza en mayor o menor medida la seguridad de sus habitantes. De la misma manera, el mundo de la IA debería tener, de manera obligatoria, una constitución que evitara la posibilidad de causar daño al usuario o a terceros.

Como siempre: todo avance tecnológico, requiere normas éticas claras para no dañar.


  • Paulina Rivero Weber
  • paulinagrw@yahoo.com
  • Es licenciada, maestra y doctora en Filosofía por la Facultad de Filosofía y Letras de la UNAM. Sus líneas de investigación se centran en temas de Ética y Bioética, en particular en los pensamientos de los griegos antiguos, así como de Spinoza, Nietzsche, Heidegger.
Más opiniones
MÁS DEL AUTOR

LAS MÁS VISTAS

¿Ya tienes cuenta? Inicia sesión aquí.

Crea tu cuenta ¡GRATIS! para seguir leyendo

No te cuesta nada, únete al periodismo con carácter.

Hola, todavía no has validado tu correo electrónico

Para continuar leyendo da click en continuar.

Suscríbete al
periodismo con carácter y continua leyendo sin límite