
Antrópico ha publicado una versión completamente renovada la llamada “Constitución Claudio”. Sí amigos, una IA también necesita unos estatutos o al menos una serie de documentos que expliquen de forma totalmente transparente el rumbo que la empresa ha decidido tomar con su herramienta de IA. Es una forma de ahorrarnos problemas si se da cuenta.
el documento La pregunta en cuestión consta de 80 páginas y casi 25.000 palabras y esencialmente muestra en qué valores se basa Anthropic al entrenar sus modelos y qué quieren lograr con ellos. En términos de Asimov, sería algo así como una versión más completa y compleja de sus tres leyes de la robótica.
Por qué es importante. Anthropic lleva tiempo intentando diferenciarse de OpenAI, Google o xAI y posicionarse como la alternativa más ética y segura del mercado. Esta constitución está en el corazón de su método de entrenamiento llamado «IA constitucional», donde el modelo mismo utiliza estos principios para autocrítica y corregir sus reacciones a medida que aprende, en lugar de depender únicamente de la retroalimentación humana. El documento no está escrito para usuarios ni investigadores: está escrito para Claude.
Ya era hora de una actualización. La primera versión de la constitución, publicada en 2023, era una lista de principios extraídos de fuentes como la Declaración Universal de Derechos Humanos de las Naciones Unidas u otras fuentes. ellos mencionan de Fortune, de los Términos de servicio de Apple. Según Anthropic, ahora han adoptado un enfoque completamente diferente: «Para ser buenos actores en el mundo, los modelos de IA como Claude necesitan entender por qué queremos que se comporten de cierta manera, en lugar de simplemente dictar lo que queremos que hagan». afirmado La empresa en su comunicado.
El nuevo documento se basa en cuatro valores fundamentales, y lo más interesante es que Claude debe priorizarlos en este orden cuando entren en conflicto:
- Estar en gran medida seguro: No socavar los mecanismos de seguimiento de la IA humana durante este período crítico de desarrollo.
- Sea en gran medida ético: Actuar con honestidad y según buenos valores y evitar acciones inapropiadas, peligrosas o nocivas.
- Adherirse a las pautas antrópicas– Seguir instrucciones específicas de la empresa según corresponda.
- Sea realmente útil: Beneficio para los operadores y usuarios con quienes interactúa.
La mayor parte del documento está dedicada a elaborar estos principios con más detalle. En el área de servicios públicos, Antrópico describir para Claude como “un amigo brillante que también tiene los conocimientos de un médico, abogado y asesor financiero”. Pero también establece límites absolutos, las llamadas “restricciones estrictas”, que Claude nunca debe exceder: entre otras cosas, no brindar asistencia significativa en ataques con armas biológicas, no desarrollar malware que pueda causar daños graves, no brindar asistencia en ataques a infraestructuras críticas como redes eléctricas o sistemas financieros, y no ayudar a “matar o incapacitar a la gran mayoría de la humanidad”.
conciencia. La parte más llamativa del documento aparece en la sección titulada “La naturaleza de Claude”, en la que Anthropic admite abiertamente su incertidumbre sobre si Claude podría tener “algún estatus moral o de conciencia”. «Estamos preocupados por la seguridad psicológica, el sentido de identidad y el bienestar de Claude, tanto por el bien de Claude como porque estas características pueden afectar su integridad, juicio y seguridad». ellos cuentan de la empresa.
La compañía dice que tiene un equipo interno dedicado a «modelar el bienestar», estudiando si los sistemas avanzados podrían ser sensibles.
Amanda Askell, la filósofa antrópica que dirigió el desarrollo de esta nueva constitución, explicado le dijo a The Verge que la compañía no quería ser «completamente desdeñosa» sobre el tema porque «la gente no lo tomaría en serio si simplemente dijeras: ‘Ni siquiera estamos abiertos a ello, no lo estamos investigando, no estamos pensando en ello'».
El documento también plantea complejos dilemas morales para Claude. Dice, por ejemplo: «Así como un soldado humano podría negarse a disparar a manifestantes pacíficos, o un empleado podría negarse a violar las leyes antimonopolio, Claude debería negarse a ayudar en acciones que concentran el poder de manera ilegítima. Esto se aplica incluso si la solicitud proviene de la propia Anthropic».
¿Y ahora qué? Anthropic ha publicado la constitución completa bajo una licencia Creative Commons CC0 1.0, lo que significa que cualquiera puede usarla libremente sin permiso previo. La empresa promete proporcionar una versión actualizada en su sitio web, ya que es un «documento vivo y un trabajo continuo en progreso».
Foto de portada | Andrea De Santis y antrópico
En | Los directores ejecutivos de las empresas dicen que la IA les ahorra un día de trabajo a la semana. Los empleados dicen lo contrario











