Esta semana en IA: Por qué el o1 de OpenAI cambia el juego de la regulación de IA

Hola, amigos, bienvenidos al boletín regular de IA de TechCrunch. Si deseas recibir esto en tu bandeja de entrada todos los miércoles, suscríbete aqui.

Han pasado solo unos días desde que OpenAI reveló su último modelo generativo insignia, o1, al mundo. Comercializado como un modelo 'de razonamiento', o1 básicamente tarda más en 'pensar' sobre las preguntas antes de responder, desglosando problemas y verificando sus propias respuestas.

Hay muchas cosas que o1 no puede hacer bien, y OpenAI mismo lo admite. Pero en algunas tareas, como la física y las matemáticas, o1 destaca a pesar de no necesariamente tener más parámetros que el modelo de mejor rendimiento anterior de OpenAI, GPT-4o. (En IA y aprendizaje automático, 'parámetros', generalmente en miles de millones, corresponden aproximadamente a las habilidades para resolver problemas de un modelo).

Y esto tiene implicaciones para la regulación de la IA.

Por ejemplo, el proyecto de ley SB 1047 de California impone requisitos de seguridad a los modelos de IA que cuestan más de $100 millones en su desarrollo o fueron entrenados utilizando una potencia informática más allá de un cierto umbral. Sin embargo, modelos como o1 demuestran que escalar la potencia de entrenamiento no es la única forma de mejorar el rendimiento de un modelo.

En una publicación en X, Jim Fan, gerente de investigación de Nvidia, planteó que los futuros sistemas de IA pueden depender de 'núcleos de razonamiento' pequeños y fáciles de entrenar en lugar de las arquitecturas intensivas en entrenamiento (por ejemplo, Llama 405B de Meta) que han sido la tendencia últimamente. Estudios académicos recientes, señala, han demostrado que modelos pequeños como o1 pueden superar ampliamente a los modelos grandes dándoles más tiempo para reflexionar sobre las preguntas.

Entonces, ¿fue miope que los legisladores vincularan las medidas regulatorias de IA al poder de cómputo? Sí, dice Sara Hooker, jefa del laboratorio de investigación de IA de la startup Cohere, en una entrevista con TechCrunch:

[o1] señala de alguna manera lo incompleta que es esta visión, utilizando el tamaño del modelo como un proxy de riesgo. No tiene en cuenta todo lo que se puede hacer con la inferencia o al ejecutar un modelo. Para mí, es una combinación de mala ciencia combinada con políticas que ponen énfasis no en los riesgos actuales que vemos en el mundo ahora, sino en los riesgos futuros.

¿Significa esto que los legisladores deberían desechar los proyectos de ley de IA desde sus cimientos y comenzar de nuevo? No. Muchos fueron escritos para ser fácilmente modificables, bajo la suposición de que la IA evolucionaría mucho más allá de su promulgación. Por ejemplo, el proyecto de ley de California otorgaría a la Agencia de Operaciones del Gobierno del estado la autoridad para redefinir los umbrales de cómputo que activan los requisitos de seguridad de la ley.

La parte complicada será descubrir qué métrica podría ser un mejor proxy de riesgo que la potencia de entrenamiento. Como tantos otros aspectos de la regulación de la IA, es algo en lo que pensar a medida que los proyectos de ley en EE. UU. - y en el mundo - avanzan hacia su aprobación.

Noticias

Créditos de la imagen: David Paul Morris / Bloomberg / Getty Images

Primeras reacciones a o1: Max obtuvo impresiones iniciales de investigadores de IA, fundadores de startups y capitalistas de riesgo sobre o1, y probó el modelo él mismo.

Altman se retira del comité de seguridad: El CEO de OpenAI, Sam Altman, renunció al comité de la startup responsable de revisar la seguridad de modelos como o1, probablemente en respuesta a preocupaciones de que no actuaría imparcialmente.

Slack se convierte en un centro de agentes: En la conferencia anual Dreamforce de su empresa matriz Salesforce, Slack anunció nuevas funciones, incluidos resúmenes de reuniones generados por IA e integraciones con herramientas para generación de imágenes y búsquedas web impulsadas por IA.

Google empieza a marcar imágenes de IA: Google dice que planea implementar cambios en la Búsqueda de Google para hacer más claro qué imágenes en los resultados fueron generadas por IA o editadas por herramientas de IA.

Mistral lanza un nivel gratuito: La startup francesa de IA Mistral lanzó un nuevo nivel gratuito para permitir a los desarrolladores ajustar y construir aplicaciones de prueba con los modelos de IA de la startup.

Snap lanza un generador de videos: En su cumbre anual de socios Snap el martes, Snapchat anunció que está introduciendo una nueva herramienta de generación de videos de IA para creadores. La herramienta permitirá a ciertos creadores generar videos de IA a partir de indicaciones de texto y, pronto, a partir de indicaciones de imagen.

Intel firma un importante acuerdo de chips: Intel dice que co-desarrollará un chip de IA con AWS utilizando el proceso de fabricación de chips Intel 18A. Las compañías describieron el acuerdo como un 'marco de varios años y multimillonario' que podría involucrar potencialmente diseños adicionales de chips.

Especial de IA de Oprah: Oprah Winfrey emitió un especial sobre IA con invitados como Sam Altman de OpenAI, Bill Gates de Microsoft, el influencer tecnológico Marques Brownlee y el actual director del FBI, Christopher Wray.

Documento de investigación de la semana

Sabemos que la IA puede ser persuasiva, ¿pero puede sacar a alguien de un agujero de conejo de conspiraciones profundo? Bueno, no por sí sola. Pero un nuevo modelo de Costello et al. en MIT y Cornell puede reducir las creencias sobre conspiraciones falsas que persisten al menos durante un par de meses.

En el experimento, hicieron que personas que creían en afirmaciones relacionadas con conspiraciones (por ejemplo, 'el 11 de septiembre fue un trabajo interno') hablaran con un chatbot que les ofrecía pacientemente, suavemente y sin cesar contraargumentos a sus argumentos. Estas conversaciones llevaron a los humanos involucrados a declarar una reducción del 20% en la creencia asociada dos meses después, al menos en la medida en que se pueden medir estas cosas. Aquí tienes un ejemplo de una de las conversaciones en progreso:

Es poco probable que aquellos profundamente inmersos en conspiraciones sobre reptilianos y el estado profundo consulten o crean en una IA como esta, pero el enfoque podría ser más efectivo si se usa en un momento crítico como la primera incursión de una persona en estas teorías. Por ejemplo, si un adolescente busca '¿Puede el combustible de avión derretir vigas de acero?', podrían experimentar un momento de aprendizaje en lugar de uno trágico.

Modelo de la semana

No es un modelo, pero tiene que ver con modelos: Los investigadores de Microsoft publicaron esta semana una referencia de IA llamada Eureka dirigida a (en sus palabras) 'escalar las evaluaciones [de modelos]... de manera abierta y transparente'.

Las referencias de IA abundan. Entonces, ¿qué hace diferente a Eureka? Bueno, los investigadores dicen que, para Eureka - que en realidad es una colección de referencias existentes - eligieron tareas que siguen siendo desafiantes incluso para 'los modelos más capaces'. Específicamente, Eureka prueba capacidades a menudo pasadas por alto en las referencias de IA, como habilidades de navegación visual-espacial.

Para mostrar lo difícil que puede ser Eureka para los modelos, los investigadores probaron sistemas, incluidos Claude de Anthropic, GPT-4o de OpenAI y Llama de Meta, en la referencia. Ningún modelo individual obtuvo buenos resultados en todas las pruebas de Eureka, lo que, según los investigadores, subraya la importancia de 'la innovación continua' y 'las mejoras específicas' en los modelos.

Bolsa de sorpresas

En una victoria para los actores profesionales, California aprobó dos leyes, AB 2602 y AB 1836, que restringen el uso de réplicas digitales de IA.

La legislación, respaldada por SAG-AFTRA, el sindicato de actores, requiere que las empresas que dependen de la réplica digital de un actor (por ejemplo, voz o imagen clonada) proporcionen una descripción 'razonablemente específica' del uso previsto de la réplica y negocien con el asesor legal o el sindicato del actor. También requiere que los empleadores de entretenimiento obtengan el consentimiento del patrimonio de un actor fallecido antes de usar una réplica digital de esa persona.

Como señala The Hollywood Reporter en su cobertura, los proyectos de ley codifican conceptos por los que SAG-AFTRA luchó en su huelga de 118 días el año pasado con estudios y plataformas de transmisión importantes. California es el segundo estado después de Tennessee en imponer restricciones al uso de semejanzas de actores digitales; SAG-AFTRA también patrocinó el esfuerzo de Tennessee.