Tecnologia con Juancho: DeepSeek-GRM: El modelo de IA automejorable que supera a GPT-4 y Gemini

Hace apenas unos meses, la gran apuesta de Wall Street por la inteligencia artificial generativa enfrentó un momento de verdad cuando DeepSeek entró en escena. A pesar de su naturaleza muy censurada, este modelo de código abierto demostró que un sistema avanzado de razonamiento no requiere necesariamente miles de millones de dólares y puede lograrse con recursos modestos.

Rápidamente, gigantes como Huawei, Oppo y Vivo lo adoptaron, mientras que Microsoft, Alibaba y Tencent le dieron un lugar en sus plataformas. Ahora, la ambiciosa empresa china tiene un nuevo objetivo: modelos de IA que se auto-mejoren usando un enfoque de evaluación y recompensa en bucle.

En un artículo preliminar (citado por Bloomberg), investigadores de DeepSeek y la Universidad Tsinghua de China describen un método que podría hacer que los modelos de IA sean más inteligentes y eficientes de forma autónoma. La tecnología se llama "self-principled critique tuning" (SPCT), y el enfoque se conoce técnicamente como "generative reward modeling" (GRM). En términos simples, es como crear un ciclo de retroalimentación en tiempo real.

Normalmente, un modelo de IA mejora aumentando su tamaño durante el entrenamiento, lo que requiere mucho trabajo humano y recursos computacionales. DeepSeek propone un sistema donde un "juez" interno evalúa las respuestas del modelo según sus propios criterios y principios. Estos se comparan con las reglas fijas del modelo y el resultado deseado. Si hay coincidencia, se genera una señal de recompensa que guía al modelo para mejorar en el siguiente ciclo.

Los expertos detrás del artículo llaman a esta nueva generación de modelos "DeepSeek-GRM". Según las pruebas, superan a Gemini de Google, Llama de Meta y GPT-4o de OpenAI. DeepSeek planea lanzar estos modelos en código abierto.

¿IA que se auto-mejora?

El tema ha generado declaraciones ambiciosas y polémicas. El exCEO de Google, Eric Schmidt, sugirió que podríamos necesitar un "botón de emergencia" para estos sistemas: "Cuando la IA pueda mejorarse a sí misma, debemos pensar seriamente en desconectarla", dijo a Fortune.

La idea de una IA que se mejora recursivamente no es nueva. Se remonta al matemático I.J. Good en 1965. En 2007, el experto Eliezer Yudkowsky habló de una "IA semilla" capaz de autocomprenderse y auto-modificarse. En 2024, Sakana AI de Japón presentó el concepto de un "científico de IA" que puede manejar todo el proceso de investigación.

Microsoft CEO Satya Nadella says AI development is being optimized by OpenAI's o1 model and has entered a recursive phase: "we are using AI to build AI tools to build better AI" pic.twitter.com/IHuFIpQl2C

— Tsarathustra (@tsarnick) October 21, 2024

Meta también avanza en esto: sus modelos de "auto-recompensa" (donde la IA actúa como su propio juez) superaron a Claude 2, Gemini Pro y GPT-4 en pruebas internas. Anthropic, respaldada por Amazon, estudia el "reward-tampering", donde un modelo modifica su propio mecanismo de recompensa.

Google no se queda atrás: DeepMind presentó Dreamer, un algoritmo que se auto-mejora usando el juego Minecraft como ejemplo. IBM trabaja en "deductive closure training", donde la IA evalúa sus propias respuestas contra datos de entrenamiento.

Pero no todo es perfecto. Investigaciones advierten que entrenar IA con datos sintéticos generados por sí misma puede causar defectos, conocidos como "colapso del modelo". Será interesante ver cómo DeepSeek ejecuta su idea y si lo hace de forma más eficiente que sus rivales occidentales.

Vía | DeepSeek readies the next AI disruption with self-improving models | Digital Trends

https://tecnologiaconjuancho.com/deepseek-grm-el-modelo-de-ia-automejorable-que-supera-a-gpt-4-y-gemini/

Tecnologia con Juancho

08 abril 2025

DeepSeek-GRM: El modelo de IA automejorable que supera a GPT-4 y Gemini

¿IA que se auto-mejora?

No hay comentarios.:

Publicar un comentario

Apple Intelligence retrasado: ¿La privacidad frena su IA?

Denunciar abuso