24 julio 2024

Descubre Llama 3.1: La apuesta de Meta por una IA más accesible y potente

Descubre Llama 3.1: La apuesta de Meta por una IA más accesible y potente

El último modelo de IA de código abierto de Meta es el más grande hasta ahora.


Hoy, Meta anunció que está lanzando Llama 3.1 405B, un modelo con 405 mil millones de parámetros. Los parámetros se relacionan con la capacidad del modelo para resolver problemas, y generalmente los modelos con más parámetros funcionan mejor.


Con 405 mil millones de parámetros, Llama 3.1 405B no es el modelo de código abierto más grande que existe, pero sí el más grande en años recientes. Entrenado usando 16,000 GPUs Nvidia H100, también se beneficia de técnicas más nuevas que, según Meta, lo hacen competitivo con modelos propietarios líderes como GPT-4 de OpenAI y Claude 3.5 Sonnet de Anthropic (con algunas salvedades).


Como los modelos anteriores de Meta, Llama 3.1 405B se puede descargar o usar en plataformas en la nube como AWS, Azure y Google Cloud. También se está usando en WhatsApp y Meta.ai, donde impulsa un chatbot para usuarios en Estados Unidos.


Nuevo y mejorado


Como otros modelos de IA generativa, Llama 3.1 405B puede realizar diversas tareas, desde programar y responder preguntas básicas de matemáticas hasta resumir documentos en ocho idiomas (inglés, alemán, francés, italiano, portugués, hindi, español y tailandés). Solo funciona con texto, lo que significa que no puede, por ejemplo, responder preguntas sobre una imagen, pero puede manejar la mayoría de las tareas basadas en texto, como analizar archivos PDF y hojas de cálculo.


Meta quiere que se sepa que está experimentando con la multimodalidad. En un artículo publicado hoy, investigadores de la empresa escriben que están desarrollando activamente modelos Llama que pueden reconocer imágenes y videos, y entender (y generar) voz. Sin embargo, estos modelos aún no están listos para su lanzamiento público.


Para entrenar Llama 3.1 405B, Meta usó un conjunto de datos de 15 billones de tokens hasta 2024 (los tokens son partes de palabras que los modelos pueden internalizar más fácilmente que palabras completas, y 15 billones de tokens equivalen a una asombrosa cantidad de 750 mil millones de palabras). No es un conjunto de entrenamiento completamente nuevo, ya que Meta usó el conjunto base para entrenar modelos Llama anteriores, pero la empresa afirma que mejoró sus procesos de selección de datos y adoptó enfoques de control de calidad y filtrado de datos "más rigurosos" al desarrollar este modelo.


La empresa también usó datos sintéticos (datos generados por otros modelos de IA) para ajustar Llama 3.1 405B. La mayoría de los grandes proveedores de IA, incluidos OpenAI y Anthropic, están explorando aplicaciones de datos sintéticos para ampliar su entrenamiento de IA, pero algunos expertos creen que los datos sintéticos deberían ser un último recurso debido a su potencial para agravar el sesgo del modelo.


Por su parte, Meta insiste en que "equilibró cuidadosamente" los datos de entrenamiento de Llama 3.1 405B, pero se negó a revelar exactamente de dónde provenían los datos (aparte de páginas web y archivos públicos en la web). Muchos proveedores de IA generativa ven los datos de entrenamiento como una ventaja competitiva y por eso los mantienen en secreto, junto con cualquier información relacionada. Pero los detalles de los datos de entrenamiento también son una posible fuente de demandas relacionadas con la propiedad intelectual, otro factor que desalienta a las empresas a revelar mucho.



En el artículo mencionado, los investigadores de Meta escribieron que, en comparación con los modelos Llama anteriores, Llama 3.1 405B fue entrenado con una mayor mezcla de datos en idiomas distintos al inglés (para mejorar su rendimiento en otros idiomas), más datos matemáticos y código (para mejorar las habilidades de razonamiento matemático del modelo), y datos web recientes (para reforzar su conocimiento de eventos actuales).


Un informe reciente de Reuters reveló que Meta en algún momento usó libros electrónicos con derechos de autor para el entrenamiento de IA, a pesar de las advertencias de sus propios abogados. La empresa entrena polémicamente su IA con publicaciones, fotos y subtítulos de Instagram y Facebook, y dificulta que los usuarios puedan optar por no participar. Además, Meta, junto con OpenAI, es objeto de una demanda en curso presentada por autores, incluida la comediante Sarah Silverman, por el supuesto uso no autorizado de datos con derechos de autor para el entrenamiento de modelos.


"Los datos de entrenamiento son, en muchos sentidos, como la receta secreta y la salsa que se usa para construir estos modelos", dijo Ragavan Srinivasan, vicepresidente de gestión de programas de IA en Meta, en una entrevista con TechCrunch. "Desde nuestra perspectiva, hemos invertido mucho en esto. Y es una de esas cosas que seguiremos refinando".


Contexto más amplio y herramientas


Llama 3.1 405B tiene una ventana de contexto más grande que los modelos Llama anteriores: 128,000 tokens, o aproximadamente la longitud de un libro de 50 páginas. El contexto, o ventana de contexto de un modelo, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar una salida (por ejemplo, texto adicional).


Una de las ventajas de los modelos con contextos más grandes es que pueden resumir fragmentos de texto y archivos más largos. Al impulsar chatbots, estos modelos también tienen menos probabilidades de olvidar temas que se discutieron recientemente.


Otros dos modelos nuevos y más pequeños que Meta presentó hoy, Llama 3.1 8B y Llama 3.1 70B - versiones actualizadas de los modelos Llama 3 8B y Llama 3 70B de la empresa lanzados en abril - también tienen ventanas de contexto de 128,000 tokens. Los contextos de los modelos anteriores llegaban a un máximo de 8,000 tokens, lo que hace que esta mejora sea bastante sustancial, suponiendo que los nuevos modelos Llama puedan razonar eficazmente en todo ese contexto.



Todos los modelos Llama 3.1 pueden usar herramientas, aplicaciones y APIs de terceros para completar tareas, al igual que los modelos rivales de Anthropic y OpenAI. De serie, están entrenados para usar Brave Search para responder preguntas sobre eventos recientes, la API de Wolfram Alpha para consultas relacionadas con matemáticas y ciencias, y un intérprete de Python para validar código. Además, Meta afirma que los modelos Llama 3.1 pueden usar ciertas herramientas que no han visto antes, hasta cierto punto.


Construyendo un ecosistema


Si se puede creer en las pruebas de rendimiento (aunque no sean todo en la IA generativa), Llama 3.1 405B es un modelo muy capaz. Eso sería bueno, considerando algunas de las limitaciones obvias de los modelos Llama de generación anterior.


Según los evaluadores humanos contratados por Meta, Llama 3 405B rinde al mismo nivel que GPT-4 de OpenAI, y logra "resultados mixtos" en comparación con GPT-4o y Claude 3.5 Sonnet. Mientras que Llama 3 405B es mejor ejecutando código y generando gráficos que GPT-4o, sus capacidades multilingües son en general más débiles, y Llama 3 405B queda por detrás de Claude 3.5 Sonnet en programación y razonamiento general.


Y debido a su tamaño, necesita hardware potente para funcionar. Meta recomienda al menos un nodo de servidor.


Quizás por eso Meta está promoviendo sus nuevos modelos más pequeños, Llama 3.1 8B y Llama 3.1 70B, para aplicaciones de uso general como impulsar chatbots y generar código. Llama 3.1 405B, dice la empresa, es mejor reservarlo para la destilación de modelos - el proceso de transferir conocimiento de un modelo grande a uno más pequeño y eficiente - y generar datos sintéticos para entrenar (o ajustar) modelos alternativos.


Para fomentar el uso de datos sintéticos, Meta dijo que ha actualizado la licencia de Llama para permitir a los desarrolladores usar los resultados de la familia de modelos Llama 3.1 para desarrollar modelos generativos de IA de terceros (si eso es una buena idea está en debate). Es importante destacar que la licencia aún restringe cómo los desarrolladores pueden implementar los modelos Llama: los desarrolladores de aplicaciones con más de 700 millones de usuarios mensuales deben solicitar una licencia especial a Meta, que la empresa otorgará a su discreción.



Ese cambio en la licencia en torno a los resultados, que alivia una crítica importante a los modelos de Meta dentro de la comunidad de IA, es parte del impulso agresivo de la empresa por ganar terreno en la IA generativa.


Junto con la familia Llama 3.1, Meta está lanzando lo que llama un "sistema de referencia" y nuevas herramientas de seguridad - varias de estas bloquean indicaciones que podrían hacer que los modelos Llama se comporten de manera impredecible o indeseable - para animar a los desarrolladores a usar Llama en más lugares. La empresa también está presentando y buscando comentarios sobre Llama Stack, una próxima API para herramientas que se pueden usar para ajustar modelos Llama, generar datos sintéticos con Llama y construir aplicaciones "agentes" - aplicaciones impulsadas por Llama que pueden tomar acciones en nombre de un usuario.


"Lo que hemos escuchado repetidamente de los desarrolladores es un interés en aprender cómo realmente implementar en producción", dijo Srinivasan. "Así que estamos tratando de empezar a darles un montón de herramientas y opciones diferentes".


Juego por cuota de mercado


En una carta abierta publicada esta mañana, el CEO de Meta, Mark Zuckerberg, presenta una visión del futuro en la que las herramientas y modelos de IA llegan a manos de más desarrolladores en todo el mundo, asegurando que las personas tengan acceso a los "beneficios y oportunidades" de la IA.


Está presentado de manera muy filantrópica, pero implícito en la carta está el deseo de Zuckerberg de que estas herramientas y modelos sean creación de Meta.


Meta está corriendo para alcanzar a empresas como OpenAI y Anthropic, y está empleando una estrategia probada: regalar herramientas gratis para fomentar un ecosistema y luego agregar lentamente productos y servicios, algunos de pago, encima. Gastar miles de millones de dólares en modelos que luego puede convertir en productos básicos también tiene el efecto de bajar los precios de los competidores de Meta y difundir ampliamente la versión de IA de la empresa. También permite que la empresa incorpore mejoras de la comunidad de código abierto en sus futuros modelos.


Llama ciertamente tiene la atención de los desarrolladores. Meta afirma que los modelos Llama se han descargado más de 300 millones de veces, y se han creado más de 20,000 modelos derivados de Llama hasta ahora.


No te equivoques, Meta va en serio. Está gastando millones en cabildear a los reguladores para que se acerquen a su versión preferida de IA generativa "abierta". Ninguno de los modelos Llama 3.1 resuelve los problemas intratables de la tecnología de IA generativa actual, como su tendencia a inventar cosas y regurgitar datos de entrenamiento problemáticos. Pero sí avanzan uno de los objetivos clave de Meta: convertirse en sinónimo de IA generativa.


Esto tiene costos. En el artículo de investigación, los coautores - haciéndose eco de los comentarios recientes de Zuckerberg - discuten problemas de confiabilidad relacionados con la energía al entrenar los modelos de IA generativa cada vez más grandes de Meta.


"Durante el entrenamiento, decenas de miles de GPUs pueden aumentar o disminuir el consumo de energía al mismo tiempo, por ejemplo, debido a que todas las GPUs esperan a que termine el punto de control o las comunicaciones colectivas, o el inicio o apagado de todo el trabajo de entrenamiento", escriben. "Cuando esto sucede, puede resultar en fluctuaciones instantáneas del consumo de energía en todo el centro de datos del orden de decenas de megavatios, estirando los límites de la red eléctrica. Este es un desafío continuo para nosotros a medida que escalamos el entrenamiento para futuros modelos Llama aún más grandes".


Esperemos que el entrenamiento de esos modelos más grandes no obligue a más empresas de servicios públicos a mantener en funcionamiento viejas plantas de energía que queman carbón.


Vía | Meta releases its biggest 'open' AI model yet | TechCrunch


https://bit.ly/4cTMtDs

No hay comentarios.:

Publicar un comentario

Cómo Intel y AMD garantizan un x86 innovador y preparado para el futuro

Intel y AMD, dos de los nombres más importantes en el ámbito de la informática, se han unido para formar el Grupo Asesor del Ecosistema x86,...