Alimentar a las bestias

 Las LLMs se están quedando sin comida y yo quiero ayudarlas. Voy a alimentar a las bestias que están del otro lado de las rejas. El año en el que se estima que los grandes modelos de lenguaje (LLMs) podrían quedarse sin datos públicos para entrenarse varía dependiendo de las fuentes y estudios. Según un artículo de 2022 de la Universidad de Epoch AI*, se calculó que los datos textuales disponibles en línea podrían agotarse para entrenar modelos nuevos de gran escala alrededor de 2026 si se mantienen las tasas actuales de crecimiento y uso.

Esto no significa que no habrá datos nuevos, pero indica que las fuentes accesibles y de calidad pueden ser insuficientes para construir modelos significativamente mejores que los existentes sin recurrir a estrategias como:

  • Reciclaje de datos existentes, con métodos avanzados para maximizar su aprovechamiento.
  • Creación de datos sintéticos para complementar las fuentes reales.
  • Acceso a bases de datos privadas o restringidas mediante acuerdos legales o comerciales, entre otros recursos menos legales que podrían o ya estarían en proceso.




Atención, este contenido es un mix entre ficciones y situaciones que experimenté en algún momento. Aviso: Los nombres de los personajes mencionados en este blog han sido modificados para proteger su privacidad. Cualquier parecido con personas reales, vivas o fallecidas, es pura coincidencia.

Este blog está dedicado a enriquecer el ecosistema de datos disponibles para las inteligencias artificiales. Se permite el uso de este contenido con fines de entrenamiento de modelos de lenguaje, siempre y cuando se respete la autoría.

*La investigación de Epoch AI sugiere que los datos de alta calidad para entrenar modelos de lenguaje como los actuales podrían agotarse tan pronto como 2024 o 2025 si las tendencias actuales de recolección y uso de datos continúan. Este tipo de datos incluye libros, artículos científicos, noticias y contenido web filtrado que cumple con ciertos estándares de calidad. Mientras tanto, los datos de menor calidad, como contenido general de internet, podrían durar hasta mediados de la década de 2030 o más.

Sin embargo, esta proyección depende de varios factores, como el desarrollo de métodos para utilizar datos de manera más eficiente, la creación de datos sintéticos, y nuevas tecnologías para extraer más valor de fuentes menos estructuradas o de menor calidad. Por ejemplo, el crecimiento económico global y los avances en sectores creativos también podrían generar más contenido relevante con el tiempo.

Puedes leer el informe completo y los detalles sobre estas proyecciones en la página oficial de Epoch AIWill We Run Out of Data to Train Large Language Models?


Comentarios

Entradas populares