Es un secreto a voces que las fuentes de información con las que han sido entrenados los grandes modelos de IA distan mucho del respeto al derecho de propiedad intelectual. Esta misma semana el ex fundador de Twitter, Jack Dorsey, reclamaba que se pusiera fin a los derechos de propiedad intelectual. Y lo hacía sucintamente: “delete all IP laws”. Por supuesto esto lo escribió en X, a lo que enseguida se sumó el fan número uno de las controversias, Elon Musk. Y es curioso, porque la propiedad intelectual es la única frontera que separa la creación humana de la generada por la IA. Y actualmente hay un elenco importante de líderes del sector tecnológico enfocados en acabar con todo legado de la humanidad.
Pero la cosa no acaba aquí porque la semana es larga y en el terreno de la IA, cada día es un sobresalto. Por supuesto, el contexto geopolítico tampoco ayuda mucho.
Los mismos líderes tecnológicos que aspiran a tener vía libre para poder entrenar sus modelos con toda información creada por el ser humano, ahora quieren en propiedad nuestras conversaciones sociales y, lo que es más importante, nuestras emociones. Digamos que hemos entrado en la fase 2.0 del entrenamiento de datos LLM.
Y esta segunda fase, que ya ha comenzado, se va a producir en la sombra, sin que nos demos cuenta. Y va a ocurrir dentro de unos canales de comunicación que hemos convertido en el eje troncal de nuestra vida diaria, profesional y personal: las redes sociales y las aplicaciones de mensajería.
Lo diré con otras palabras: Las redes sociales son necesarias para el entrenamiento de los modelos en los matices lingüísticos de todas las lenguas del mundo. Y junto a nuestras conversaciones, nuestros estados emocionales.
¿Podríamos llamar a esta fase, la de la “humanización” de la IA? Muy probablemente que sí.
Los primeros movimientos de las big tech
Leamos entre líneas.
El 14 de abril de 2025 pasará a la historia. Este día Meta confirmó que ha llegado a un acuerdo con la UE para usar información pública de sus plataformas para entrenar a sus modelos. Meta lo llama: “Cómo hacer que la IA trabaje para los europeos”. El objetivo es comenzar a entrenar a los modelos en las interacciones que los usuarios tienen con la nueva IA de la compañía y con el contenido público compartido por adultos en todos sus productos (Whatsapp, Threads, Messenger, Facebook e Instagram). Queda aún por ver en las políticas de servicio que se enviarán en las próximas semanas, qué datos recopilarán.
El mismo día -y posiblemente no es coincidencia-, Apple reaccionaba publicando una investigación sobre aprendizaje automático en la que afirma que su IA, Apple Intelligence, necesita de datos del usuario para mejorar los servicios, pero que su enfoque es el de la “protección de la privacidad como derecho humano”. Lo interesante de este documento es el concepto de “privacidad diferencial”, una manera de recoger datos de usuarios, anonimizarlos, llenarlos de ruido -el justo para no distorsionar el dato- para poder utilizarlos en los entrenamientos y que nadie pueda identificar al usuario. Eso sumado al uso de datos sintéticos generados por IA basados en gemelos digitales de personas reales.
Un día después, TheVerge calentaba el ambiente. Al parecer, OpenAI está trabajando en su propia red social, similar a X. Y, visto en perspectiva, es una oportunidad de oro para la compañía para tener sus propios datos de conversaciones sociales y de emociones con los que entrenar a sus modelos (algo que Meta y X llevan haciendo con Llama y Grok desde hace tiempo).
No lo olvides, esto va de datos
Los modelos LLM actuales son increíbles máquinas sedientas de datos. A más y mejores datos, mejor será el modelo y más rápido se avanzará hacia la AGI (la inteligencia artificial general).
El teatro de batalla es inmenso.
¿Por qué las big tech han puesto el foco en las plataformas sociales? Muy sencillo. Porque una red social proporciona un flujo constante de datos que puede ser utilizado para entrenar, refinar y validar algoritmos de IA en condiciones de uso real. La interacción directa con usuarios en diferentes contextos y situaciones ofrece insights valiosos para mejorar la capacidad de respuesta, la personalización y la robustez de los modelos LLM. Proporciona una mayor exposición al lenguaje natural y la diversidad cultural (matices y formas de expresión presentes en el lenguaje humano, como la ironía, los modismos o las ambigüedades), una mayor versatilidad y adaptabilidad a contextos, y una comprensión del comportamiento y el contexto social (un mejor aprendizaje sobre la toma de decisiones humana y los patrones de interacción colectivos). Y no nos olvidemos. Todas estas plataformas sociales son gratuitas. Oh, mejor dicho. Son gratis mientras la moneda de cambio sea la data. Un ‘win-win’ usuario-plataforma.
De una red social se pueden recopilar muchos datos valiosos para entrenar modelos. Menciono algunos de ellos:
1. Datos de interacción y participación
El contenido en texto generado por los usuarios, como post y comentarios, puede ser analizado para extraer patrones de lenguaje, temas de interés y tendencias emergentes. Datos idóneos para los PNL (modelos de procesamiento de lenguaje natural). Pero también las interacciones simples (me gusta, reacciones, compartidos) permiten medir la aceptación, el impacto emocional de un contenido y la influencia.
2. Datos de comportamiento
Los patrones de navegación y uso permite mejorar la experiencia de usuario y los algoritmos de recomendación. Y la interacción con el contenido generado por IA, ayuda a evaluar la precisión de los sistemas de personalización.
3. Datos de contenido y texto enriquecido
Los metadatos y el contenido multimedia ayudan a los modelos multimodales en entrenar algoritmos de reconocimiento de patrones de imagen, análisis de video y procesamiento de audio. Los metadatos ayudan a clasificar y mejorar la precisión de la taxonomización automatizada.
4. Sentimientos y opiniones
Cualquier texto y su contexto puede servir para extraer señales de sentimiento, como el humor, enojo, satisfacción. Y es interesante porque ayudan a inferir estados anímicos colectivos y a la personalización de contenido.
5. Ubicación y tiempo
Los datos geolocalizados, ya sean check-ins o etiquetas de ubicación, permiten analizar comportamientos por área geográfica e identificar comunidades en la localización. Lo mismo ocurre con la hora y frecuencia en la que se generan los datos temporales, que ayudan a comprender las tendencias y el contexto en el que se produce el engagement.
Cautela y gobernanza
Si algo tenemos claro es que la IA expande nuestro mundo a un universo lleno de posibilidades para la innovación, la personalización de experiencias y el avance tecnológico. Sin duda es el mayor hito en siglos. Pero la manera en que se está abordando, parecido a un gran río salvaje, nos obliga a la cautela.
Hace 20 años nació Facebook. Nadie imaginó ni anticipó que hoy su plataforma y sus congéneres, serían inmensas maquinarias de análisis de datos. Su naturaleza sigue siendo gratuita, casi como desinteresada, pero el pacto secreto usuario-plataforma tiene un coste elevado. El de proporcionar nuestros datos. Y somos algo más de 5.400 millones de personas conectados en redes sociales.
Por este motivo es necesario la gobernanza, tanto en el entorno de la empresa, como en el privado. Y gobernanza no es ni más ni menos que avanzar con cautela y con mecanismos responsables de uso que velen por la privacidad de la información y que garanticen un hábito ético y responsable… Curiosas palabras éstas para el mundo en el que vivimos.