[con]Neurona # Episodio 9

No toques mis datos !!! … lecturas recomendadas, novedades de la semana, algún código y muuuucho más contenido en nuestro Boletín de Inteligencia Artificial.

abr 22, 2023

Cuando aún suenan en nuestras cabezas el argumento de que las IA dominarán el mundo y acabarán con nuestro trabajos, etc., etc. … llega otra:

No toques mis datos !!

El Washington Post publicó un estudio sobre un conjunto de datos, en concreto el C4 de Google, (C4 significa; Colossal Clean Crawled Corpus) y se sabe que fue utilizado para entrenamiento de modelos como T5 del propio Google , LLaMA de Meta y probablemente muchos más.

El caso, es que encontraron cientos de ejemplos “impactantes” según el medio, de datos recopilados sin consentimiento: la mayoría de los sitios web son de noticias,, prensa de la vieja, y de la nueva, pero también hay blogs personales, Medium, Patreon … y se han colado algunos sitios con libros “piratas” y otros de dudosa calidad … :) nada relevante (pienso).

Consecuencias:

Reddit, gran fuente de datos de capacitación tanto para ChatGPT de OpenAI como para Bard de Google, anunció recientemente un plan para cobrar por el acceso a sus datos. Twitter sabemos que también había iniciado, ese camino.

Y efectivamente, como “Ataque” es un movimiento inteligente , por que una manera de mitigar o reducir el desarrollo de este tipo de IAs de Lenguaje Largo es ponerle trabas en el acceso a los datos de entrenamiento.

¿cuál sería el resultado? Si para entrenar estos modelos hay que pagar entonces se disparan aún más los costes, lo que significa que serán menos accesibles para los investigadores y más accesibles para las grandes corporaciones … lo demás, imagínatelo.

Google Magi

Lo dice el New York Times y todo el mundo se lo cree y se publican mil editoriales y artículos (para entrar en Discover) — Opinión personal, “Ni caso, aquí hay muchos intereses creados, grupos de presión, acciones …”

Lecturas Recomendadas.

Aquí os dejo la Charla de una de las grandes promesas del SEO, que participó en el evento BrightonSEO, Manuel Martin. Trataba ¡¡ Como no !!, sobre ciencia de datos “Building an IA with Graph Theory and Data Science” [PDF]
Un estudio experimental de Microsoft sobre el uso de ChatGPT de OpenAI para aplicaciones de robótica. Es interesante, porque demuestra cómo ChatGPT puede ser eficaz para resolver varias tareas robóticas al tiempo que permite a los usuarios interactuar con él principalmente mediante instrucciones en lenguaje natural.
Interesante artículo de cómo Replit entrena modelos de lenguaje grande (LLM) usando Databricks, Hugging Face y Mosaic ML

Kaggle

Kaggle es una plataforma en línea propiedad de Google donde los científicos de datos y profesionales de aprendizaje automático pueden encontrar conjuntos de datos, competir y colaborar en proyectos. Pues bién, ha publicado una nueva competición organizada por Function-COSI para predecir la función de un conjunto de proteínas con un premio de 50K $.

StableLM

Stability AI, los desarrolladores de Stable Diffusion, ha lanzado un nuevo modelo de lenguaje de código abierto llamado StableLM, el cual está disponible en versión Alpha en 3 mil millones y 7 mil millones de parámetros.

Los modelos StableLM fueron entrenados en un conjunto de datos experimental construido en The Pile. No esperes todavía buenos resultados de estos modelos, pero ojito con el de 65 mil millones de parámetros, puede que lo cambie todo.

Los modelos tienen licencia Creative Commons CC BY-SA-4.0 . [Aquí una demostración]

OpenAI

Consistency Models de OpenaAI, o de cómo los creadores de ChatGPT vuelven a publicar algún documento open source (bajo licencia MIT). Consistency Models sería lo que GPT-4 fué a los chatbots, pero aplicado a la generación de imágenes de IA. [gitHub] .

Estos “modelos de consistencia” podrían ser el próximo paso para la generación de imágenes de IA y quizás lo que necesita DALL-E para diferenciarse, por que en este apartado se ha visto superado por modelos de Diffusion como MidJourney o Stable Diffusion.

Más sobre Inteligencia Artificial

AI21 anuncia que sus modelos Jurassic quedarán obsoletos el 1 de Junio de 2023. Al igual que sucedió con code-davinci-002 de OpenAI, los modelos israelitas se retirarán próximamente. Mi consejo, desarrolla aplicaciones que puedas adaptar fácilmente a diferentes modelos, por que como este sistema se convierta en costumbre …
[Alibaba] presentó Tongyi Qianwen, un modelo de lenguaje grande que se integrará en sus asistentes inteligentes Tmall Genie y en la plataforma de mensajería DingTalk.
Meta AI Open-Source DINOv2 :[GitHub]un nuevo método de IA para entrenar modelos de visión artificial de alto rendimiento basados en el aprendizaje autosupervisado
Microsoft y Epic Systems anuncian que llevarán el modelo de lenguaje de IA GPT-4 al cuidado de la salud para usarlo en la redacción de respuestas de los trabajadores de la salud a los pacientes y para usar en el análisis de registros médicos.
En este campo/sector también podemos intuir que hay otra “Guerra” : Google ya había anunciado que está en esto mismo de la Salud. (donde se mueve dinero siempre hay una batalla.)
Lo comentaba David Carrasco, en la NewsLetter de Unancor. Como parte de sus ambiciones de IA, Musk ha pasado los últimos meses reclutando investigadores con el objetivo de crear un esfuerzo rival para OpenAI, la compañía que abandonó a su suerte.

En este contexto, reclutó recientemente a Igor Babuschkin, un científico del laboratorio de inteligencia artificial DeepMind, propiedad de Alphabet Inc. para dirigir el nuevo proyecto. También ha tratado de reclutar empleados en OpenAI para unirse al nuevo laboratorio. La nueva empresa se llamará X.AI- El nuevo modelo se llamaría 'TruthGPT'. Tiene una teoría de la conspiración que puedes leer en este artículo de The Verge .
La plataforma de contenidos audiovisuales culturales de Radio 3 de RTVE, continúa investigando nuevos formatos, lenguajes y herramientas para la elaboración de contenidos y lanzó en Febrero ‘Hiperia’, primer contenido creado íntegramente con Inteligencia Artificial.
Snapchat lanza su chatbot de IA a todos los usuarios de forma gratuita, no tardará WhatsApp mas extendido por estos lares.

En GitHub

Vlog: Dado un video largo, lo convertimos en un documento que contiene información visual y de audio. ¡Al enviar este documento a ChatGPT, podemos chatear sobre el video!
ChatGPT con GRiT. Si enviamos los largos subtítulos de GRiT (ubicación y descripción del objeto) a ChatGPT puede generar descripciones de escenas sorprendentes.
D-KTS. Sistemas de resumen de video supervisados y no supervisados basados en KTS
No es un GitHub, pero esta idea puede ser muy interesante para nuestros proyectos, El objetivo de Pseudolang para ChatGPT es mejorar la interacción entre los usuarios y el modelo de IA proporcionando una sintaxis estructurada, similar a la programación, para formular instrucciones.
MiniGPT-4: un modelo de IA de código abierto que realiza tareas complejas de visión y lenguaje como GPT-4

Premio SONY de Fotografía

Esta imagen que te muestro a continuación fué la ganadora del Sony World Photography Awards 2023.

Categoría creativa. Creado por Boris Eldagsen a través de DALL-E 2 'pasándola por generadores de imágenes de IA entre 20 y 40 veces'.

La historia tiene “miga” y ciertamente fué un cúmulo de despropósitos y mala comunicación, la puedes seguir en palabras del autor aquí.

Estas fueron sus palabras, rechazando el premio:

Gracias por seleccionar mi imagen y hacer de este un momento histórico, ya que es la primera imagen generada por IA que gana en un prestigioso concurso internacional de Fotografía. ¿Cuántos de ustedes sabían o sospechaban que era generado por IA? Algo “no cuadra” … ¿verdad?
Las imágenes de IA y la fotografía no deberían competir entre sí en un premio como este. Son entidades diferentes. La IA no es fotografía. Por lo tanto, no aceptaré el premio.
… nosotros, el mundo de la fotografía, necesitamos un debate abierto. Una discusión sobre lo que queremos considerar fotografía y lo que no.

Código Python

Un código interesante para nuestras librerías, crear una aplicación de conversión de vídeo a diapositivas utilizando el poder de la estimación de fondo y la diferenciación de cuadros en OpenCV.
En los próximos días, se publicará el repositorio de nuestro Generador de Artículos en Github con una versión más rápida y estable.
Desbloqueando el poder de la clasificación multilingüe en PNL con Cohere
Y hablando nuevamente de Cohere: ojito que han publicado 10 millones de Artículos en Español de Wikipedia en Embeddings. Ideal para aplicación en los contextos de nuestros desarrollos.

Arte generativo

by Nomeradona en Leonardo Difussion.

Character portrait of Albert Einstein, standing on stage, side profile, caricature, chibi, kawaii,3d rendering, octane rendering, volumetric light, victorian fashion, metallic, highly-detailed symmetric face, detailed eyes, ultra sharp, highest quality, art by Anja Millen and George Cruikshank and Bordalo II, smooth, sharp focus, trending on artforum, behance hd, kids story book style, muted colors, watercolor style

Y hasta aquí nuestro boletín sobre inteligencia artificial , esperamos que te haya gustado , muchísimas gracias por compartirnos y por seguirnos. No dudes en compartirlo.

[con]NEURONA

Discusión sobre este post