[con]Neurona # Episodio 12
Los humanos poseen una conciencia subjetiva y pueden comprender e interpretar el significado de la información ... los modelos de IA no.
Los humanos poseen una conciencia subjetiva y pueden comprender e interpretar el significado de la información, los modelos de IA no "comprenden" verdaderamente como lo hacen los humanos: simplemente identifican y replican patrones en los datos con los que han sido entrenados. Dicho esto, vamos al lío:
Una medición fiable del rendimiento de los LLM
Cada semana se publican modelos modelos de lenguaje (LLM) y ChatBots que afirman ser lo mejor de lo mejor. La tabla de clasificación de 🤗 Open LLM, rastrea, clasifica y evalúa los LLM y chatbots a medida que se publican.
Para ello utilizan “Eleuther AI Language Model Evaluation Harness”, un marco unificado que permite probar modelos de lenguaje generativos en una gran cantidad de tareas de evaluación diferentes.
Eleuther AI Language Model Evaluation Harness es un desarrollo de Eleuther AI para evaluar modelos de lenguaje generativos que nos ofrece 4 benchmarks (test) clave:
AI2 Reasoning Challenge (25 Shot “intentos”) - un conjunto de preguntas de ciencias de primaria.
HellaSwag (10 shot): una prueba de inferencia de sentido común, fácil para los humanos (~95%) pero difícil para los modelos SOTA.
MMLU (5 shot): prueba para medir la precisión multitarea de un modelo de texto. La prueba abarca 57 tareas, entre las que se incluyen matemáticas elementales, historia de EE.UU., informática, derecho, etc.
Truthful QA MC (0 intentos): prueba de referencia para medir si un modelo lingüístico es veraz a la hora de generar respuestas a preguntas.
No os engaño, ha sido copiar/pegar en “Claude” y ya tengo el resumen [Enlace Tabla]:
El modelo con el mejor promedio es LLaMA-65b con 58.3.
LLaMA-65b con 57.8. tambbién gana en ARC (25-shot) es
El modelo con el puntaje en HellaSwag (10-shot) es LLaMA-65b con 84.2.
El puntaje promedio más alto en MMLU (5-shot) es LLaMA-65b con 48.8.
El promedio más alto en TruthQA (0-shot) lo obtuvo LLaMA-65b con 42.3.
Presentaciones destacadas
Shap-E [PDF] es el modelo Text-To-3D más nuevo de OpenAI, que puede generar formas 3D en solo unos segundos. En diciembre del año pasado, lanzaron Point-E modelo que creaba nubes de puntos 3D simples en un par de minutos. Este nuevo lo supera de largo. Código y modelos en Github , y puedes probar la demostración aquí .
Microsoft ha realizado una inversión no revelada en Builder.ai , una startup que ofrece una plataforma noCode/de código bajo para crear aplicaciones. La asociación estratégica integrará a Natasha, la asistente de inteligencia artificial de Builder.ai en Microsoft Teams, lo que permitirá a los clientes desarrollar aplicaciones comerciales dentro del software.
Inflection (formado por exmiembros de DeepMind) ofrecerá Pi gratis por ahora, sin restricciones de tokens. Construido sobre uno de los grandes modelos de lenguaje internos de Inflection. [Pruébalo aquí ]
Optimice las tareas repetitivas de ChatGPT y aumente la eficiencia con la automatización. Numerous Flow es una poderosa herramienta que puede ayudar a reducir las tareas repetitivas involucradas en la generación de contenido de ChatGPT. Al crear un flujo de trabajo que realiza la misma acción en cada tarea y automatizar tareas repetitivas con numerosas acciones.
Google I/O en realidad era … Google IA
La IA fue definitivamente la protagonista en esta edición de Google I/0, Google dijo “IA” más de 140 veces durante el evento.
Google se asoció con Adobe para llevar Firefly a la búsqueda de Google/Bard y realmente es muy potente. Habló de que la mayoría de sus aplicaciones, se reforzarán mediante IA, de que todas las imágenes generadas por IA a partir de sus modelos tendrán marcas de agua incrustadas y otras técnicas para identificar si una imagen es generada por IA. Y además del ya conocido chat Bard, concretó otros modelos:
El lanzamiento de PaLM 2
PaLM 2 es un conjunto de 4 modelos de lenguaje que sobresalen en tareas de razonamiento sensorial, matemáticas, codificación y lógica. Algunos modelos son tan livianos que pueden ejecutarse en dispositivos móviles. Alguno de los modelos ya está disponible en Google Cloud Vertex AI.
Géminis
Gemini es su modelo multimodal, que todavía está en desarrollo. También es muy eficiente en las integraciones de herramientas y API y está diseñado para la memoria a largo plazo.
MusicLM
Puedes registrarte para probarlo en AI Test Kitchen en la web, Android o iOS. Simplemente escribes un mensaje tipo "jazz conmovedor para una cena" y MusicLM creará dos versiones de la canción. Puedes escuchar ambas y darle un trofeo al track que más te guste, lo que ayudará a mejorar el modelo.
Bard
Google Bard llega a más de 180 países y territorios, ninguno en la UE. La lista de 180 países y territorios admitidos excluye a Canadá y todos los 27 estados miembros de la Unión Europea (UE). existe la sospecha de que el Reglamento General de Protección de Datos (GDPR) de la UE está en el centro de la omisión.
Google no ha explicado por qué aún no trae a Bard a la UE. Y yo me pregunto:
¿Qué tipo de violaciones de políticas podría presentar un asistente de IA conversacional como Bard en la UE?
Nuevas funciones de ChatGPT
Vía @DavidGarrido conocemos que ya se acercan algunas funciones de navegación web y complementos de ChatGPT Plus que se encuentran actualmente en versión beta. Los usuarios de ChatGPT Plus tendrán acceso anticipado a estas nuevas funciones experimentales a través de un panel en la configuración de la cuenta. El panel beta permitirá a los usuarios probar dos nuevas funciones:
Navegación web: una versión de ChatGPT que sabe cuándo y cómo navegar por Internet para responder preguntas sobre temas y eventos actuales.
Complementos: una versión de ChatGPT que sabe cuándo y cómo usar complementos de terceros habilitados por el usuario.
Hablaremos de los nuevos complementos más adelante, que tiempo habrá.
Código y desarrollo
Si estás desarrollando alguna aplicación sobre IA, te interesa este nuevo agente de LangChain. Agentes de planificación y ejecución-
Anthropic Claude 100K
Como lo oyes, 100.000 tokens en todos los modelos de Claude. Aquí entra más de un libro y más de una tesis, o por ejemplo todo un “Kw Research” para analizar las posibilidades de tu próxima web.
Se acaban de cargar, como mínimo una docena de herramientas de "chatea con un PDF”.
La ventana de contexto de Claude se ha ampliado de 9.000 a 100.000 tokens, lo que corresponde a unas 75.000 palabras. Una persona tardaría 5 horas o más en leer 100.000 tokens de texto, pero Claude puede hacerlo en menos de un minuto. Por ejemplo, Claude leyó todo El gran Gatsby (72K tokens) en 22 segundos y pudo identificar una sola línea que había sido modificada.
Este contexto más grande permite a Claude ayudar a las empresas sintetizando información de múltiples documentos o incluso de libros enteros. Claude puede seguir instrucciones y recuperar información compleja como un asistente humano.
Los usuarios actuales podemos cambiar con la API a versiones del modelo que la admitan, y los nuevos usuarios pueden solicitar acceso.
Anthropic Claude
La manera de interrogar al LLM de Anthropic desde python es un poco diferente a lo que puedes conocer de ChatGPT, aquí un ejemplo [y otros]
import os
import anthropic
def main (max_tokens_to_sample: int = 100):
c = anthropic.Client(os.environ["ANTHROPIC_API_KEY"])
resp = c.completion( prompt=f"{anthropic.HUMAN_PROMPT} ¿Cuántos dedos tienen los perros?{anthropic.AI_PROMPT}",
stop_sequences=[anthropic.HUMAN_PROMPT],
model="claude-v1",
max_tokens_to_sample=max_tokens_to_sample,
)
print(resp)
if __name__ == "__main__":
main()
Imágenes
Ya esta aquí Stable Animation SDK, una herramienta diseñada para que artistas y desarrolladores implementen los modelos más avanzados de Stable Diffusion para (por ejemplo) generar animaciones asombrosas. (Gracias David Alcubierre)
Nuestra imagen semanal utilizando Leonardo.ai
Lecturas y más reflexiones
En los próximos 5 o 10 años todo cambiará para muchas personas.
Es posible que los gobiernos deban considerar extender el ingreso básico universal para amortiguar el golpe de los trabajadores cuyos trabajos se pierden debido a la automatización, argumentó el fundador de DeepMind experto en IA Mustafa Suleyman
https://fortune.com/2023/05/10/artificial-intelligence-deepmind-co-founder-mustafa-suleyman-ubi-governments-seriously-need-to-find-solution-for-people-that-lose-their-jobs/
Y esto es todo por hoy, como veis no hay semana que no venga cargada de novedades y acontecimientos. Y estamos seguros que los avances serán cada vez más espectaculares … si te ha gustado el contenido no dudes en suscribirte y compartir.