IA-AI W20/2024

Inteligencia Artificial - Artificial Intelligence

Inteligencia Artificial - Artificial Intelligence · El boletín informativo que llega los lunes

Las noticias más relevantes de los últimos 7 días recopiladas y analizadas por y para creativos entusiastas de la Inteligencia Artificial - Artificial Intelligence ¡Tira del hilo, tira del link!

IA-AI Virtual Assistants (LLMs) / Chatbots

1. ChatGPT: por si no lo sabes

1.1. Spring Update Event

Una gran mayoría de la población no se ha enterado de todo lo que sigue en este apartado. Y es una pena porque es una revolución. Lee con atención y mira los ejemplos para asimilarlo e imaginártelo mejor. A nuestro juicio es como traspasar una puerta al futuro y no exageramos. De hecho, muchos han pensado que la película Her (actualmente en Prime Video), de golpe se ha hecho realidad y que incluso la nueva y para nosotros agradable voz en inglés de su nueva función de voz que contesta sin retardo, podría ser la de Scarlett Johansson que fue quien puso voz a Samantha, el asistente virtual del sistema operativo de quien se enamora el protagonista.

ChatGPT-4o: La Nueva Frontera de la Inteligencia Artificial

OpenAI ha presentado ChatGPT-4o, la versión más avanzada de su modelo de lenguaje hasta la fecha que puede razonar a través del audio, la visión y el texto en tiempo real. Esta nueva herramienta, apodada omni, “todo” en latín, por su capacidad de comprender y generar contenido multimodal, promete ser la más rápida y más inteligente de todas, y está/estará disponible gratuitamente para todos.

Accesibilidad y Costo

ChatGPT-4o se presenta así como una alternativa gratuita a otras suscripciones de IA como Claude Pro o Gemini Ultra, democratizando el acceso a la tecnología punta en inteligencia artificial (¿y destrozando a su competencia?). Los usuarios gratuitos, Plus y Teams reciben 16, 80 y 160 mensajes GPT-4o cada 3 horas, respectivamente. Ya está disponible pero voice y vision modes todavía tardarán unas semanas en estar implementados con prioridad a las cuentas de pago.

Capacidades Multimodales: ejemplos

La capacidad multimodal de ChatGPT-4o significa que puede procesar y generar no solo texto, sino también audio e imágenes. Sí, ya lo hacía, pero no de una manera nativa. Ahora ha sido entrenado a la vez con texto, imagen y audio, como lo fue en su día Gemini de Google. Esto lo convierte en una herramienta extremadamente versátil. Veamos unos ejemplos:

  • Traducción de Idiomas en Vivo: ChatGPT-4o puede traducir idiomas en tiempo real, lo que es útil para conversaciones multilingües. Ver ejemplo

  • Aprender un nuevo idioma: señala y te dirá que es. Ejemplo

  • Aprender mates o lo que sea: la docencia ha cambiado, un tutor privado 24 horas, ¿adiós a las clases particulares?. Ejemplo

  • Conversación en Tiempo Real: puede mantener conversaciones en tiempo real, lo que la hace ideal para interactuar en situaciones que requieren respuestas inmediatas. Ejemplo

  • Interpretación de nanas y Susurros: ChatGPT-4o puede interpretar tonos suaves y susurros, lo que podría ser útil en aplicaciones para ayudar a los niños a dormir. Ejemplo

  • Uso de Sarcasmo: esta capacidad permite a ChatGPT-4o entender y replicar tonos sarcásticos, lo que puede ser útil en la creación de contenido con un toque de humor. Ejemplo

  • Canto: puede cantar, incluso a dúo con otro móbil, lo que abre posibilidades para la creación de música o entretenimiento. Ejemplo

  • Ayuda a invidentes a describir el entorno, pillar un taxi… Ejemplo

  • Ayuda a desarrolladores Ejemplo

  • Puede generar historias visualmente coherentes, ya sea solo a partir de indicaciones de texto o a partir de una combinación de texto e imágenes, crear tipografías, texto visualizado en 3D, texto en imágenes, efectos de sonido, caricaturas X 

  • Generar código ejecutable para crear un juego a partir de solo un pantallazo X

Ejemplos de Aplicaciones Prácticas:

Con una nueva aplicación llamada ChatGPT Desktop con interfaz de usuario actualizada y que se integrará directamente en los flujos de trabajo del ordenador, se implementa una ventana a través de la cual será capaz de interpretar visualmente la pantalla. Podremos por ejemplo cargar un diseño y ChatGPT-4o podrá sugerir ajustes en la disposición y redacción de títulos, etc. cargar gráficas, excels o cualquier otra clase de documento y pedirle que nos las explique, ChatGPT-4o participará en meetings como una persona más pero sin gota de TDA, es decir más atenta que nadie y capaz de escuchar, intervenir y hacer resúmenes. 🤯

Impacto en la Competencia y el Mercado

La llegada de ChatGPT-4o podría influir en las suscripciones a servicios de IA de la competencia y posiblemente en futuras alianzas estratégicas, como una potencial colaboración entre OpenAI y Apple.

Conclusión

El lanzamiento de ChatGPT-4o es un paso significativo en la evolución de la inteligencia artificial. Con su capacidad para comprender y generar contenido en múltiples modalidades, esta herramienta no solo mejora la eficiencia y la productividad, sino que también abre nuevas formas de interacción entre humanos y máquinas. Si todos tenemos un móvil y un ordenador, ahora ya será imprescindible que estos incluyan ChatGPT-4o.

Puedes ver toda la presentación aquí o el hilo de X aquí.

1.2. Nuevas funciones

  • Ahora puedes resaltar partes de una respuesta y que estas sean copiadas directamente a la siguiente pregunta o prompt para seguir iterando con esos datos. Para ello primero resalta el texto deseado y haz clic en el icono de doble cita que aparecerá encima de él.

  • En Mac ya puedes arrastrar imágenes directamente a la ventana de ChatGPT. X

2. Claude

Por fin está disponible en Europa Claude, incluyendo una app para iOS.

3. En Poe

Además de ChatGPT-4o, puedes probar gratis en Poe, Gemini 1.5 Flash y la actualización de Gemini 1.5 Pro de los cuales hablamos en IA-AI Google👇🏻

4. You.com

Nos está gustando mucho you.com. Suponemos que debe ser por su buena usabilidad, su acceso a la web en tiempo real, que ofrece información actualizada al minuto y por sus distintos modos, de los cuales poco a poco te van enviando información para saber cuándo elegir uno u otro.

IA-AI Image

Midjourney

Existen muchos generadores de prompts para Midjourney, pero este Gpt ha sido recomendado en el propio Discord de Midjourney y listo para la versión 6. Para cargar en tu ChatGPT. Link

IA-AI Video

👇🏻Ver novedades en IA-AI Google👇🏻

IA-AI Audio/Music

1. Crear voces

¿Quieres crear una voz que diga lo que quieres para usarlo en un vídeo, red social o negocio? Facilísimo, indistinguible de una voz humana y gratis con ElevenLabs.io

2. Clonar voces

Clonar tu voz o la de cualquiera también es fácil con openvoice. Subes un archivo de audio (regístrate en Replicate antes) con la voz de la persona y sin ruido de fondo, escribes lo que quieres que diga y en unos segundos puedes bajar el resultado. Útil para traducir una voz a otros idiomas con la misma entonación. A pesar de no haberlo hecho perfecto, sirve para darte cuenta del peligro que supone y de lo alertas que debemos estar.

3. Gràffica.info

Artículo en Gràffica sobre la clonación de voz

+👇🏻Ver novedades en IA-AI Google👇🏻

IA-AI Google

Evento Google I/O 24

Puedes ver todo el evento aquí. Puedes ver un resumen de 10 minutos aquí. O/y leer nuestro resumen:

Aunque ChatGPT-4o se presentó justo un día antes de este evento, no ha conseguido restar protagonismo al impresionante trabajo de Google y a sus novedosas herramientas. Sin embargo, es evidente que están tratando de mantener el paso, y en las inevitables comparaciones, siempre parecen quedar por detrás. Lo más alarmante es que están perdiendo credibilidad debido a sus antecedentes de presentaciones prometedoras que finalmente resultaron ser en la práctica decepcionantes o incluso falsas. También la comunidad se empieza a cansar del anuncio de novedades a bombo y platillo pero que todavía no están disponibles. Estaremos pendientes de lo que ocurra en esta ocasión.

Proyecto Astra Google está trabajando en un nuevo proyecto llamado Astra, que se centra en construir un asistente/agente IA para la vida cotidiana. Este asistente podrá responder a lo que vea y oiga, incluyendo código, imágenes y vídeo, será capaz de razonar y tendrá recuerdo avanzado. En el vídeo-demo incluso encuentra unas gafas perdidas. Se espera que esté disponible a finales de año a través de Gemini App.

Veo Es el nuevo generador de vídeo de IA de Google. Aunque impresionante, crea clips de 1080p y 60 segundos, se ve eclipsado por Sora, el modelo de texto a vídeo de OpenAI.

Imagen 3 El último modelo de texto a imagen de Google ha impresionado con su realismo, especialmente en la representación de personas. Este realismo solo está por detrás de Midjourney pero no está disponible en España salvo por VPN de otro país.

Gemini 1.5 Flash y 1.5 Pro Gemini 1.5 Pro presenta mejoras de rendimiento en todas las dimensiones, incluyendo el razonamiento, las matemáticas, la comprensión multilingüe, la creatividad, la escritura y la comprensión multimodal completa, con 2 millones de tokens que te permite subir y bucear en 1500 páginas de texto de golpe. El nuevo Gemini 1.5 Flash, con 1 millón de tokens, genera respuestas más rápidas, mejora su capacidad de traducir, razonar y codificar y duplica la cantidad de información que puede obtener.

SynthID Habías oído hablar de marcas de agua en imágenes, ¿pero en vídeo? ¿Y en texto?

Integración de Gemini en el espacio de trabajo Los usuarios de pago de Google tendrán acceso a Gemini con AI teammates en las aplicaciones de productividad de Google (Docs, Sheets, Slides, Drive, Gmail). Estos podrán obtener información de los documentos de tu Drive, ayudarte a escribir correos electrónicos, crear presentaciones y más. Mucho de todo esto ya está disponible y ya ha defraudado. Suponemos que lo van mejorando día a día.

Music AI Sandbox Google DeepMind, en colaboración con YouTube, anuncia Lyria, su modelo de generación de música de IA-AI más avanzado hasta la fecha, y dos experimentos de IA diseñados para abrir un nuevo sitio para la creatividad. Claro ejemplo de porque los músicos no deben tener miedo a las herramientas IA. Demo. Y mucho más en Deepmind, YouTube 

Search con IA Gemini también ayudará a los usuarios a buscar cosas en Google, con un modelo de IA especializado que ofrecerá respuestas personalizadas y resumirá la información encontrada en Internet. Incluso podrás hacer preguntas con vídeo.

Integración con Chrome Pronto, Chrome albergará Gemini Nano, una versión ligera de Gemini que se ejecuta en el dispositivo para generar texto, útil para publicaciones en redes sociales o reseñas de productos.

Bueno, podríamos seguir, pero qué mejor que facilitarte información de primera mano. Te dejamos un link a 100 things we announced at I/O 2024 Si lo hubiésemos encontrado antes 🙄 nos hubiésemos ahorrado unas letras. 😂

Si has llegado hasta aquí te mereces al menos un poco de inspiración creativa. Dale una ojeada a este vídeo y al proyecto Infinite Wonderland “This is an AI experiment where the timeless classic Alice’s Adventures in Wonderland is endlessly reimagined by artists, AI and you.” Lástima que no esté operativo del todo en España.

IA-AI Adobe

Photoshop

Inspiración. El poder de Generative Fill + Reference Image Instagram

IA-AI Instagram, Artista recomendado

IA-AI Interesting News

1. Sam Altman says

20 minutos mejor que 2 horas y un pequeño estudio bien ambientado mejor que un gran espacio. OpenAI / Google. X

2. Negocio: Avatares Digitales de Fallecidos en China

En China, la práctica de crear avatares digitales de seres queridos fallecidos para ayudar en el proceso de duelo está ganando popularidad. Estos avatares, que son básicamente deepfakes, permiten a las personas interactuar con representaciones digitales de sus familiares fallecidos. La tecnología detrás de estos avatares no difiere mucho de la utilizada para replicar a personas vivas. El mercado para estos servicios es robusto, con varias empresas ofreciendo la creación de estos avatares y una disminución en los costos, lo que los hace más accesibles. Además, esta práctica se alinea con una tradición cultural china de mantener una conexión con los muertos aunque seguro que en cualquier país funcionaría igualmente. MIT Technology Review

3. Uso de la Inteligencia Artificial en Hollywood

Como en tantos otros campos, no lo reconocen abiertamente pero la IA-AI se ha infiltrado en Hollywood, y su uso está creciendo a pesar de las preocupaciones laborales y las posibles amenazas a la industria. Las herramientas IA se están utilizando en salas de escritores, departamentos de efectos visuales, traducción de subtítulos… lo que indica una adopción generalizada en la industria del entretenimiento. Hollywood Reporter

4. Disseny Hub Barcelona, exposición

La Oficina Ciudadana de Memorias Sintéticas es una instalación e iniciativa ideada por Domestic Data Streamers que invita a los ciudadanos a participar en la recuperación y reconstrucción de sus recuerdos. La exposición, Memorias Sintéticas, es una muestra inmersiva que fusiona tecnología con relatos personales, y en la cual se podrán ver hasta el 29 de septiembre, las imágenes creadas en la oficina gracias a la IA-AI a partir de recuerdos de vecinos y vecinas de la ciudad. Este archivo irá creciendo, ya que los ciudadanos y ciudadanas que lo deseen podrán participar en el proyecto (con cita previa). Instagram

=

👋🏻Y esto ha sido todo. Si te ha parecido interesante, nos vemos el próximo lunes.

IA-AI Newsletter

Joaquin Phoenix en un fotograma de la película “her”. Buen momento para verla o volverla a ver.

Si quieres leer boletines o informes anteriores los puedes encontrar aquí

Y recuerda que siempre puedes consultar definiciones de términos relacionados con la IA-AI en nuestro pequeño y modesto Diccionario IA-AI

Gracias por leer IA-AI Newsletter. Lo mejor de la semana en creatividad IA-AI.

Suscríbete gratis para recibir nuevas publicaciones y apoyar nuestro trabajo.

Vigila la bandeja del correo basura, ¡no nos gusta estar ahí!