Gemini 2.0: El Nuevo Modelo de IA de Google que Crea Textos, Imágenes y Audio

Descubre Gemini 2.0, el último avance de Google en inteligencia artificial que genera textos, imágenes y audio. Conoce sus funciones y cómo ayudará a desarrolladores.

Google ha lanzado un nuevo modelo de inteligencia artificial llamado Gemini 2.0 Flash, diseñado para competir con las herramientas avanzadas de OpenAI. Este modelo, anunciado el miércoles, puede crear imágenes, audio y texto. Además, tiene la capacidad de usar aplicaciones y servicios externos, como Google Search, ejecutar códigos y más.

Por ahora, Gemini 2.0 Flash estará disponible de forma experimental a través de la API de Gemini y las plataformas para desarrolladores de Google, como AI Studio y Vertex AI. Sin embargo, las funciones para generar imágenes y audio solo estarán accesibles para “socios de acceso temprano” hasta que se lance a más usuarios en enero.

Más funciones y compatibilidad

En los próximos meses, Google planea integrar Gemini 2.0 Flash en herramientas como Android Studio, Chrome DevTools, Firebase y Gemini Code Assist. Esta versión mejorada supera al modelo anterior, Gemini 1.5 Flash, que solo generaba texto. Ahora es más versátil, ya que puede usar herramientas como Google Search e interactuar con APIs externas.

Tulsee Doshi, líder del producto Gemini, destacó que 2.0 Flash es tan rápido como el modelo anterior, pero más potente. Según Google, es el doble de rápido que el modelo Gemini 1.5 Pro en ciertos estándares y ofrece grandes avances en áreas como análisis de imágenes y habilidades matemáticas.

Creación y análisis de contenido

Gemini 2.0 Flash puede generar y editar imágenes junto con textos. También analiza fotos, videos y grabaciones de audio para responder preguntas como “¿Qué dijo él?”. Otra función destacada es su capacidad para generar audio personalizado. Por ejemplo, puede narrar textos con ocho voces diferentes que se adaptan a distintos idiomas y acentos.

Además, Google asegura que todos los contenidos generados por Gemini 2.0 Flash, como imágenes y audios, estarán marcados con tecnología SynthID para identificar que son sintéticos. Esto busca prevenir el mal uso, como los deepfakes, que han aumentado cuatro veces entre 2023 y 2024, según Sumsub.

API Multimodal

Aunque la versión completa de Gemini 2.0 Flash llegará en enero, Google ya lanzó la API Multimodal Live para ayudar a los desarrolladores a crear aplicaciones en tiempo real. Esta API permite procesar audio y video directamente desde cámaras o pantallas, y manejar conversaciones naturales con interrupciones, similar a la API Realtime de OpenAI.

Gemini 2.0 Flash representa un paso importante en la evolución de las herramientas de inteligencia artificial, brindando más posibilidades a los desarrolladores y reforzando la posición de Google en este competitivo campo.