Google lanzó este miércoles una nueva herramienta de Inteligencia Artificial (IA) llamada Gemini, que presentó como más potente que cualquier otra actualmente en el mercado, incluyendo el popular ChatGPT, creado por OpenAI, hoy aliada con Microsoft.
La compañía subraya la “multimodalidad” de Gemini, al ser capaz de “razonar con fluidez mediante textos, imágenes, video, audio y códigos”, a través de lo que se conoce como el modelo MMLU, siglas en inglés para la “comprensión masiva de lenguaje multitareas”.
Según la presentación general ofrecida hoy por la compañía, Gemini se presentará en tres formatos: Nano (la más sencilla, en forma de aplicación para teléfonos celulares), Pro y Ultra, esta última “la más potente para tareas de gran complejidad”.
Cómo funciona Gemini, la nueva IA de Google
Gemini puede recibir información visual o auditiva (notas de música, imágenes, palabras) y desde ahí generar contenido propio, que a su vez puede ser en versión texto, audio o imágenes.
En la presentación, Gemini es capaz de detectar errores en un problema matemático complejo, dar la respuesta correcta y explicar los pasos hasta llegar a ella; o de dar abundante información sobre un animal (un pato) a través de un simple dibujo, incluyendo la traducción de “pato” a cinco lenguas.
Igualmente, es capaz de “jugar” con el usuario en retos tan populares como “piedra, papel o tijera” o el de los tres cubiletes.
Gemini trabaja con los lenguajes de código más habituales, como Java, Python, C++ y Go, según sus creadores, y aunque incurre en algunos errores, Google dice que los sabe resolver cuando así se le comunica en el 90 % de los casos.
El potencial de Gemini se va a aplicar a su sistema actual de chat, conocido como Bard y que funciona ya en varias lenguas, incluido el español.
La compañía no ha aclarado cómo piensa monetizar la nueva herramienta, y por el momento se ha limitado a anunciar que estará disponible a partir del 13 de diciembre.
Gemini: las diferencias con Bard
La diferencia entre Gemini y Bard de Google es que Gemini es un sistema de gestión de datos que permite clasificar, organizar y analizar la información de forma automática, mientras que Bard es una plataforma de chat por inteligencia artificial que permite conversar con un agente virtual sobre diversos temas. Gemini y Bard se basan en PaLM 2, una nueva familia de modelos de lenguaje de inteligencia artificial creada por Google, que ofrece una mayor precisión y fluidez que otros sistemas similares.
Según explican, Gemini tiene como objetivo ayudar a las empresas y organizaciones a extraer valor de sus datos, mediante el uso de técnicas de procesamiento del lenguaje natural, aprendizaje automático y visión por computadora. Gemini puede reconocer el tipo, el formato y el contenido de los datos, y asignarles etiquetas, categorías y metadatos. Gemini también puede generar resúmenes, gráficos y tablas que faciliten la comprensión y la visualización de los datos.
Bard, en cambio, apunta a un usuario final y “tiene como objetivo ofrecer una experiencia de conversación natural, divertida y educativa a los usuarios, mediante el uso de técnicas de generación de texto, comprensión del contexto y personalización”. Bard puede responder a preguntas, contar historias, hacer bromas, crear imágenes y más. Bard también puede adaptarse al estilo, al tono y al humor del usuario, y hasta aprender sus gustos y preferencias.
Google ataca, así, ambos frentes para no perder la carrera de la IA.