fbpx

Gemini la IA multimodal de Google para rivalizar con GPT-4 OpenAI sigue dominando el mercado de las IA con ChatGPT y sus diferentes versiones, pero Google lanzó Gemini para recuperar la iniciativa en este mercado.

5 min


3
3 points
Incuba Media Lab

gemini la ia multimodal de google para rivalizar con gpt 4 ia

No cabe duda que la Inteligencia Artificial (IA) ha sido el protagonista más relevante de la tecnología en este 2023. La pauta en el mercado la ha venido marcando OpenAI con ChatGPT, aunque, Google uno de los pioneros de esta tecnología, a principios de diciembre, mostró un nuevo producto que promete devolverle su papel predominante en el desarrollo de las IA.

Hasta ahora, la compañía de Mountain View ha estado detrás de OpenAI a pesar de haber lanzado su chatbot Google Bard, el cual no ha logrado el mismo éxito de ChatGPT. Sin embargo, esto podría cambiar, porque Google decidió recuperar la iniciativa y dar un paso más allá con el lanzamiento de Gemini, una IA verdaderamente sorprendente que está en otro nivel.

Gemini, es un proyecto diferente a Bard que opera un modelo de lenguaje LLM (Large Language Model) “Modelo Grande de Lenguaje”, ya que opera con MMLU (Massive Multitask Language Understanding) o “Comprensión masiva del lenguaje multitarea”, el cual fue desarrollado por Google Deepmind, la empresa de inteligencia artificial inglesa, que fue creada en 2010 como DeepMind Technologies y que fue adquirida en 2014 por Alphabet Inc., empresa matriz de Google.

Google Deepmind, es la misma empresa que creó la tecnología que se utilizó para crear AlphaGo (una de las primeras IA en vencer al campeón mundial del juego de mesa Go) y parte de cuyo modelo está basado Gemini.

gemini la ia multimodal de google para rivalizar con gpt 4 ia 3

Aunque las esperanzas de Google están muy altas con Gemini, se pudo conocer que habían experimentado problemas técnicos «debido al bajo rendimiento del modelo al responder instrucciones en idiomas que no fueran el inglés» según reveló el sitio The Information, razón suficiente para aplazar el lanzamiento de esta IA, aunque de momento será lanzada sólo en inglés.

No obstante, Google continuó con los planes de realizar un evento de presentación de una versión recortada de Gemini antes de que terminase este 2023, porque Gemini es casi todo lo que un usuario espera de una poderosa IA que está por encima de lo que hemos visto hasta ahora.

Demis Hassabis, CEO y cofundador de Google DeepMind, en nombre del equipo Gemini, en un comunicado explicó que: “Gemini es el resultado de esfuerzos de colaboración a gran escala por parte de equipos de Google, incluidos nuestros colegas de Google Research”.

Fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video”, agregó Hassabis.

El CEO de Google DeepMind, señaló que: “Gemini es también nuestro modelo más flexible hasta el momento: capaz de ejecutarse de manera eficiente en todo, desde centros de datos hasta dispositivos móviles. Sus capacidades de vanguardia mejorarán significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA”.

Según Hassabis, se optimizó la primera versión de Gemini o Gemini 1.0, para funcionar en tres tamaños diferentes: El primero es Gemini Ultra: el modelo más grande y capaz para tareas altamente complejas. El segundo es Gemini Pro: el mejor modelo para escalar en una amplia gama de tareas.

Por último, Gemini Nano: el modelo más eficiente para tareas en dispositivos, el cual será incorporado a Smartphones. De hecho, esta versión será incorporada al Google Pixel 8 Pro, que se convertirá en el primer Smartphone diseñado para ejecutar Gemini Nano.

Esto permitirá que el Pixel 8 Pro, tenga nuevas funciones como Resumir en la aplicación Grabadora y la implementación de Respuesta inteligente en Gboard, comenzando con WhatsApp, Line y KakaoTalk, y habrá más aplicaciones de mensajería el próximo año.

Según el CEO de Google Deepmind, se encargaron de probar rigurosamente todos los modelos Gemini, con el objeto de evaluarlos en su desempeño en una amplia variedad de tareas, que van desde “la comprensión de imágenes naturales, audio y video hasta el razonamiento matemático, el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM)”.

Hassabis, explicó que “Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar ambos mundos conocimientos y habilidades para la resolución de problemas”.

Además, dijo que el nuevo enfoque de referencia para MMLU facilita que Gemini pueda utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder preguntas difíciles, esto se traduce en mejoras significativas con respecto al simple uso de su primera impresión.

También, Gemini Ultra logró una puntuación de vanguardia del 59,4% en el nuevo punto de referencia MMMU, que consta de tareas multimodales las cuales abarcan diferentes dominios que requieren un razonamiento deliberado lo cual es bastante complejo en sí.

gemini la ia multimodal de google para rivalizar con gpt 4 ia 2

En cuanto a los puntos de referencia de imágenes que fueron evaluados con Gemini Ultra, esta versión de Gemini superó a los modelos anteriores de última generación, sin la ayuda de sistemas de reconocimiento óptico de caracteres (OCR) que extraen texto de imágenes para su posterior procesamiento.

Estos puntos de referencia resaltan la multimodalidad nativa de la IA Gemini creada por Google DeepMind e indican signos tempranos de habilidades de razonamiento más complejas para esta Inteligencia artificial.

Esta métrica combina 57 materias diferentes, desde matemáticas y física hasta historia y ética, lo que demuestra la capacidad de Gemini para comprender el conocimiento del mundo y resolver problemas complejos”.

Y por si fuera poco, Hassabis señaló que dado que Google ha apostado por el desarrollo responsable de la IA, Gemini fue sometida a rigurosas evaluaciones de seguridad, incluyendo medidas contra “sesgos y toxicidad”, las cuales ayudarán a identificar posibles riesgos en áreas como “la ciberdelincuencia y la persuasión”, implementando medidas de seguridad adicionales, como clasificadores de contenido para identificar aquellos potencialmente perjudiciales.

Estos resultados y las excepcionales capacidades de Gemini, no son mera casualidad, ya que ha sido fruto de la colaboración de varios equipos de todo Google, incluyendo a Google Research. Y que también, a diferencia de modelos previos, fue desarrollado desde el inicio para ser multimodal.

Esto al final, le permite comprender y procesar diferentes tipos de información, como texto, código de programación, audio, imágenes y vídeo, así como “sobresalir en la resolución de problemas complejos y el razonamiento conceptual”.

gemini la ia multimodal de google para rivalizar con gpt 4 ia 4

Sundar Pichai, CEO de Google y Alphabet, dijo en el mismo comunicado, que “La IA tiene el potencial de crear oportunidades (desde las cotidianas hasta las extraordinarias) para personas de todo el mundo. Traerá nuevas olas de innovación y progreso económico e impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a una escala nunca antes vista”.

Pichai, del mismo modo resaltó que este ha sido un esfuerzo de Google tras casi ocho años de investigación y desarrollo. Además, Google promete que Gemini estará disponible para miles de millones de personas en todo el mundo, a través de los productos de Google, en los próximos meses.

Esto quiere decir que Gemini estará disponible en Google Search, Google Ads, Chrome, Duet AI, próximamente y más adelante en otros productos y servicios de la empresa de Mountain View. Adicionalmente, desde ya Bard utiliza una versión mejorada de Gemini Pro para un razonamiento, planificación, comprensión más avanzados y más.

Esto supone, la mayor actualización de Bard desde su lanzamiento, la cual está disponible únicamente en inglés en más de 170 países y territorios. Aunque, en el futuro cercano, se puedan ver versiones en diferentes modalidades e idiomas y ubicaciones en el mundo.


© 2020-2023 BlockTrendy.com | Breaking News & Top Stories, Latest World News, Viral stories, Technology, Blockchain and more! – Para leer más sobre nuestros principios y prácticas periodísticas ingrese aquí.

Stock Island Marina Village
Was this article helpful?
YesNo

Like it? Share with your friends!

3
3 points

What's Your Reaction?

lindo lindo
1
lindo
rayos rayos
0
rayos
vergüenza vergüenza
0
vergüenza
vomitivo vomitivo
0
vomitivo
detestable detestable
0
detestable
confuso confuso
0
confuso
divertido divertido
0
divertido
geeky geeky
1
geeky
amor amor
2
amor
jajaja jajaja
0
jajaja
omg omg
0
omg
ganador ganador
2
ganador
BlockTrendy Editors Team
BlockTrendy Editorial Board. | English: Breaking News & Top Stories, Latest World News, Viral stories, Technology, Blockchain, Memes and more! Español: Últimas Noticias e Historias Destacadas, Últimas noticias mundiales, Historias virales, Tecnología, Blockchain, Memes y más!

0 Comments

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

BlockTrendy.com 2023 Sorry, you cannot copy content of this page.