OPINIÓN

Elon Musk desafía a OpenAI con Grok 3: ¿Competencia real o marketing?

Grok 3 es la IA generativa de Elon Musk que pretende golpear al mercado con una mayor potencia que la de sus rivales más próximos

Publicado el 25 feb 2025

David Alonso Urbano

Director del Máster de Inteligencia Artificial de UDIT

Dhaka, Bangladesh- 16 Feb 2025: Grok 3 logo is seen on a smartphone.

Índice de temas

Qué es Grok 3

Elon Musk y su empresa xAI han dado un golpe sobre la mesa con el lanzamiento de Grok 3, la última versión de su modelo de inteligencia artificial generativa. Presentado como un modelo superior en razonamiento y generación de contenido, Grok 3 ha logrado posicionarse en el primer lugar de Chatbot Arena, una plataforma abierta desarrollada por investigadores de la Universidad de Berkeley, donde se clasifican los mejores modelos de lenguaje y chatbots de IA.

Sin embargo, más allá de las afirmaciones de sus creadores, surgen preguntas clave: ¿realmente representa un avance revolucionario? ¿Existen pruebas independientes que respalden su supuesta superioridad frente a los modelos desarrollados por OpenAI, Anthropic o DeepSeek? ¿Qué riesgos plantea su integración en X?

Uno de los puntos más destacados por xAI en la presentación de Grok 3 ha sido su supuesta capacidad para resolver problemas de razonamiento avanzado. Según la empresa, este modelo ha mejorado significativamente en áreas clave como matemáticas, ciencias y programación, superando en rendimiento a los modelos más populares de compañías como OpenAI, Google y Meta.

Pero aunque Elon Musk ha afirmado que Grok 3 supera a GPT-4o de OpenAI en pruebas internas, estas declaraciones deben tomarse con cautela. A diferencia de otros modelos líderes, que han sido sometidos a evaluaciones académicas y pruebas independientes, actualmente no existen papers que respalden la superioridad de Grok 3
DAVID ALONSO, UDIT

Además, desde la compañía también han puesto en valor la nueva característica Deep Search, un motor de búsqueda avanzado capaz de articular su proceso de pensamiento al responder a las consultas de los usuarios, mejorando la eficiencia en tareas complejas de investigación y análisis.

Pero aunque Elon Musk ha afirmado que Grok 3 supera a GPT-4o de OpenAI en pruebas internas, estas declaraciones deben tomarse con cautela. A diferencia de otros modelos líderes, que han sido sometidos a evaluaciones académicas y pruebas independientes, actualmente no existen papers que respalden la superioridad de Grok 3. Por ello, este tipo de afirmaciones podrían considerarse, al menos en parte, una estrategia de marketing.

Pruebas y límites en el razonamiento de Grok 3

Para comprobar las capacidades de razonamiento, flexibilidad cognitiva y comprensión del contexto de los modelos de inteligencia artificial, resulta habitual evaluarlos mediante acertijos y problemas lógicos. Este enfoque ha sido adoptado por expertos en el campo, como el divulgador y especialista en IA Xavier Mitjana, quien ha explorado a fondo el rendimiento de estos sistemas en distintos escenarios.

Al ser sometido a diferentes pruebas en este terreno, Grok 3 ha demostrado un buen manejo de estructuras lógicas clásicas al resolver correctamente problemas como el de la cabra y la barca, donde un granjero debe cruzar un río con una cabra, un lobo y una col sin que ninguno se coma al otro. Sin embargo, su capacidad de pensamiento lateral es más limitada; en el desafío de las bolas de billar, no reconoce que girando el 9 se convierte en un 6, lo que impide encontrar la combinación correcta de tres bolas cuya suma sea 30.

En pruebas de integración de contexto, también presenta carencias. Ante la pregunta de cómo cruzar un río congelado para recoger una manzana en invierno, no advierte que en esa estación los manzanos no suelen tener frutos. Además, al enfrentar expresiones irónicas, como la frase «En el mundo hay tres clases de personas: las que saben sumar y las que no», la interpreta de manera literal, sin captar el juego de palabras implícito.

Estos resultados muestran que, si bien Grok 3 tiene un desempeño sólido en lógica estructurada, todavía presenta dificultades en tareas que requieren creatividad, pensamiento lateral o interpretación contextual.

Los riesgos de la desinformación

Con todo, uno de los aspectos más polémicos de Grok 3, y que comparte con sus antecesores, es su integración en X, la plataforma de redes sociales de Elon Musk. En los últimos meses, se ha observado que el modelo sugiere sistemáticamente que X es la única fuente confiable de noticias, lo que plantea serias dudas sobre su neutralidad.

La ausencia de filtros presentes en otros modelos ha facilitado la creación y difusión de contenidos racistas, sexistas y violentos. La postura de Musk a favor de una «libertad de expresión absoluta» ha llevado a eliminar los moderadores de contenido en favor de una supuesta «comunidad», lo que ha convertido a X en un espacio donde la proliferación de información no verificada y potencialmente engañosa es cada vez más habitual.

Grok 3 es, sin duda, un modelo potente que marca un avance significativo en el ecosistema de IA. Su velocidad de generación y su capacidad para responder preguntas complejas lo convierten en un competidor serio en el mercado. Sin embargo, la falta de validación académica y sus deficiencias en pruebas de razonamiento lateral y contextualización sugieren que aún no supera a modelos como GPT-4o o Claude 2.

Pero más allá de sus capacidades técnicas, lo más preocupante es su posible instrumentalización dentro de X. La inteligencia artificial no solo debe resolver problemas técnicos, sino también adherirse a estándares de ética y responsabilidad en la información. En este contexto, el éxito de Grok 3 dependerá tanto de su desarrollo como modelo como de la capacidad de xAI para gestionar su impacto en la sociedad digital.

Bio David Alonso Urbano

Ingeniero Informático, Doctor en Educación, Máster en Imagen, Publicidad e Identidad Corporativa. En UDIT es Director del Departamento de Videojuegos, Animación y Tecnología, Director del Grado en Diseño y Desarrollo de Videojuegos y Entornos Virtuales y Director del Máster de Inteligencia Artificial. En el ámbito de la ingeniería de software ha trabajado para empresas como Telefónica España, o en startups como Cubelizer en el desarrollo de materiales sintéticos para el entrenamiento de modelos de computer vision.

@REPRODUCCIÓN CONFIDENCIAL