Una de las preguntas más frecuentes entre los profesionales del SEO y del marketing digital es: ¿de dónde sacan la información ChatGPT, Gemini y Perplexity? ¿Cómo deciden qué webs citar y cuáles ignorar? La respuesta determina directamente qué estrategia debes seguir para aparecer en sus respuestas.
En este artículo desmonto el proceso de rastreo e indexación de los principales LLMs, con datos concretos sobre sus bots, sus fuentes y sus criterios de selección.
Dos tipos de fuentes en los LLMs: conocimiento interno vs. búsqueda en tiempo real
Antes de hablar de rastreo, es importante entender que los grandes modelos de lenguaje tienen dos fuentes de información bien diferenciadas:
- Conocimiento del entrenamiento: el modelo aprendió durante su fase de entrenamiento leyendo miles de millones de páginas web, libros, foros, artículos y documentos. Este conocimiento queda «congelado» en la fecha de corte del entrenamiento (el llamado «knowledge cutoff»).
- Búsqueda en tiempo real: algunos modelos tienen la capacidad de consultar internet en el momento de responder. Esto es lo que hace ChatGPT Search, Perplexity y Google con AI Overviews. Aquí es donde entra el rastreo activo.
Para que tu web influya en las respuestas de los LLMs necesitas actuar en ambas capas: ser parte de los datos de entrenamiento (autoridad a largo plazo) y ser accesible para el rastreo en tiempo real (visibilidad inmediata).
ChatGPT: Bing como backbone + Common Crawl en entrenamiento
Entrenamiento
Los modelos GPT de OpenAI se entrenaron principalmente sobre:
- Common Crawl: un archivo de rastreos masivos de internet que cubre cientos de miles de millones de páginas web.
- WebText: páginas web enlazadas desde Reddit con karma positivo (proxy de calidad social).
- Libros digitales, Wikipedia, arXiv y otras fuentes curadas.
Esto significa que páginas con buena presencia en la web en el momento del rastreo de Common Crawl tienen más probabilidades de haber formado parte del entrenamiento de GPT.
Búsqueda en tiempo real (ChatGPT Search)
Cuando un usuario usa ChatGPT con la función Search activada, el modelo envía consultas al índice de Bing. El user agent que usa es OAI-SearchBot. Si este bot está bloqueado en tu robots.txt, ChatGPT Search no puede acceder a tu contenido en tiempo real.
Verifica tu robots.txt para asegurarte de que OAI-SearchBot NO está bloqueado:
# Incorrecto — bloquea ChatGPT Search
User-agent: OAI-SearchBot
Disallow: /
# Correcto — permite acceso completo
User-agent: OAI-SearchBot
Allow: /
Perplexity: crawler propio + Bing
Perplexity usa una combinación de fuentes:
- PerplexityBot: su propio crawler, que rastrea la web de forma independiente. Útil para indexar contenido que quizás no está bien representado en Bing.
- Bing: para búsquedas en tiempo real cuando un query requiere resultados actuales.
- Fuentes especializadas: Perplexity tiene acuerdos con proveedores de datos específicos para sectores como finanzas, noticias y ciencia.
PerplexityBot se identifica como «PerplexityBot» en los logs del servidor. Puedes verificar si está rastreando tu web revisando tus access logs o usando herramientas de monitorización de bots.
Google Gemini y AI Overviews: Googlebot sigue siendo la base
Google AI Overviews usa el índice de búsqueda de Google, rastreado por Googlebot como siempre. Esto tiene una implicación importante: el SEO técnico clásico sigue siendo completamente relevante para aparecer en AI Overviews.
Además, Google ha lanzado Google-Extended, un user agent específico para el rastreo de contenido destinado a entrenar sus modelos de IA (Bard/Gemini). Los propietarios de webs pueden bloquear Google-Extended sin afectar su indexación en búsqueda estándar, aunque esto reduce la probabilidad de que su contenido forme parte del entrenamiento de los modelos de Google.
Microsoft Copilot: el mismo backend que ChatGPT Search
Microsoft Copilot (antes Bing Chat) usa el índice de Bing como fuente principal para la búsqueda en tiempo real, al igual que ChatGPT Search. El user agent que usa es bingbot y variantes. Tener una web bien indexada en Bing es la clave para ambos.
Resumen: qué bots rastrean los LLMs y cómo gestionarlos
| Motor IA | Bot de rastreo | Fuente principal | Cómo verificar indexación |
|---|---|---|---|
| ChatGPT Search | OAI-SearchBot | Bing | Bing Webmaster Tools |
| Perplexity | PerplexityBot | Bing + propio | Logs del servidor |
| Google AI Overviews | Googlebot | Google Search | Google Search Console |
| Microsoft Copilot | bingbot | Bing | Bing Webmaster Tools |
| Gemini (entrenamiento) | Google-Extended | Google Search | Google Search Console |
Qué puedes hacer hoy para mejorar tu rastreabilidad por LLMs
- Revisa tu robots.txt: asegúrate de no bloquear OAI-SearchBot, PerplexityBot ni Googlebot.
- Verifica tu indexación en Bing: entra en Bing Webmaster Tools y envía tu sitemap si no lo has hecho.
- Optimiza la velocidad: los bots en tiempo real priorizan páginas que cargan rápido.
- Evita el JavaScript excesivo: el contenido que solo se renderiza con JS es más difícil de extraer para bots que no ejecutan JavaScript.
- Mantén el contenido accesible: sin muros de pago ni restricciones de login para el contenido que quieres que los LLMs indexen.
- Trabaja tu presencia en fuentes que alimentan los LLMs: Wikipedia, foros especializados, medios digitales de referencia y directorios de autoridad.
Si quieres profundizar en la estrategia completa de visibilidad en IA, consulta nuestro artículo sobre IA y SEO en 2026 o descubre qué es GEO (Generative Engine Optimization).
🎓 Aprende a optimizar tu web para el rastreo de los LLMs
El Curso de GEO y LLMO de Bikain Studio cubre en detalle cómo funcionan los bots de los LLMs y qué estrategia aplicar para ser citado como fuente. Práctico, en español.
