it-swarm-es.tech

Mala configuración de la extensión Externallogin que causa un problema de indexación del motor de búsqueda

Descripción breve

Mi sitio web de Joomla tiene un extraño problema con los robots de los motores de búsqueda. Verifiqué TODAS las cosas estándar que puede hacer un webmaster para asegurarse de que no sea un problema trivial con el archivo robots.txt u otros parámetros de optimización de motores de búsqueda. La gente de TI de mi universidad no tiene idea de lo que está sucediendo, al igual que las personas que intentaron ayudar en los foros de Joomla.

También hice esta pregunta en stackexchange de Pro Webmasters. Pero estoy empezando a sospechar que puede haber alguna configuración oculta en algún lugar de Joomla que esté causando el problema. Entonces, estoy haciendo esta pregunta aquí para ver si hay una configuración que me falta en alguna parte.

El problema real comienza aquí.

El sitio web en cuestión es: http://gsa.ece.umd.edu/ . Se ejecuta con Joomla 2.5.x (más reciente). El sitio estaba activo desde mediados de diciembre de 2013, y noté desde el principio que el sitio no se indexaba correctamente en Google. Específicamente, veo el siguiente mensaje cuando busco el sitio web en Google:

ECEGSA - University of Maryland

A description for this result is not available because of this site's robots.txt – learn more.

La cosa es en diciembre hasta alrededor de marzo, utilicé el archivo robots.txt predeterminado de Joomla que es:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Nada allí debería impedir que Google busque en mi sitio web. Y aún más confuso, cuando voy a las herramientas para webmasters de Google, en la pestaña "URL bloqueadas", cuando pruebo muchos de los enlaces en el sitio, todos se muestran como "Permitidos". Luego intenté agregar un mapa del sitio, poniéndolo en el archivo robots.txt. Eso no ayudó. El mismo resultado exacto de búsqueda, el mismo comportamiento en la pestaña "URL bloqueadas" en las herramientas para webmasters. Ahora, además, la pestaña "sitemaps" dice para varios enlaces un error que dice "La URL está robotizada". ¡Probé esos enlaces exactos en las "URL bloqueadas" y están permitidos!

Luego intenté eliminar el archivo robots.txt. Es inútil. Mismo problema exacto.

Aquí hay una captura de pantalla de ejemplo de las herramientas para webmasters. Index Status for my website showing no crawl errors and no blocked URLs, in direct contradiction to what the sitemap tab says and what the search result says! FRUSTRATION!

En este punto, no puedo dar una explicación racional de por qué está sucediendo esto y tampoco nadie en el departamento de TI aquí. Nadie en los foros de Joomla parece entender lo que está sucediendo.

¿Alguien sabe si hay un posible conflicto en la configuración del sitio de Joomla basado en lo que se describe anteriormente?

5

ACTUALIZACIÓN: ¡El problema se ha resuelto corrigiendo la configuración de extensión

He usado un complemento llamado externallogin para permitir que mis usuarios inicien sesión utilizando el CAS de la Universidad (Servidor de Autenticación Central). Resulta que este complemento está agregando una redirección 303 a la respuesta del Encabezado HTTP a TODAS mis páginas, debido a un error de configuración.

Por lo tanto, como consecuencia, ninguna de mis páginas se indexa correctamente ya que Google (a) penaliza las redirecciones 303 o probablemente porque (b) la página a la que apunta la redirección 303 ( https: //login.umd. edu / ) tiene un robots.txt que no permite todos los bots.

[~ # ~] corregir [~ # ~]
Para solucionar este problema, si alguna vez lo encuentra, debe corregir la configuración del complemento de la siguiente manera:
1. En el menú de extensiones, en "Inicio de sesión externo>", vaya a la configuración del servidor.
2. En la pestaña de conexiones, para "Inicio/Cierre de sesión automático", elija 'No'. El error ocurre si elige 'Sí' en el paso 2, ya que en este caso, la extensión agrega automáticamente una redirección 303 a todas las páginas de su sitio web, para verificar si un usuario ha iniciado sesión en el CAS en la sesión del navegador, y si es así, inicia sesión automáticamente en el sitio. Esta característica causará problemas de indexación del motor de búsqueda.

Agradecimientos
Gracias a @ stephen-ostermiller ( Respuesta relevante en Pro Webmasters ) por dirigirme en la dirección correcta al hacerme darme cuenta de que era una redirección 303 agregada por la extensión.

2