¿Qué es el archivo robots.txt y cómo utilizarlo? – Alojamiento –

Robots.txt es un archivo de texto ubicado en el directorio raíz de un sitio web que especifica qué páginas y archivos del sitio web desea (o no desea) que visiten los rastreadores y arañas de los motores de búsqueda. Por lo general, los propietarios de sitios web quieren llamar la atención de los motores de búsqueda; sin embargo, hay casos en los que no es necesario. Por ejemplo, si almacena datos confidenciales o desea ahorrar ancho de banda al no indexar (excluyendo páginas pesadas con imágenes).

Los motores de búsqueda indexan los sitios web utilizando palabras clave y metadatos para proporcionar los resultados más relevantes a los usuarios de Internet que buscan algo en línea. Llegar a la cima de la lista de resultados de búsqueda es especialmente importante para los propietarios de tiendas de comercio electrónico. Los clientes rara vez navegan más allá de las primeras páginas de las coincidencias sugeridas en el motor de búsqueda.
Para fines de indexación se utilizan los llamados spiders o rastreadores. Se trata de robots que utilizan las empresas de motores de búsqueda para buscar e indexar el contenido de todos los sitios web que tienen abiertos.

Cuando un rastreador accede a un sitio web, primero solicita el archivo llamado /robots.txt. Si se encuentra dicho archivo, el rastreador lo busca en busca de instrucciones de indexación del sitio web. El bot que no encuentra directivas tiene su propio algoritmo de acciones, que básicamente indexa todo. Esto no sólo sobrecarga el sitio web con solicitudes innecesarias, sino que también la indexación se vuelve mucho menos efectiva.

NOTA: Solo puede haber un archivo robots.txt para el sitio web. El archivo robots.txt para un nombre de dominio adicional debe ubicarse en la raíz del documento correspondiente. Por ejemplo, si su nombre de dominio es www.dominio.com, debe encontrarlo en https://www.dominio.com/robots.txt.
También es muy importante que su archivo robots.txt se llame realmente robots.txt. El nombre distingue entre mayúsculas y minúsculas, así que asegúrese de hacerlo bien o no funcionará.

El archivo robots.txt consta de líneas que contienen dos campos:

Nombre del agente de usuario (rastreadores de motores de búsqueda). Encuentra la lista con
Línea(s) que comienzan con la directiva Disallow: para bloquear la indexación.

Robots.txt debe crearse en formato de texto UNIX. Es posible crear dicho archivo .txt directamente en el Administrador de archivos en cPanel. Puede obtener instrucciones más detalladas.

Normalmente, el archivo robots.txt contiene un código como este:

Agente de usuario: *
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /~diferente/
En este ejemplo, tres directorios: /cgi-bin/, /tmp/ y /~diferente/ están excluidos de la indexación.

TENGA EN CUENTA:

Cada directorio está escrito en una línea separada. No debes escribir todos los directorios en una línea, ni dividir una directiva en varias líneas. En su lugar, utilice una nueva línea para separar las directivas entre sí.
Estrella
en el campo Usuario-agente significa “cualquier rastreador web”. En consecuencia, directivas como Disallow: *.gif o User-agent: Mozilla* no son compatibles. Presta atención a estos errores lógicos ya que son los más comunes.

Otro error común es un error tipográfico accidental: directorios mal escritos, agentes de usuario, dos puntos faltantes después de Agente de usuario y Disallow, etc. Cuando sus archivos robots.txt se vuelven cada vez más complicados, es más fácil que aparezca un error, por lo que surgen Ser util.

A continuación se muestran algunos ejemplos útiles del uso de robots.txt:

Ejemplo 1

Evite que todos los rastreadores web indexen todo el sitio:

Agente de usuario: * No permitir: /

Una medida como el bloqueo total del rastreo puede ser necesaria cuando el sitio web tiene una gran cantidad de solicitudes o si el contenido se está actualizando y no debería aparecer en los resultados de búsqueda. A veces, la configuración de la campaña SEO es demasiado agresiva, por lo que los bots básicamente sobrecargan el sitio web con solicitudes a sus páginas.

Ejemplo 2

Permita que todos los rastreadores web indexen todo el sitio:

Agente de usuario: * No permitir:

En realidad, no es necesario rastrear todo el sitio web. Es poco probable que los visitantes busquen términos de uso o páginas de inicio de sesión a través de la Búsqueda de Google, por ejemplo. Excluir algunas páginas o tipos de contenido de la indexación sería beneficioso para la seguridad, la velocidad y la relevancia en la clasificación del sitio web determinado.

A continuación se muestran ejemplos de cómo controlar qué contenido se indexa en su sitio web.

Ejemplo 1

Evite que solo se indexen varios directorios:
Agente de usuario: *

No permitir: /cgi-bin/ Ejemplo 2

Evite la indexación del sitio por parte de un rastreador web específico:
Agente de usuario: *

No permitir: /page_url

La página generalmente no tiene una URL completa, solo su nombre sigue a http://www.tudominio.com/. Cuando se utiliza una regla de este tipo, se bloquea la indexación de cualquier página con un nombre coincidente. Por ejemplo, se excluirán /page_url y /page_url_new. Para evitar esto, se debe utilizar el siguiente código:
Agente de usuario: *

No permitir: /page_url$

Ejemplo 3

Evite la indexación del sitio web por parte de un rastreador web específico:
Agente de usuario: Bot1
No permitir: /

A pesar de la lista, algunas identidades pueden cambiar con el tiempo. Cuando la carga en el sitio web es extremadamente alta y no es posible descubrir el bot exacto que utiliza en exceso los recursos, es mejor bloquearlos a todos temporalmente.

Ejemplo 4

Permitir la indexación a un rastreador web específico y evitar la indexación por parte de otros:
Agente de usuario: Opera 9

No permitir: Usuario-agente: * No permitir: /

Ejemplo 5

Evite la indexación de todos los archivos excepto uno.

También existe la directiva Allow:. Sin embargo, no todos los rastreadores lo reconocen y es posible que algunos de ellos lo ignoren. Actualmente, cuenta con el respaldo de Bing y Google. El siguiente ejemplo de regla para permitir solo un archivo de una carpeta específica se puede utilizar bajo su propia responsabilidad:
Agente de usuario: *
Permitir: /docs/file.jpeg

No permitir: /docs/
En su lugar, puede mover todos los archivos a un determinado subdirectorio y evitar su indexación, excepto un archivo que permita que se indexe:
Agente de usuario: *

No permitir: /docs/
Esta configuración requiere una estructura de sitio web específica. También es posible crear una página de destino separada que redirija a la página de inicio del usuario real. De esta manera, puede bloquear el directorio real con el sitio web y permitir solo la página de índice de destino. Es mejor cuando dichos cambios los realiza un desarrollador de sitios web para evitar problemas.
También puedes utilizar un generador de archivos robots.txt en línea. Tenga en cuenta que realiza la configuración predeterminada que no tiene en cuenta las estructuras sofisticadas de los sitios web codificados a medida.
El archivo robots.txt predeterminado en algunas versiones de CMS está configurado para excluir su carpeta de imágenes. Este problema no ocurre en las últimas versiones de CMS, pero se deben verificar las versiones anteriores.

Esta exclusión significa que sus imágenes no serán indexadas ni incluidas en la Búsqueda de imágenes de Google. Que aparezcan imágenes en los resultados de búsqueda es algo que le gustaría, ya que aumenta su clasificación SEO. Sin embargo, debes estar atento a un problema llamado “hotlinking”. Cuando alguien vuelve a publicar una imagen cargada en su sitio web en otro lugar, su servidor se carga con las solicitudes. Para evitar los enlaces directos, lea más en nuestro. Si desea cambiar esto, abra su archivo robots.txt y elimine la línea que dice: Disallow: /images/
Si su sitio web tiene mucho contenido privado o los archivos multimedia no se almacenan permanentemente, sino que se cargan y eliminan diariamente, es mejor excluir las imágenes de los resultados de búsqueda. En el primer caso, se trata de una cuestión de privacidad personal. Esto último se refiere a la posible sobrecarga de actividad de los rastreadores cuando revisan cada nueva imagen una y otra vez.
Mapa del sitio: http://www.domain.com/sitemap.xml No olvide reemplazar la ruta http://www.domain.com/sitemap.xml con su información real.

Para obtener pautas sobre cómo crear sitemap.xml para su sitio web, consulte .
No bloquee CSS, Javascript y otros archivos de recursos de forma predeterminada. Esto impide que Googlebot represente correctamente la página y comprenda que su sitio está optimizado para dispositivos móviles.
También puede usar el archivo para evitar que se indexen páginas específicas, como páginas de inicio de sesión o 404, pero es mejor hacerlo usando la metaetiqueta robots.
Agregar declaraciones de no permitir al archivo robots.txt no elimina el contenido. Simplemente bloquea el acceso a las arañas. Si hay contenido que desea eliminar, es mejor utilizar un meta noindex.
Como regla general, el archivo robots.txt nunca debe usarse para manejar contenido duplicado. Hay mejores formas, como una etiqueta Rel=canonical que forma parte del encabezado HTML de una página web.

Tenga siempre en cuenta que el archivo robots.txt debe ser preciso para que los motores de búsqueda indexen correctamente su sitio web.

Una metaetiqueta noindex evita que un motor de búsqueda indexe toda la página. Es posible que esta no sea una situación deseable, ya que le gustaría que las URL de esa página sean indexadas y seguidas por bots para obtener mejores resultados. Para garantizar que esto suceda, puede editar el encabezado de su página con la siguiente línea:
Esta línea evitará que un motor de búsqueda indexe la página en sí, pero debido a la parte siguiente del código, los enlaces publicados en esta página aún se recuperarán. Esto permitirá que la araña se mueva por el sitio web y el contenido vinculado. El beneficio de este tipo de integración se llama Link Juice: es la conexión entre diferentes páginas y la relevancia de su contenido entre sí.

Si se agrega nofollow, el rastreador se detendrá cuando llegue a esta página y no avanzará hacia el contenido interconectado:

Desde una perspectiva de SEO, esto no es recomendable, pero tú decides.
Algunas páginas pueden eliminarse del sitio web de forma permanente y, por lo tanto, ya no tendrán ningún valor real. Cualquier contenido desactualizado debe eliminarse de los archivos robots.txt y .htaccess. Este último puede contener redirecciones a páginas que ya no son relevantes.

Simplemente bloquear contenido caducado no es efectivo. En su lugar, las redirecciones 301 deben aplicarse en el archivo .htaccess o mediante complementos. Si no hay un reemplazo adecuado para la página eliminada, se puede redirigir a la página de inicio.

Es mejor prohibir las páginas indexadas que contengan datos confidenciales. Los ejemplos más comunes son:
Páginas de inicio de sesión
Área de administración

Información de cuentas personales

Para mejorar la seguridad del sitio web, tenga en cuenta lo siguiente:
El hecho de que esta URL aparezca en los resultados de búsqueda no significa que cualquiera sin las credenciales pueda acceder a ella. Aún así, es posible que desees tener un panel administrativo personalizado y URL de inicio de sesión que solo tú conozcas.
Se recomienda no sólo excluir determinadas carpetas, sino también protegerlas mediante contraseñas.
Si cierto contenido de su sitio web debe estar disponible sólo para usuarios registrados, asegúrese de aplicar esta configuración a las páginas. Se puede configurar el acceso solo con contraseña. Los ejemplos son los sitios web con membresía premium donde ciertas páginas y artículos están disponibles solo al iniciar sesión.

El archivo robots.txt y su contenido se pueden consultar en línea. Por eso es recomendable evitar ingresar nombres o datos que puedan brindar información no deseada sobre su negocio.
Por ejemplo, si tiene páginas para sus colegas, cada una de las cuales reside en carpetas separadas y desea excluirlas de los resultados de búsqueda, no deben llamarse “johndoe” o “janedoe”, etc. No permitir los nombres de las carpetas mencionadas anteriormente básicamente hará publicidad abierta los nombres de tus compañeros. En su lugar, puede crear una carpeta “perfiles” y colocar allí todas las cuentas personales. La URL en el navegador sería https://yourdomain.com/profiles/johndoe y la regla robots.txt se verá así: User-agent: *

No permitir: /perfiles/

No sólo como medida de seguridad, sino también para ahorrar recursos de espacio de hosting, es posible que desees…

Related posts:

Related Posts