En este documento se explica cómo interpreta Google los ficheros robots.txt, con los que puedes supervisar cómo rastrean e indexan los rastreadores de Google los sitios web de acceso público.
El 1 de julio del 2019,que se está trabajando parael protocolo robots.txt. Los cambios realizados en este sentido se describen en este documento.
Lista de novedades
Estos son los cambios:
<field>
que incluyan errores simples o tipográficos; por servirnos de un ejemplo, "useragent" en vez de "user-agent".Todos los rastreadores automatizados de Google prosiguen las directrices que se señalan en este documento. No obstante, estas directrices no se aplican cuando un agente accede a las URL en nombre de un usuario para, por servirnos de un ejemplo, traducir la página, acceder a feeds de suscripción manual o bien examinar contenido en busca de software malicioso.
El archivo robots.txt debe incluirse en el directorio de nivel superior del host, y se debe poder acceder a él a través del protocolo y del número de puerto apropiados. Todos y cada uno de los protocolos que suelen aceptarse para acceder a este fichero sey, concretamente en el caso de la Búsqueda de Google, (por ejemplo, para rastrear de sitios web) son "http" y "https". Cuando se usan estos dos protocolos, el archivo robots.txt se obtiene a través de una solicitud HTTP GET no condicional.
Elementos específicos de Google: Google también acepta y rastrea ficheros robots.txt en sitios FTP. A los ficheros robots.txt basados en FTP se accede mediante este protocolo, usando unas credenciales de acceso anónimas.
Las directivas que se incluyen en el fichero robots.txt se aplican únicamente al host, al protocolo y al número de puerto en el que se aloja el fichero.
/
/folder/file
/
/
:8181/
Válida para:
/
No válida para:
/
/
/
üller.eu/
--mller-kva.eu/
No válida para:
/
Válida para:
ftp://example.com/
No válida para:
/
Valor específico de Google: utilizamos el fichero robots.txt también con recursos FTP.
Válida para:
/
No válida para:
/
(aunque esté alojado en veinti mil doscientos noventa y seis.21)
Válida para:
:80/
/
No válida para:
:81/
Válida para:
:8181/
No válida para:
/
Por lo general, al acceder a los archivos robots.txt, se consiguen 3 resultados diferentes:
Los fallos del servidor se consideran errores temporales que devuelven el resultado "full disallow". La solicitud se marcha mandando hasta que se obtiene un código de resultado HTTP sin error del servidor. Por servirnos de un ejemplo, los fallos 503 (Servicio no disponible) acostumbran a provocar este comportamiento. Si el robot de Google no puede acceder al fichero robots.txt durante más de 30 días, se utilizará la copia en caché más reciente del archivo. Si no hay ninguna, Google considera que no existe ninguna restricción de rastreo. Para suspender de forma temporal el rastreo, se recomienda mostrar un código de resultado HTTP 503.
Elemento específico de Google: si observamos que un sitio se ha configurado de forma incorrecta y, cuando faltan páginas, devuelve un fallo 5xx y no uno cuatrocientos cuatro, trataremos el error 5xx de ese sitio web como si fuera un error 404.
Se aguardan archivos de texto sin formato con codificación. Las diferentes líneas del archivo deben estar separadas por CR, CR/LF o LF.
Solo se tienen presente las líneas válidas; el resto del contenido se ignora. Por ejemplo, si el documento es una página HTML, solo se tendrán en cuenta las líneas de texto válidas; las demás se ignorarán y no se mostrará ningún mensaje de advertencia o bien de error.
Es posible que el contenido del archivo no se analice apropiadamente si se utiliza una codificación que genere caracteres que no representen un subconjunto de UTF-ocho.
Si hay una marca de orden de bytesUnicode opcional al comienzo del fichero robots.txt, se ignora.
Para que una línea sea válida, debe estar formada por un campo, dos puntos (:) y un valor. diseñador de blog madrid , aunque recomendamos usarlos para prosperar la legibilidad del archivo. Se pueden incluir comentarios en cualquier una parte del fichero precedidos del carácter "#". Todo el contenido que se introduce entre el comienzo de un comentario y el final de la línea se considera como tal y se ignora. El formato general es
<field>:<value><#optional-comment>
. Los espacios en blanco al principio y al final de una línea se ignoran.
El elemento
<field>
no distingue entre mayúsculas y minúsculas. En cambio, el factor <value>puede que sí distinga entre mayúsculas y minúsculas, en función del elemento <field>.
No se pueden procesar los elementos
<field>
que incluyan errores simples o tipográficos; por servirnos de un ejemplo, "useragent" en vez de "user-agent". webs empresas /p>
Se puede incorporar un tamaño del archivo máximo en cada rastreador. El contenido que supere el tamaño máximo del archivo se ignorará. En estos momentos, Google aplica un límite de tamaño de 500(KiB). Si tu archivo robots.txt es demasiado grande, combina directivas para reducir su tamaño. Por servirnos de un ejemplo, coloca el material que quieres excluir en otro directorio.
A continuación, se describe la notación aumentada de Backus-Naur (ABNF), tal como se describe en.
Una o bien múltiples líneas de user-agent seguidas de una o varias reglas. Los conjuntos terminan con una línea de usuario-agent o cuando se llega al final del archivo. Es posible que el último grupo no tenga ninguna regla, lo que implica que lo deja todo.
Grupos de ejemplo:
Se indican 4 grupos diferentes: el primero afecta a "a"; el segundo, a "b", y el tercero a "e" y a "f" al unísono. Salvo el último grupo, todos tienen su propia línea de miembros de conjunto. El último conjunto está vacío. Fíjate que, de forma opcional, se han incluido espacios en blanco y líneas vacías para progresar la legibilidad.
A cada rastreador solo se le puede aplicar un grupo. Para determinar qué conjunto es el adecuado, el rastreador busca el grupo que coincida que tenga el user-agent más específico e ignora el resto. El campo Usuario-agent distingue entre mayúsculas y minúsculas. La parte de texto que no coincida se ignora (por ejemplo, tanto
googlebot/1.2
como
googlebot*
son equivalentes a
googlebot
). No importa el orden en el que aparezcan los grupos dentro del archivo robots.txt.
Si hay más de un conjunto que afecta a un usuario-agent específico, a ese user-agent se le aplicarán todas las reglas de esos conjuntos.
Si tenemos el siguiente archivo robots.txt:
Los rastreadores elegirían el conjunto pertinente del siguiente modo:
Consulta también información sobre los.
En esta sección, solo se tratan las reglas estándar de los miembros de grupos. En el caso de los rastreadores, estas reglas también se llaman "directivas". Estas directivas se especifican con el formato
directive: [path]
, en el que el valor
[path]
es opcional. De manera predeterminada, no se aplican restricciones de rastreo a los rastreadores especificados. Las directivas que no tengan
[path]
se ignoran.
Si se especifica, se considera que el valor
[path]
es relativo a la raíz del sitio a cuyo archivo robots.txt se ha accedido, con exactamente el mismo protocolo, número de puerto y nombres de dominio y de host. El valor de la ruta debe empezar por "/", que indica la raíz. La ruta distingue entre mayúsculas y minúsculas. Para obtener más información, se puede consultar la sección "Coincidencias de URL en función de los valores de ruta" que aparece a continuación.
La directiva
disallow
especifica las rutas a las que los rastreadores indicados no deben acceder. Cuando no se detalla ninguna ruta, se ignora la directiva.
Uso:
La directiva
allow
especifica las sendas a las que los rastreadores indicados pueden acceder. Cuando no se especifica ninguna senda, se ignora la directiva.
Uso:
El valor de senda se utiliza como base para determinar si una regla se aplica o bien no a una URL específica de un sitio. A excepción de los comodines, la ruta se emplea para que coincida con el principio de una URL (y con cualquier URL válida que empiece por exactamente la misma ruta). Los caracteres ASCII que no sean de 7 bits que aparezcan en una senda se pueden incluir como caracteres UTF-8 o bien como caracteres UTF-ocho codificados con tanto por ciento como carácter de escape según.
Google, Bing y otros buscadores primordiales aceptan utilizar "comodines" limitados en los valores de senda. Se trata de los siguientes:
*
indica 0 o bien más casos de cualquier carácter válido.$
indica el final de la URL.Coincide con estas rutas:
/fish
/fish.html
/fish/salmon.html
/fishheads
/fishheads/yummy.html
/fish.php?id=anything
No coincide con estas rutas:
/Fish.asp
/catfish
/?id=fish
precio pagina web a
/fish
. El comodín programación tiendas online valencia .
Coincide con estas rutas:
/fish
/fish.html
/fish/salmon.html
/fishheads
/fishheads/yummy.html
/fish.php?id=anything
No coincide con estas rutas:
/Fish.asp
/catfish
/?id=fish
La barra inclinada siguiente señala que esta senda coincide con cualquiera incluida en esta carpeta.
Coincide con estas rutas:
/fish/
/fish/?id=anything
/fish/salmon.htm
No coincide con estas rutas:
/fish
/fish.html
/Fish/Salmon.asp
Coincide con estas rutas:
/filename.php
/folder/filename.php
/folder/filename.php?parameters
/folder/any.php.file.html
/filename.php/
No coincide con estas rutas:
/
(aunque se asigne a /index.php)/windows.PHP
Coincide con estas rutas:
/filename.php
/folder/filename.php
No coincide con estas rutas:
/filename.php?parameters
/filename.php/
/filename.php5
/windows.PHP
Coincide con estas rutas:
/fish.php
/fishheads/catfish.php?parameters
No coincide con estas rutas:
/Fish.PHP
Google, Bing y otros motores de búsqueda principales aceptan
sitemap
, tal como se define en.
Uso:
[absoluteURL]
debe llevar a un sitemap, a un índice de sitemap o bien a una URL equivalente. No es preciso que la URL esté en el mismo host que el archivo robots.txt. Pueden existir múltiples entradas
sitemap
. Como se trata de líneas de miembros que no pertenecen al grupo, estos no están vinculados a ningún user-agent específico, y todos los rastreadores pueden proseguirlos, siempre y cuando esté tolerado.
A nivel de miembro de grupo, particularmente para las directivas
allow
y
disallow
, la regla más específica en función de la longitud de la entrada
[path]
prevalece sobre la menos específica (más corta). En caso de reglas en conflicto, incluyendo las que tienen comodines, se emplea la regla menos restrictiva.
allow
:
/p
disallow
:
/
Resultado:
allow
allow
:
/folder
disallow
:
/folder
Resultado:
allow
allow
:
/page
disallow
:
/*.htm
Resultado:
undefined
allow
:
/$
disallow
:
/
Resultado:
allow
allow
:
/ dólares americanos
disallow
:
/
Resultado:
disallow