martes, 11 de noviembre de 2014

You already know how to create your #robots.txt? (¿Qué es un archivo #robots.txt?)

Qué es un archivo robots.txt

http://ignaciosantiago.com/archivo-robots-txt/
autor ignacio Santiago
traductor Federico Dilla

Qué es un archivo robots.txt

El Protocolo de Exclusión de Robots o Robots Exclusion Protocol o REP es una serie de estándares web que regulan el comportamiento de los robots y la indexación de los motores de búsqueda. El REP consiste en lo siguiente:
  • El REP original data de 1994 y fue extendido en 1997, definiendo las directrices de rastreo del robots.txt. Algunas motores de búsqueda soportan extensiones como los patrones URI (wild cards).
  • En 1996 se definen las directrices de indexación (etiquetas REP) para su uso en los elementos meta de los robots, también conocidos comoetiqueta meta robots. Los motores de búsqueda también admiten etiquetas REP adicionales con la “X-Robots-Tag”. Los webmasters pueden implementar estas etiquetas REP en la cabecera HTTP de los recursos que no sean HTML como documentos PDF o imágenes.
  • El microformato “rel-nofollow” aparece en 2005 para definir cómo los motores de búsqueda deben manejar los enlaces donde hay un el elemento A del tributo REL contiene el valor “nofollow”.
What is a robots.txt file

The Robots Exclusion Protocol or Robots Exclusion Protocol or REP is a series of web standards that govern the behavior of robots and indexing search engines. The REP is as follows:

The original REP dates from 1994 and was extended in 1997, defining the guidelines for tracking the robots.txt. Some search engines support extensions such as the URI patterns (wildcards).
1996 indexing guidelines (REP labels) for use in the target elements defined robots, robots comoetiqueta also known target. Search engines allow additional REP tags with "X-Robots-Tag". Webmasters can implement these REP tags in the HTTP header of resources other than HTML and PDF documents or images.
The microformat "rel-nofollow" appears in 2005 to define how the search engines should handle links where there is a tribute to the REL element contains the value "nofollow".

Etiquetas de exclusión de robots

Si hablamos de una URI, las etiquetas REP (noindex, nofollow, unavailable_after) dirigen ciertas tareas de los indexadores y en algunos casos (nosnippet, noarchive, NOODP) incluso motores de consultas en el monento de la ejecución de una consulta de búsqueda. Aparte de las directrices para los rastreadores, cada motor de búsqueda interpreta estas etiquetas REP de forma diferente. Por ejemplo, Google elimina los listados de URLs únicas y referencias OPD de sus SERPs cuando un recurso está etiquetado con “noindex”, sin embargo Bing muestra esas referencias externas a direcciones URL como prohibidas en sus resultados de búsqueda. Como las etiquetas REP pueden ser implementadas en los elementos META de contenidos X/HTML, así como en las cabeceras HTTP de cualquier objeto web, el consenso es que contenidos con la etiqueta “X-Robots-Tags” deberían invalidar o anular las directrices en conflicto que se encuentren en los elementos META.

Tags Robots Exclusion

If we speak of a URI, the REP (noindex, nofollow, unavailable_after) labels direct indexers certain tasks and in some cases (NOSNIPPET, noarchive, NOODP) query engines even in the monent the execution of a search query. Apart from the guidelines for crawlers, each search engine interprets these labels differently REP. For example, Google only removes listings URLs and references OPD their SERPs when a resource is labeled with "noindex", but Bing shows these external URLs as prohibited in their search results references. Because REP tags can be implemented in the META elements contained X / HTML, as well as the HTTP headers of any web object, the consensus is that contained in the "X-Robots-Tags" label should invalidate or nullify the guidelines conflict are in the META element.

Microformatos

Las directrices de los indexadores implementadas como microformatos invalidarán la configuración de página para determinados elementos HTML. Por ejemplo, cuando la etiqueta “X-Robots-Tag” de una página dice “follow” (no hay valor “nofollow”), la directriz rel-nofollow de un elemento A (enlace) se sobrepone.
Aunque robots.txt carece de directrices para indexadores, es posible establecer estas directrices para grupos de URIs con el scripts en el servidor actuando al mismo nivel web que apliquan a “X-Robots-Tags” para solicitar recursos. Este método requiere conocimientos de programación y una buena comprensión de los servidores web y el protocolo HTTP.
Microformats
Indexers guidelines implemented as microformats invalidate the page settings for certain HTML elements. For example, when "X-Robots-Tag" tag a page says "follow" (no value "nofollow"), the rel-nofollow directive element A (link) is superimposed.
Although no guidelines robots.txt indexers, you can set these guidelines for groups of URIs with the scripts in the web server acting both apliquan level to "X-Robots-Tags" for requesting resources. This method requires programming skills and a good understanding of web servers and HTTP.

Coincidencia de patrones

Google y Bing tanto entienden dos expresiones regulares que se pueden usar para identificar las páginas o subcarpetas que un consultor SEO quiere excluir de su página web. Estos dos caracteres son el asterisco (*) y el signo de dólar ($).
  • * – Que es un comodín que representa cualquier secuencia de caracteres
  • $ – Que coincide con el final de la URL

Pattern Matching

Google and Bing both understand regular expressions that can be used to identify which pages or subfolders that an SEO consultant you want to exclude your website. These two characters are the asterisk (*) and the dollar sign ($).

* - It is a wildcard that represents any character sequence
$ - That coincides with the end of the URL

Información Pública

El archivo robots.txt es público. Cualquiera puede ver qué secciones ha bloqueado un webmaster de su servidor (mira mi robots.txt). Esto significa que si un SEO tiene información de usuario privada a la que no quiere dejar acceder a nadie (y menos públicamente), debe utilizar un método más seguro como la protección con contraseña para mantener a raya a los curiosos que quieran ver qué páginas confidenciales no quiere que se indexen.
Public Information
The robots.txt file is public. Anyone can see what sections have blocked a webmaster of your server (see my robots.txt). This means that if an SEO is private user information to which access will not let anyone (and least publicly), you must use a more secure method such as password protection to keep out the curious who want to see what confidential pages not want to be indexed.

Para qué sirve un archivo robots.txt

Como ya sabrás, los robots o arañas son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu página web, lo primero que hacen es buscar el archivo robots.txt y dependiendo de lo que diga en él, continúan en tu página web o se van a otra. Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu página web selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.
Más concretamente, puedes utilizar el archivo robots.txt para lo siguiente:
  • Evitar que ciertas páginas y directorios de tu página web sean accesibles a los buscadores
  • Bloquear el acceso a archivos de código o utilidades
  • Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
  • Indicar la localización del sitemap o mapa del sitio en XML
No obstante, hay un par de cosas que debes tener en cuenta sobre robots.txt:
  • Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware
  • El archivo es público, lo que significa que cualquiera puede verlo con sólo teclear www.example.com/robots.txt
  • Por tanto, si piensas utilizar robots.txt para esconder información privada, necesitas buscar otra alternativa.
What is a robots.txt file

As you know, robots or spiders are programs which use search engines to crawl the web. When they arrive at your website, the first thing they do is look for the robots.txt file and depending on what you tell him, continue on your web page or go to another. You can understand the robots.txt file as a list of offenders robots, which allows you to restrict access to your site selectively. If there are pages that you prefer to keep away from search engines, you can set it here, and if there is a search engine that you want to deny access, too.

More specifically, you can use the robots.txt file to the following:

Prevent certain directories and pages of your website accessible to search engines
Block access to code files or utilities
Prevent indexing of duplicate content on your site, such as proof copies or printable versions
Indicate the location of the sitemap or sitemap in XML
However, there are a couple things you should note about robots.txt:

Some robots can ignore the instructions in this file, especially malicious bots or malware
The file is public, meaning that anyone can see just typing www.example.com/robots.txt
Therefore, if you plan to use robots.txt to hide private information, you need to find another alternative.


Cómo generar el archivo robots.txt

archivo robots txt
Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. Sólo necesitas crearlo cuando quieres impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda. Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo.
Lo más fácil es crearlo a mano, mediante el bloc de notas o cualquier aplicación similar, aunque si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.
Un archivo robots.txt básico puede ser:
User-agent: *
Disallow: /privado/
Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por último se especifica el directorio desautorizado (Disallow: /privado/).


How to create robots.txt

The first thing you need to know about the robots.txt file is not required. All you need to create it when you want to prevent certain pages or directories on your site appear in search results. Generate the file is very simple, just create a text document named "robots.txt" and upload it to the root of your domain (http://www.example.com/robots.txt), which is the place where the search engines expect to find.

It is easiest to create by hand, using Notepad or a similar application, but if you are someone who prefers tools of SEOBook serves its purpose.

A basic robots.txt file can be:

User-agent: *

Disallow: / private /

What these instructions is to deny access to the "private" directory for all search engines. To do this, first shown that the order is directed to all robots (User-agent: *) and finally disavowed directory (Disallow: / private /) is specified.


Comandos principales

Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:
  • Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
  • Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
  • Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
  • Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)
Los comandos más importantes son:
  • User-agent: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
  • Disallow: Deniega el acceso a un directorio o página concreta.
  • Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.
  • Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
Adicionalmente, como comentaba más arriba, puedes utilizar 2 caracteres para aumentar o reducir la concordancia:
  • Asterisco (*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
  • Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.

main Commands

Commands that use robots.txt Robots Exclusion come-called Protocol, a universal convention whose syntax you must follow:

You can only use the commands allowed (although some browsers understand additional commands)
You should respect the upper / lower case, punctuation and spaces
Each group User-agent / Disallow must be separated by a blank line
You can include comments by the pad or hash symbol (#)
The most important commands are:

User-agent: Indicates what kind of robot must comply with the directives that are indicated below.
Disallow: Deny access to a specific directory or page.
Allow: Operates unlike Disallow directive, allowing access to directories and pages. It can be used to partially or completely overwrite the Disallow directive.
Sitemap: Indicate the path where you will find an XML sitemap.
Crawl-delay: Indicates the robot the number of seconds to wait between each page. It can be useful in cases where you need to reduce server load.
Additionally, as said above, you can use 2 characters to increase or decrease the correlation:

Asterisk (*): OK by any sequence of characters. For example, all directories starting with "private" would be "private / * /"
Dollar ($): Indicates the end of a URL. For example, to specify any file ending with .php extension would be used "/*.php$".

Restricciones más comunes

Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas.
En este sentido, es mejor ceñirse a las restricciones más comunes, como son:
  • Incluir todos los robots – User-agent: *
  • Especificar el robot de Google – User-agent: Googlebot
  • Especificar el robot de Bing – User-agent: Bingbot
  • Denegar todo el sitio – Disallow: /
  • Denegar un directorio – Disallow: /directorio/
  • Denegar directorios que comienzan por “algo” – Disallow: /algo*/
  • Denegar una página – Disallow: /pagina-web.htm
  • Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
  • Denegar la extensión .gif – Disallow: /*.gif$
  • Permitir un subdirectorio – Allow: /directorio/subdirectorio/
  • Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml

Common constraints

With the commands and wildcards can create all kinds of restrictions. However, it is not a good idea to get creative with the robots file, because you can end up blocking something you do not want.

In this sense, it is best to stick to the most common restrictions, such as:

Include all robots - User-agent: *
Specify the Google robot - User-agent: Googlebot
Specify the robot Bing - User-agent: Bingbot
Deny all site - Disallow: /
Deny directory - Disallow: / directory /
Deny directories that start with "something" - Disallow: / something * /
Deny a page - Disallow: /pagina-web.htm
Deny directories and pages beginning with "something" - Disallow: / something
Deny the extension .gif - Disallow: /*.gif$
Allow a subdirectory - Allow: / directory / subdirectory /
Pointing Sitemap - Sitemap: http://www.example.com/sitemap.xml



Un ejemplo de robots.txt para WordPress

archivo robots txtPara ayudarte a comprender mejor el funcionamiento del archivo robots.txt me gustaría enseñarte un ejemplo real. Se trata del mismo archivo que utilizo en este blog, de ahí que sea un ejemplo orientado a WordPress.
No obstante, debes saber que este archivo quizá NO sea ideal para tí pese a usar WordPress. Según el caso, puede que necesites añadir restricciones, quitarlas, o usar la etiqueta meta robots. No hay un archivo robots.txt universal, tenlo en cuenta.
Recientemente he actualizado mi archivo robots.txt como sigue (sin los números de línea):
User-Agent: *
Disallow: /wp-
Disallow: /ir/
Allow: /wp-content/uploads/
Sitemap: http://ignaciosantiago.com/sitemap.xml
Ahora me gustaría explicarte cada línea:
  • Línea 1 – Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
  • Línea 2 – Deniego el acceso a todos directorios y páginas que comienzan por “wp-”, propios de la instalación de WordPress.
  • Línea 3 – Deniego el acceso al directorio que utilizo para redirecciones (no tienes por qué tenerlo).
  • Línea 4 – Permito el acceso al directorio de archivos adjuntos, puesto que en la línea 2 lo había desautorizado.
  • Línea 5 – Indico la ruta donde se encuentra el mapa XML de mi página web.
Te recomiendo que cuando crees tu archivo compruebes que hace lo que esperas de él. Ten en cuenta que un simple error puede impedir el acceso a los buscadores y causar la pérdida de todos tus rankings. La comprobación es facil de hacer con las Herramientas para Webmasters de Google, en Rastreo > URL bloqueadas.

An example of robots.txt for WordPress
To help you better understand how the robots.txt file I want to show you a real example. This is the same file that I use on this blog, and is therefore oriented to WordPress example.

However, you should know that this file may NOT be perfect for you despite using WordPress. Depending on the case, you may need to add constraints, remove them, or use the robots meta tag. There is no universal robots.txt, keep that in mind.

I recently updated my robots.txt file as follows (without line numbers):

User-Agent: *
Disallow: / wp
Disallow: / go /
Allow: / wp-content / uploads /
Sitemap: http://ignaciosantiago.com/sitemap.xml
Now I'd like to explain each line:

Line 1 - declare that the instructions below are for any search engine robots.
Line 2 - Deniego access to all directories and pages beginning with "wp" own WordPress installation.
Line 3 - Deniego access to the directory you use to redirect (do not have to have it).
Line 4 - I allow access to the attachments directory, as in line 2 had banished.
Line 5 - Indian path where the XML map of my website.
I recommend that you check when you create your file that does what you expect from him. Note that a single mistake can prevent access to search engines and cause the loss of all your rankings. The test is easy to do with Google Webmaster Tools in Trace> URL blocked.



Chuleta

Te voy a enseñar varias opciones, y tu elige la que más te convenga:
  • Bloquear todos los rastreadores web de todo el contenido
User-agent: * Disallow: /
  • Bloquear un rastreador web específica desde una carpeta específica
User-agent: Googlebot Disallow: /google-no/
  • Bloquear un rastreador web específica de una página web específica
User-agent: Googlebot Disallow: /google-no/pagina-bloqueada.html
  • Permitir que un rastreador web específica para visitar una página web específica
Disallow: /sin-robots/bloquear-todos-los-robots-excepto-rogerbot.html User-agent: rogerbot Allow: /sin-robots/bloquear-todos-los-robots-excepto-rogerbot.html
  • Parámetro del Sitemap
User-agent: * Disallow: Sitemap: http://www.example.com/sitemap.xml


I'll teach you several options, and you choose the one that suits you:

Block all web crawlers the content
User-agent: * Disallow: /
Blocking a specific web crawler from a specific folder
User-agent: Googlebot Disallow: / google-no /
Blocking a specific web crawler a specific web page
User-agent: Googlebot Disallow: /google-no/pagina-bloqueada.html
Allowing a specific web crawler to visit a specific web page
Disallow: User-agent /sin-robots/bloquear-todos-los-robots-excepto-rogerbot.html: rogerbot Allow: /sin-robots/bloquear-todos-los-robots-excepto-rogerbot.html
Parameter Sitemap
User-agent: * Disallow: Sitemap: http://www.example.com/sitemap.xml


Recordatorio de reglas

  • En la mayoría de los casos, meta robots con parámetros “noindex, follow” deben ser empleados como una forma de restringir el rastreo o la indexación
  • Es importante señalar que los rastreadores maliciosos son propensos a ignorar completamente robots.txt y, como tal, este protocolo no es un buen mecanismo de seguridad
  • Sólo 1 línea “Disallow:” está permitida para cada URL
  • Cada subdominio de un dominio raíz utiliza archivos robots.txt separados
  • Google y Bing aceptan dos caracteres de expresiones regulares específicos para la exclusión de patrones (* y $)
  • El nombre del archivo robots.txt es sensible a las mayúsculas. Utiliza “robots.txt”, no “Robots.TXT”
  • Los espacios no se aceptan para separar parámetros de consulta. Por ejemplo, “/categoría/ /producto” no sería detectado por el archivo robots.txt
¿Ya sabes cómo crear tu archivo robots.txt?

Reminder of rules
In most cases, parameterized meta robots "noindex, follow" should be used as a way to restrict crawling or indexing
Importantly, the malicious crawlers are likely to completely ignore robots.txt and as such, this protocol is not a good security mechanism
Only 1 line "Disallow:" is allowed for each URL
Each subdomain root domain uses a separate robots.txt files
Google and Bing Allow two character-specific regular expressions for exclusion patterns (* and $)
The robots.txt file name is case sensitive. Use "robots.txt", not "robots.txt"
Spaces are not allowed to remove query parameters. For example, "/ category / product /" would not be detected by robots.txt
You already know how to create your robots.txt?