fbpx

Robots.txt para o Google amar o seu site

Robots.txt para o Google amar o seu site

O que é um arquivo robots.txt?

Robots.txt é um arquivo de texto que o seo expert cria para instruir os robôs da Web (geralmente robôs de mecanismos de pesquisa) sobre como rastrear páginas em seus sites. O arquivo robots.txt faz parte do protocolo de exclusão de robôs (REP), um grupo de padrões da Web que regulamenta como os robôs rastreiam a Web, acessam e indexam conteúdo e veiculam esse conteúdo para os usuários. O REP também inclui diretivas como meta-robôs , bem como instruções de página, subdiretório ou de todo o site sobre como os mecanismos de pesquisa devem tratar os links (como “follow” ou “nofollow”).

Na prática, os arquivos robots.txt indicam se determinados agentes do usuário (software de rastreamento da Web) podem ou não rastrear partes de um site. Essas instruções de rastreamento são especificadas por “proibir” ou “permitir” o comportamento de determinados (ou todos) agentes do usuário.

Formato básico:
User-agent: [nome do agente do usuário]
Não permitir: [cadeia de URL que não deve ser rastreada]

Juntas, essas duas linhas são consideradas um arquivo robots.txt completo – embora um arquivo de robôs possa conter várias linhas de agentes e diretivas de usuário (ou seja, proibições, permissões, atrasos de rastreamento, etc.).  

Dentro de um arquivo robots.txt, cada conjunto de diretivas do agente do usuário é exibido como um conjuntoseparado, separado por uma quebra de linha:

Diretivas do agente do usuário especificadas por quebras de linha.

Em um arquivo robots.txt com várias diretivas de agente de usuário, cada regra de proibição ou permissão aplica-se somente ao (s) agente (s) do usuário especificado (s) nesse conjunto separado separado por quebra de linha. Se o arquivo contiver uma regra que se aplique a mais de um user agent , um rastreador  prestará atenção (e seguirá as diretivas) no grupo mais específico de instruções.

 Aqui está um exemplo:

Robots.txt.png? Mtime = 20170427090303 # asset: 5201: large

O Msnbot, o discobot e o Slurp são todos chamados especificamente, portanto, esses user-agents  prestarão atenção às diretivas em suas seções do arquivo robots.txt. Todos os outros user-agents seguirão as diretivas no user-agent: * group.

Exemplo de robots.txt:

Veja alguns exemplos de robots.txt para o Google amar o seu siteem ação para um site www.example.com :

URL do arquivo Robots.txt: www.example.com/robots.txt
Bloquear todos os rastreadores da web de todo o conteúdo
 
User-agent: * Disallow: /

O uso desta sintaxe em um arquivo robots.txt informaria a todos os rastreadores da Web que não rastreassem nenhuma página em www.example.com , incluindo a página inicial.

Permitir que todos os rastreadores da web acessem todo o conteúdo

User-agent: * Disallow:

Usar essa sintaxe em um arquivo robots.txt instrui os rastreadores da web a rastrear todas as páginas em  www.example.com , incluindo a página inicial.

Bloqueio de um rastreador da web específico de uma pasta específica
 
User-agent: Googlebot Disallow: /example-subfolder/

Essa sintaxe diz apenas ao rastreador do Google (nome do agente do usuário Googlebot) para não rastrear nenhuma página que contenha a string de URL www.example.com/example-subfolder/.

Bloqueio de um rastreador da web específico de uma página da Web específica
 
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Essa sintaxe informa apenas o rastreador do Bing (nome do agente de usuário Bing) para evitar o rastreamento da página específica em www.example.com/example-subfolder/blocked-page.

Como o robots.txt funciona?

Os mecanismos de pesquisa têm dois trabalhos principais:

  1. Rastreando a web para descobrir conteúdo;
  2. Indexar esse conteúdo para que possa ser entregue a pesquisadores que estejam procurando informações.

Para rastrear sites, os mecanismos de pesquisa seguem os links para ir de um site para outro – em última análise, rastreando muitos bilhões de links e sites. Esse comportamento de rastreamento é às vezes conhecido como “spidering”.

Depois de chegar a um site, mas antes de indexá-lo, o rastreador de pesquisa procurará um arquivo robots.txt. Se encontrar um, o rastreador o lerá primeiro antes de continuar pela página. Como o arquivo robots.txt contém informações sobre como o mecanismo de pesquisa deve rastrear, as informações encontradas nele instruirão mais ações do rastreador nesse site específico. Se o arquivo robots.txt não contiver diretivas que proíbam a atividade de um agente do usuário (ou se o site não tiver um arquivo robots.txt), ele irá rastrear outras informações no site.

Outro robots.txt rápido deve-sabe:

(discutido com mais detalhes abaixo)

  • Para ser encontrado, um arquivo robots.txt deve ser colocado no diretório de nível superior de um site.
  • Robots.txt faz distinção entre maiúsculas e minúsculas: o arquivo deve ter o nome “robots.txt” (não Robots.txt, robots.TXT ou outro).
  • Alguns agentes do usuário (robôs) podem optar por ignorar seu arquivo robots.txt. Isso é especialmente comum em rastreadores mais nefastos, como robôs de malware ou raspadores de endereços de e-mail.
  • O arquivo /robots.txt está disponível publicamente: basta adicionar /robots.txt ao final de qualquer domínio raiz para ver as diretivas desse site (se esse site tiver um arquivo robots.txt!).  Isso significa que qualquer pessoa pode ver quais páginas você deseja ou não rastrear, portanto, não as use para ocultar informações particulares do usuário.
  • Cada subdomínio em um domínio raiz usa arquivos robots.txt separados. Isso significa que blog.example.com e example.com devem ter seus próprios arquivos robots.txt (em blog.example.com/robots.txt e example.com/robots.txt).
  • Geralmente, é uma prática recomendada indicar o local de todos os sitemaps associados a esse domínio na parte inferior do arquivo robots.txt. Aqui está um exemplo:
Sitemaps no robots.txt

Sintaxe de robots.txt técnico

A sintaxe do Robots.txt pode ser considerada o “idioma” dos arquivos robots.txt. Existem cinco termos comuns que você provavelmente encontrará em um arquivo de robôs. Eles incluem:

  • User-agent: O rastreador da web específico para o qual você está dando instruções de rastreamento (geralmente um mecanismo de pesquisa). Uma lista da maioria dos agentes do usuário pode ser encontrada aqui.
  • Disallow:  : o comando usado para informar a um agente de usuário para não rastrear determinado URL. Apenas uma linha “Não permitir” é permitida para cada URL.
  • Allow:aplicável somente para o Googlebot): o comando para informar ao Googlebot que ele pode acessar uma página ou subpasta, mesmo que sua página pai ou subpasta não seja permitida.
  • Crawl-delay  quantos segundos um rastreador deve aguardar antes de carregar e rastrear o conteúdo da página. Observe que o Googlebot não reconhece esse comando, mas a taxa de rastreamento pode ser definida no Google Search Console .
  • Sitemap: usado para chamar a localização de qualquer sitemap (s) XML associado (s) a este URL. Observe que esse comando é suportado apenas pelo Google, Ask, Bing e Yahoo.

Correspondência de padrões

Quando se trata das URLs reais para bloquear ou permitir, os arquivos robots.txt podem ficar bastante complexos, pois permitem o uso de correspondência de padrões para abranger um intervalo de possíveis opções de URL. Tanto o Google quanto o Bing homenageiam duas expressões regulares que podem ser usadas para identificar páginas ou subpastas que um SEO deseja excluir. Esses dois caracteres são o asterisco (*) e o cifrão ($).

  • * é um curinga que representa qualquer sequência de caracteres
  • $ corresponde ao final do URL

O Google oferece uma ótima lista de possíveis exemplos e sintaxe de correspondência de padrões aqui .

Onde o robots.txt vai em um site?

Sempre que chegam a um site, os mecanismos de pesquisa e outros robôs rastreadores da Web (como o rastreador do Facebook , Facebot) sabem procurar um arquivo robots.txt. Mas, eles só procurarão esse arquivo em um local específico: o diretório principal (normalmente seu domínio raiz ou página inicial). Se um agente do usuário visitar www.example.com/robots.txt e não encontrar um arquivo de robôs lá, ele assumirá que o site não tem um e continuará rastreando tudo na página (e talvez até mesmo em todo o site). Mesmo se a página robots.txt que existem, digamos, example.com/index/robots.txt ou www.example.com/homepage/robots.txt, não seria descoberto por agentes de usuário e, assim, o site seria tratado como se não tivesse nenhum arquivo de robôs.

Para garantir que seu arquivo robots.txt seja encontrado, inclua-o sempre no diretório principal ou no domínio raiz.

Por que você precisa do robots.txt?

Os arquivos Robots.txt controlam o acesso do rastreador a determinadas áreas do seu site. Embora isso possa ser muito perigoso se você impedir acidentalmente que o Googlebot rastreie todo o site (!!), há algumas situações em que um arquivo robots.txt pode ser muito útil.

Alguns casos de uso comuns incluem:

  • Evitar que conteúdo duplicado apareça nas SERPs (observe que os meta-robôs são geralmente uma opção melhor para isso)
  • Manter seções inteiras de um site privado (por exemplo, o site de teste de sua equipe de engenharia)
  • Como impedir que páginas de resultados de pesquisa internas sejam exibidas em uma SERP pública
  • Especificando a localização do (s) mapa (s) do site
  • Evitar que os mecanismos de pesquisa indexem determinados arquivos em seu site (imagens, PDFs, etc.)
  • Especificando um atraso de rastreamento para impedir que seus servidores sejam sobrecarregados quando os rastreadores carregam várias partes do conteúdo de uma só vez

Se não houver áreas em seu site para as quais você deseja controlar o acesso do agente de usuário, talvez você não precise de um arquivo robots.txt.

Verificando se você tem um arquivo robots.txt

Não tem certeza se você tem um arquivo robots.txt? Basta digitar seu domínio raiz e adicionar /robots.txt ao final do URL. Por exemplo, o arquivo de robôs da Moz está localizado em moz.com/robots.txt.

Se nenhuma página .txt aparecer, você não tem uma página robots.txt (ativa).

Como criar um arquivo robots.txt

Se você descobriu que não tinha um arquivo robots.txt ou deseja alterar o seu, criar um é um processo simples. Este artigo do Google aborda o processo de criação de arquivos robots.txt e essa ferramenta permite testar se o arquivo está configurado corretamente.

Melhores práticas de SEO

  • Verifique se você não está bloqueando nenhum conteúdo ou seções do seu website que você deseja rastrear.
  • Links em páginas bloqueadas por robots.txt não serão seguidos. Isso significa que 1.) A menos que eles também estejam vinculados a outras páginas acessíveis pelo mecanismo de pesquisa (ou seja, páginas não bloqueadas via robots.txt, robôs meta ou outros), os recursos vinculados não serão rastreados e não poderão ser indexados. 2.) Nenhuma equidade de link pode ser passada da página bloqueada para o destino do link. Se você tiver páginas para as quais deseja que a equidade seja aprovada, use um mecanismo de bloqueio diferente do robots.txt.
  • Não use o robots.txt para impedir que dados confidenciais (como informações particulares do usuário) apareçam nos resultados da SERP. Como outras páginas podem ser vinculadas diretamente à página que contém informações particulares (ignorando as diretivas robots.txt no seu domínio raiz ou na página inicial), elas ainda podem ser indexadas. Se você quiser bloquear sua página nos resultados de pesquisa, use um método diferente, como proteção por senha ou a diretiva meta noindex .
  • Alguns mecanismos de pesquisa possuem vários agentes de usuários. Por exemplo, o Google usa o Googlebot para pesquisa orgânica e o Googlebot-Image para pesquisa de imagens. A maioria dos agentes de usuário do mesmo mecanismo de pesquisa segue as mesmas regras, por isso não é necessário especificar diretivas para cada um dos rastreadores de um mecanismo de pesquisa, mas isso permite ajustar a maneira como o conteúdo do site é rastreado.
  • Um mecanismo de pesquisa armazenará em cache o conteúdo do robots.txt, mas geralmente atualizará o conteúdo em cache pelo menos uma vez por dia. Se você alterar o arquivo e quiser atualizá-lo mais rapidamente do que está ocorrendo, envie o URL do robots.txt para o Google .

Robots.txt vs robôs meta vs x-robôs

Tantos robôs! Qual é a diferença entre esses três tipos de instruções de robôs? Primeiramente, o robots.txt é um arquivo de texto real, enquanto os robôs meta e x são diretivas meta . Além do que eles realmente são, todos os três servem funções diferentes. Robots.txt determina o comportamento de rastreamento do site ou do diretório, enquanto os robôs meta e x podem determinar o comportamento de indexação no nível de página (ou elemento de página) individual.

Compartilhe