Robots.txt é um arquivo de texto que o seo expert cria para instruir os robôs da Web (geralmente robôs de mecanismos de pesquisa) sobre como rastrear páginas em seus sites. O arquivo robots.txt faz parte do protocolo de exclusão de robôs (REP), um grupo de padrões da Web que regulamenta como os robôs rastreiam a Web, acessam e indexam conteúdo e veiculam esse conteúdo para os usuários. O REP também inclui diretivas como meta-robôs , bem como instruções de página, subdiretório ou de todo o site sobre como os mecanismos de pesquisa devem tratar os links (como “follow” ou “nofollow”).
Na prática, os arquivos robots.txt indicam se determinados agentes do usuário (software de rastreamento da Web) podem ou não rastrear partes de um site. Essas instruções de rastreamento são especificadas por “proibir” ou “permitir” o comportamento de determinados (ou todos) agentes do usuário.
User-agent: [nome do agente do usuário] Não permitir: [cadeia de URL que não deve ser rastreada]
Juntas, essas duas linhas são consideradas um arquivo robots.txt completo – embora um arquivo de robôs possa conter várias linhas de agentes e diretivas de usuário (ou seja, proibições, permissões, atrasos de rastreamento, etc.).
Dentro de um arquivo robots.txt, cada conjunto de diretivas do agente do usuário é exibido como um conjuntoseparado, separado por uma quebra de linha:
Em um arquivo robots.txt com várias diretivas de agente de usuário, cada regra de proibição ou permissão aplica-se somente ao (s) agente (s) do usuário especificado (s) nesse conjunto separado separado por quebra de linha. Se o arquivo contiver uma regra que se aplique a mais de um user agent , um rastreador só prestará atenção (e seguirá as diretivas) no grupo mais específico de instruções.
Aqui está um exemplo:
O Msnbot, o discobot e o Slurp são todos chamados especificamente, portanto, esses user-agents só prestarão atenção às diretivas em suas seções do arquivo robots.txt. Todos os outros user-agents seguirão as diretivas no user-agent: * group.
Veja alguns exemplos de robots.txt para o Google amar o seu siteem ação para um site www.example.com :
User-agent: * Disallow: /
O uso desta sintaxe em um arquivo robots.txt informaria a todos os rastreadores da Web que não rastreassem nenhuma página em www.example.com , incluindo a página inicial.
User-agent: * Disallow:
Usar essa sintaxe em um arquivo robots.txt instrui os rastreadores da web a rastrear todas as páginas em www.example.com , incluindo a página inicial.
User-agent: Googlebot Disallow: /example-subfolder/
Essa sintaxe diz apenas ao rastreador do Google (nome do agente do usuário Googlebot) para não rastrear nenhuma página que contenha a string de URL www.example.com/example-subfolder/.
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html
Essa sintaxe informa apenas o rastreador do Bing (nome do agente de usuário Bing) para evitar o rastreamento da página específica em www.example.com/example-subfolder/blocked-page.
Os mecanismos de pesquisa têm dois trabalhos principais:
Para rastrear sites, os mecanismos de pesquisa seguem os links para ir de um site para outro – em última análise, rastreando muitos bilhões de links e sites. Esse comportamento de rastreamento é às vezes conhecido como “spidering”.
Depois de chegar a um site, mas antes de indexá-lo, o rastreador de pesquisa procurará um arquivo robots.txt. Se encontrar um, o rastreador o lerá primeiro antes de continuar pela página. Como o arquivo robots.txt contém informações sobre como o mecanismo de pesquisa deve rastrear, as informações encontradas nele instruirão mais ações do rastreador nesse site específico. Se o arquivo robots.txt não contiver diretivas que proíbam a atividade de um agente do usuário (ou se o site não tiver um arquivo robots.txt), ele irá rastrear outras informações no site.
(discutido com mais detalhes abaixo)
A sintaxe do Robots.txt pode ser considerada o “idioma” dos arquivos robots.txt. Existem cinco termos comuns que você provavelmente encontrará em um arquivo de robôs. Eles incluem:
Quando se trata das URLs reais para bloquear ou permitir, os arquivos robots.txt podem ficar bastante complexos, pois permitem o uso de correspondência de padrões para abranger um intervalo de possíveis opções de URL. Tanto o Google quanto o Bing homenageiam duas expressões regulares que podem ser usadas para identificar páginas ou subpastas que um SEO deseja excluir. Esses dois caracteres são o asterisco (*) e o cifrão ($).
O Google oferece uma ótima lista de possíveis exemplos e sintaxe de correspondência de padrões aqui .
Sempre que chegam a um site, os mecanismos de pesquisa e outros robôs rastreadores da Web (como o rastreador do Facebook , Facebot) sabem procurar um arquivo robots.txt. Mas, eles só procurarão esse arquivo em um local específico: o diretório principal (normalmente seu domínio raiz ou página inicial). Se um agente do usuário visitar www.example.com/robots.txt e não encontrar um arquivo de robôs lá, ele assumirá que o site não tem um e continuará rastreando tudo na página (e talvez até mesmo em todo o site). Mesmo se a página robots.txt que existem, digamos, example.com/index/robots.txt ou www.example.com/homepage/robots.txt, não seria descoberto por agentes de usuário e, assim, o site seria tratado como se não tivesse nenhum arquivo de robôs.
Para garantir que seu arquivo robots.txt seja encontrado, inclua-o sempre no diretório principal ou no domínio raiz.
Os arquivos Robots.txt controlam o acesso do rastreador a determinadas áreas do seu site. Embora isso possa ser muito perigoso se você impedir acidentalmente que o Googlebot rastreie todo o site (!!), há algumas situações em que um arquivo robots.txt pode ser muito útil.
Alguns casos de uso comuns incluem:
Se não houver áreas em seu site para as quais você deseja controlar o acesso do agente de usuário, talvez você não precise de um arquivo robots.txt.
Não tem certeza se você tem um arquivo robots.txt? Basta digitar seu domínio raiz e adicionar /robots.txt ao final do URL. Por exemplo, o arquivo de robôs da Moz está localizado em moz.com/robots.txt.
Se nenhuma página .txt aparecer, você não tem uma página robots.txt (ativa).
Se você descobriu que não tinha um arquivo robots.txt ou deseja alterar o seu, criar um é um processo simples. Este artigo do Google aborda o processo de criação de arquivos robots.txt e essa ferramenta permite testar se o arquivo está configurado corretamente.
Tantos robôs! Qual é a diferença entre esses três tipos de instruções de robôs? Primeiramente, o robots.txt é um arquivo de texto real, enquanto os robôs meta e x são diretivas meta . Além do que eles realmente são, todos os três servem funções diferentes. Robots.txt determina o comportamento de rastreamento do site ou do diretório, enquanto os robôs meta e x podem determinar o comportamento de indexação no nível de página (ou elemento de página) individual.