fbpx

Arquivos mensais - abril 2019

Robots.txt para o Google amar o seu site

O que é um arquivo robots.txt?

Robots.txt é um arquivo de texto que o seo expert cria para instruir os robôs da Web (geralmente robôs de mecanismos de pesquisa) sobre como rastrear páginas em seus sites. O arquivo robots.txt faz parte do protocolo de exclusão de robôs (REP), um grupo de padrões da Web que regulamenta como os robôs rastreiam a Web, acessam e indexam conteúdo e veiculam esse conteúdo para os usuários. O REP também inclui diretivas como meta-robôs , bem como instruções de página, subdiretório ou de todo o site sobre como os mecanismos de pesquisa devem tratar os links (como “follow” ou “nofollow”).

Na prática, os arquivos robots.txt indicam se determinados agentes do usuário (software de rastreamento da Web) podem ou não rastrear partes de um site. Essas instruções de rastreamento são especificadas por “proibir” ou “permitir” o comportamento de determinados (ou todos) agentes do usuário.

Formato básico:
User-agent: [nome do agente do usuário]
Não permitir: [cadeia de URL que não deve ser rastreada]

Juntas, essas duas linhas são consideradas um arquivo robots.txt completo – embora um arquivo de robôs possa conter várias linhas de agentes e diretivas de usuário (ou seja, proibições, permissões, atrasos de rastreamento, etc.).  

Dentro de um arquivo robots.txt, cada conjunto de diretivas do agente do usuário é exibido como um conjuntoseparado, separado por uma quebra de linha:

Diretivas do agente do usuário especificadas por quebras de linha.

Em um arquivo robots.txt com várias diretivas de agente de usuário, cada regra de proibição ou permissão aplica-se somente ao (s) agente (s) do usuário especificado (s) nesse conjunto separado separado por quebra de linha. Se o arquivo contiver uma regra que se aplique a mais de um user agent , um rastreador  prestará atenção (e seguirá as diretivas) no grupo mais específico de instruções.

 Aqui está um exemplo:

Robots.txt.png? Mtime = 20170427090303 # asset: 5201: large

O Msnbot, o discobot e o Slurp são todos chamados especificamente, portanto, esses user-agents  prestarão atenção às diretivas em suas seções do arquivo robots.txt. Todos os outros user-agents seguirão as diretivas no user-agent: * group.

Exemplo de robots.txt:

Veja alguns exemplos de robots.txt para o Google amar o seu siteem ação para um site www.example.com :

URL do arquivo Robots.txt: www.example.com/robots.txt
Bloquear todos os rastreadores da web de todo o conteúdo
 
User-agent: * Disallow: /

O uso desta sintaxe em um arquivo robots.txt informaria a todos os rastreadores da Web que não rastreassem nenhuma página em www.example.com , incluindo a página inicial.

Permitir que todos os rastreadores da web acessem todo o conteúdo

User-agent: * Disallow:

Usar essa sintaxe em um arquivo robots.txt instrui os rastreadores da web a rastrear todas as páginas em  www.example.com , incluindo a página inicial.

Bloqueio de um rastreador da web específico de uma pasta específica
 
User-agent: Googlebot Disallow: /example-subfolder/

Essa sintaxe diz apenas ao rastreador do Google (nome do agente do usuário Googlebot) para não rastrear nenhuma página que contenha a string de URL www.example.com/example-subfolder/.

Bloqueio de um rastreador da web específico de uma página da Web específica
 
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Essa sintaxe informa apenas o rastreador do Bing (nome do agente de usuário Bing) para evitar o rastreamento da página específica em www.example.com/example-subfolder/blocked-page.

Como o robots.txt funciona?

Os mecanismos de pesquisa têm dois trabalhos principais:

  1. Rastreando a web para descobrir conteúdo;
  2. Indexar esse conteúdo para que possa ser entregue a pesquisadores que estejam procurando informações.

Para rastrear sites, os mecanismos de pesquisa seguem os links para ir de um site para outro – em última análise, rastreando muitos bilhões de links e sites. Esse comportamento de rastreamento é às vezes conhecido como “spidering”.

Depois de chegar a um site, mas antes de indexá-lo, o rastreador de pesquisa procurará um arquivo robots.txt. Se encontrar um, o rastreador o lerá primeiro antes de continuar pela página. Como o arquivo robots.txt contém informações sobre como o mecanismo de pesquisa deve rastrear, as informações encontradas nele instruirão mais ações do rastreador nesse site específico. Se o arquivo robots.txt não contiver diretivas que proíbam a atividade de um agente do usuário (ou se o site não tiver um arquivo robots.txt), ele irá rastrear outras informações no site.

Outro robots.txt rápido deve-sabe:

(discutido com mais detalhes abaixo)

  • Para ser encontrado, um arquivo robots.txt deve ser colocado no diretório de nível superior de um site.
  • Robots.txt faz distinção entre maiúsculas e minúsculas: o arquivo deve ter o nome “robots.txt” (não Robots.txt, robots.TXT ou outro).
  • Alguns agentes do usuário (robôs) podem optar por ignorar seu arquivo robots.txt. Isso é especialmente comum em rastreadores mais nefastos, como robôs de malware ou raspadores de endereços de e-mail.
  • O arquivo /robots.txt está disponível publicamente: basta adicionar /robots.txt ao final de qualquer domínio raiz para ver as diretivas desse site (se esse site tiver um arquivo robots.txt!).  Isso significa que qualquer pessoa pode ver quais páginas você deseja ou não rastrear, portanto, não as use para ocultar informações particulares do usuário.
  • Cada subdomínio em um domínio raiz usa arquivos robots.txt separados. Isso significa que blog.example.com e example.com devem ter seus próprios arquivos robots.txt (em blog.example.com/robots.txt e example.com/robots.txt).
  • Geralmente, é uma prática recomendada indicar o local de todos os sitemaps associados a esse domínio na parte inferior do arquivo robots.txt. Aqui está um exemplo:
Sitemaps no robots.txt

Sintaxe de robots.txt técnico

A sintaxe do Robots.txt pode ser considerada o “idioma” dos arquivos robots.txt. Existem cinco termos comuns que você provavelmente encontrará em um arquivo de robôs. Eles incluem:

  • User-agent: O rastreador da web específico para o qual você está dando instruções de rastreamento (geralmente um mecanismo de pesquisa). Uma lista da maioria dos agentes do usuário pode ser encontrada aqui.
  • Disallow:  : o comando usado para informar a um agente de usuário para não rastrear determinado URL. Apenas uma linha “Não permitir” é permitida para cada URL.
  • Allow:aplicável somente para o Googlebot): o comando para informar ao Googlebot que ele pode acessar uma página ou subpasta, mesmo que sua página pai ou subpasta não seja permitida.
  • Crawl-delay  quantos segundos um rastreador deve aguardar antes de carregar e rastrear o conteúdo da página. Observe que o Googlebot não reconhece esse comando, mas a taxa de rastreamento pode ser definida no Google Search Console .
  • Sitemap: usado para chamar a localização de qualquer sitemap (s) XML associado (s) a este URL. Observe que esse comando é suportado apenas pelo Google, Ask, Bing e Yahoo.

Correspondência de padrões

Quando se trata das URLs reais para bloquear ou permitir, os arquivos robots.txt podem ficar bastante complexos, pois permitem o uso de correspondência de padrões para abranger um intervalo de possíveis opções de URL. Tanto o Google quanto o Bing homenageiam duas expressões regulares que podem ser usadas para identificar páginas ou subpastas que um SEO deseja excluir. Esses dois caracteres são o asterisco (*) e o cifrão ($).

  • * é um curinga que representa qualquer sequência de caracteres
  • $ corresponde ao final do URL

O Google oferece uma ótima lista de possíveis exemplos e sintaxe de correspondência de padrões aqui .

Onde o robots.txt vai em um site?

Sempre que chegam a um site, os mecanismos de pesquisa e outros robôs rastreadores da Web (como o rastreador do Facebook , Facebot) sabem procurar um arquivo robots.txt. Mas, eles só procurarão esse arquivo em um local específico: o diretório principal (normalmente seu domínio raiz ou página inicial). Se um agente do usuário visitar www.example.com/robots.txt e não encontrar um arquivo de robôs lá, ele assumirá que o site não tem um e continuará rastreando tudo na página (e talvez até mesmo em todo o site). Mesmo se a página robots.txt que existem, digamos, example.com/index/robots.txt ou www.example.com/homepage/robots.txt, não seria descoberto por agentes de usuário e, assim, o site seria tratado como se não tivesse nenhum arquivo de robôs.

Para garantir que seu arquivo robots.txt seja encontrado, inclua-o sempre no diretório principal ou no domínio raiz.

Por que você precisa do robots.txt?

Os arquivos Robots.txt controlam o acesso do rastreador a determinadas áreas do seu site. Embora isso possa ser muito perigoso se você impedir acidentalmente que o Googlebot rastreie todo o site (!!), há algumas situações em que um arquivo robots.txt pode ser muito útil.

Alguns casos de uso comuns incluem:

  • Evitar que conteúdo duplicado apareça nas SERPs (observe que os meta-robôs são geralmente uma opção melhor para isso)
  • Manter seções inteiras de um site privado (por exemplo, o site de teste de sua equipe de engenharia)
  • Como impedir que páginas de resultados de pesquisa internas sejam exibidas em uma SERP pública
  • Especificando a localização do (s) mapa (s) do site
  • Evitar que os mecanismos de pesquisa indexem determinados arquivos em seu site (imagens, PDFs, etc.)
  • Especificando um atraso de rastreamento para impedir que seus servidores sejam sobrecarregados quando os rastreadores carregam várias partes do conteúdo de uma só vez

Se não houver áreas em seu site para as quais você deseja controlar o acesso do agente de usuário, talvez você não precise de um arquivo robots.txt.

Verificando se você tem um arquivo robots.txt

Não tem certeza se você tem um arquivo robots.txt? Basta digitar seu domínio raiz e adicionar /robots.txt ao final do URL. Por exemplo, o arquivo de robôs da Moz está localizado em moz.com/robots.txt.

Se nenhuma página .txt aparecer, você não tem uma página robots.txt (ativa).

Como criar um arquivo robots.txt

Se você descobriu que não tinha um arquivo robots.txt ou deseja alterar o seu, criar um é um processo simples. Este artigo do Google aborda o processo de criação de arquivos robots.txt e essa ferramenta permite testar se o arquivo está configurado corretamente.

Melhores práticas de SEO

  • Verifique se você não está bloqueando nenhum conteúdo ou seções do seu website que você deseja rastrear.
  • Links em páginas bloqueadas por robots.txt não serão seguidos. Isso significa que 1.) A menos que eles também estejam vinculados a outras páginas acessíveis pelo mecanismo de pesquisa (ou seja, páginas não bloqueadas via robots.txt, robôs meta ou outros), os recursos vinculados não serão rastreados e não poderão ser indexados. 2.) Nenhuma equidade de link pode ser passada da página bloqueada para o destino do link. Se você tiver páginas para as quais deseja que a equidade seja aprovada, use um mecanismo de bloqueio diferente do robots.txt.
  • Não use o robots.txt para impedir que dados confidenciais (como informações particulares do usuário) apareçam nos resultados da SERP. Como outras páginas podem ser vinculadas diretamente à página que contém informações particulares (ignorando as diretivas robots.txt no seu domínio raiz ou na página inicial), elas ainda podem ser indexadas. Se você quiser bloquear sua página nos resultados de pesquisa, use um método diferente, como proteção por senha ou a diretiva meta noindex .
  • Alguns mecanismos de pesquisa possuem vários agentes de usuários. Por exemplo, o Google usa o Googlebot para pesquisa orgânica e o Googlebot-Image para pesquisa de imagens. A maioria dos agentes de usuário do mesmo mecanismo de pesquisa segue as mesmas regras, por isso não é necessário especificar diretivas para cada um dos rastreadores de um mecanismo de pesquisa, mas isso permite ajustar a maneira como o conteúdo do site é rastreado.
  • Um mecanismo de pesquisa armazenará em cache o conteúdo do robots.txt, mas geralmente atualizará o conteúdo em cache pelo menos uma vez por dia. Se você alterar o arquivo e quiser atualizá-lo mais rapidamente do que está ocorrendo, envie o URL do robots.txt para o Google .

Robots.txt vs robôs meta vs x-robôs

Tantos robôs! Qual é a diferença entre esses três tipos de instruções de robôs? Primeiramente, o robots.txt é um arquivo de texto real, enquanto os robôs meta e x são diretivas meta . Além do que eles realmente são, todos os três servem funções diferentes. Robots.txt determina o comportamento de rastreamento do site ou do diretório, enquanto os robôs meta e x podem determinar o comportamento de indexação no nível de página (ou elemento de página) individual.

Leia mais

Os 5 elementos mais importantes do texto para SEO

Para a maioria das empresas, o conteúdo escrito não é o maior gerador de conexão emocional entre marca e público — atributo mais forte em formatos de mídia audiovisual, como vídeos e lives. No entanto, o texto ainda tem papel fundamental no conteúdo criado por empresas por ser o grande gerador de ranqueamento no Google. E isso se conquista utilizando técnicas de SEO.

Segundo o site americano Mondovo, do início da operação do Google, em 1998, até hoje, o ranqueamento do conteúdo era basicamente feito com base em palavras-chave. “Isso mudou drasticamente. Hoje, é preciso redigir conteúdo de qualidade para garantir que seja ranqueado nos motores de busca”, adverte o site.

Neste post, reunimos cinco orientações de grande relevância em relação a SEO para quem produz conteúdo.

#1 Resolva um problema

Quem faz uma busca no Google procura a resposta para uma pergunta. Ganha destaque nos resultados orgânicos quem consegue fornecer essas respostas.

Marcus Sheridan, autor do livro “They Ask You Answer”, explica a lógica por trás dos algoritmos de uma maneira bem simples:

“Todos nós somos professores em alguns poucos assuntos e alunos em todos os demais. O Google faz a conexão entre professores e alunos.”

A partir de 2015, o Google passou a usar machine-learning — uma das abordagens de inteligência artificial — para garantir mais versatilidade a seus algoritmos. Lançando um olhar eletrônico cada vez mais humanizado sobre os textos, o Google premia quem tem a intenção de explicar algo com propriedade, buscando ajudar o leitor, do que simplesmente posicionando palavras-chave com astúcia.

Mondovo reforça esta recomendação:

“Escreva para seres humanos, e não para motores de busca. Muitos redatores cometem o grave erro de otimizar textos para SEO focando em palavras-chave sugeridas por ferramentas. De certa forma, eles escrevem para robôs. O certo é escrever para humanos em vez de escrever para algoritmos.”

#2 Sustente o que você afirma

Para terem profundidade e credibilidade, as afirmações de um texto precisam ter sustentação. Entenda por “sustentação” evidências de que aquilo que se afirma é confiável. Nesse sentido, criar links para outros sites indica para o leitor — e, por consequência, para o Google — que o seu texto se baseia em fontes externas.

Incluir links para outras páginas de seu site também ajuda, pois permite ao leitor se aprofundar mais num tema já abordado por você anteriormente. Mas links externos fortalecem a credibilidade, especialmente se apontarem para outras páginas que tratam do mesmo tema que o seu — sim, o Google tem capacidade de analisar isso também.

O site Web Behavior recomenda “posicionar os links naturalmente dentro do texto, usando palavras-chave ou sinônimos como os textos linkados”.

#3 Planeje as palavras-chave

Embora nos dois tópicos anteriores seja enfatizada a atenção do Google cada vez mais voltada à semântica, o fato é que palavras-chave ainda importam. Não são mais a grande referência do Google, é verdade, mas ainda têm valor para efeito de SEO.

O site MOZ, altamente especializado em SEO, contribui com a seguinte sugestão:

“Escreva primeiro o texto e, então, adicione as palavras-chave cruciais. Insira também os termos relacionados ao tópico central. E certifique-se de que as frases e conceitos mais importantes fazem parte do seu texto.

Segundo outra referência internacional em SEO, o Search Engine Journal, o ideal é que cada página trabalhe com uma ou duas palavras-chave, no máximo, para que o texto não perca a originalidade.

Lembre que a combinação perfeita entre os termos buscados e o texto redigido ainda tem algum peso no ranqueamento da página. Em outras palavras, se uma pessoa buscar por “o que é a lua azul?”, o texto que trouxer estas mesmas palavras, nesta mesma ordem, tende a ter uma pequena vantagem em relação a outros que abordam o mesmo assunto.

#4 Dê atenção às áreas nobres

Um post tem “áreas nobres”, que são as regiões que tendem a ter mais visibilidade numa página convencional de conteúdo. Por ordem de importância, as áreas nobres são:

Título (h1) e intertítulo (h2)

O título da página ainda é a área mais importante de um post. Habitualmente, a palavra-chave — ou, pelo menos, a ideia central — aparece nele. Tem sido assim desde a era off-line, com os veículos impressos. Não é, portanto, uma imposição do Google. Pelo contrário: novamente, seus algoritmos observam e tentam acompanhar o comportamento humano.

O mesmo vale para os intertítulos (ou subtítulos), que ajudam o leitor porque tornam o texto mais organizado e de fácil compreensão.

Títulos e intertítulos são frequentemente chamados de “h1” e “h2” porque é assim que são nomeados na linguagem HTML.

URL e title tag

Dois elementos devem ser tecnicamente configurados para repetir o título (h1) porque o Google os leva em consideração para efeito de ranqueamento. Essa é uma das razões pelas quais o título deve se manter restrito a uma sentença.

O primeiro é o title tag, aquele título que aparece na aba do topo do navegadorNo exemplo abaixo, extraído da revista Exame, é possível observar que o title tag combina com o título da matéria.

Exame com Title Tag otimizado para SEO

O segundo elemento é a URL, aquele endereço que começa com “http”. Ela precisa ser sempre uma URL amigável, que é o endereço que não traz apenas um código numérico relacionado à página. Em vez disso, ela repete o título — eliminando espaços e caracteres especiais, é claro.

No mesmo exemplo da Exame, é possível identificar a URL amigável. Basta comparar o título da imagem acima ao endereço em que está localizada a reportagem: “https://exame.abril.com.br/carreira/esta-e-a-habilidade-que-torna-um-profissional-memoravel/

Repetir o título nesses dois elementos é uma maneira inteligente e fácil de automatizar um processo. Afinal, uma vez que o título contenha as palavras-chave, o title tag e a URL amigável automaticamente as conterão também.

Atributo ALT da imagem

Imagens também afetam SEO, conforme mostramos neste post. Nele, explicamos a importância de a imagem conter o atributo ALT e, opcionalmente, a legenda.

Negrito e bullets

Embora negrito e tópicos organizados em listas de tópicos ou números não pesem demasiadamente em SEO, organizar o texto usando esses recursos ajuda o leitor a compreender o conteúdo de forma mais organizada. Justamente por isso, o Google atribui um certo peso a esses elementos, explica o Search Engine Journal. Menor do que os outros itens listados neste texto, sim, mas com algum efeito.

#5 Meta descrição não pesa, mas use

A meta description (ou meta descrição, em português) é aquele pequeno texto de apoio que aparece logo abaixo do título numa SERP, nome dado às páginas que exibem os resultados de busca de mecanismos como o Google.

Exemplo de meta description em SEO

Desde 2009, o Google garante que essa descrição não tem a menor interferência no ranqueamento das páginas. Embora os critérios de ranqueamento não sejam abertos, não há motivos para se duvidar da declaração do Google.

O fato é que o uso inteligente da meta description ajuda a induzir o leitor que encontra sua página numa busca a clicar em seu site. Por isso, esse elemento do texto deve ser usado como um recurso para satisfazer ao leitor humano, e não necessariamente como um elemento de SEO.

Takeaway

Escreva pensando no ser humano, e não nos algoritmos, mas não deixe de dar importância a elementos antes supervalorizados, como palavras-chave, áreas nobres do texto e meta descrição. Afinal, eles ainda pesam para efeito de SEO.

Fontes consultadas

Fonte: DINO

Leia mais

Google atualiza o seu algorítimo: o que muda no SEO do seu site?

Se a classificação do seu site nas buscas orgânicas do Google mudou recentemente, talvez não seja um problema técnico. O Google iniciou, no dia 12 de março, uma alteração ampla em seu algoritmo. O aviso do ajuste, batizado de “March 2019 Core Update”, foi feito pelo porta-voz da empresa, Danny Sullivan, via Twitter.

Apesar de promover atualizações no ranking várias vezes ao ano, anúncios como este são raros. Para especialistas que acompanham os movimentos do Google, isso pode representar impactos profundos na classificação dos sites. De acordo com o Moz, foi a terceira maior atualização desde a adoção da nomenclatura “Core Update”.

SEO

Ryan Jones, diretor de SEO da SapientRazorfish, explica a diferença entre uma “Core Update” e outros algoritmos implementados recentemente, como Penguim, Panda, Pigeon, RankBrain. “Todos eles foram pensados para tratar uma falha, um propósito específico. Uma atualização principal é diferente: para mim, significa que o Google ajustou ligeiramente a importância, a ordem, os pesos ou os valores de alguns fatores de ranqueamento”.

O que mudou no algoritmo?

Como normalmente acontece, o discurso do Google em suas redes sociais não esclarece o que mudou exatamente. E as análises dos sites especializados são unânimes em dizer que ainda é cedo para dizer o que mudou.

Especula-se que esta atualização tenha sido tão impactante quanto outras duas do gênero, realizadas em abril e agosto de 2018. Esta última antecedeu a incorporação, em setembro, do Neural Matching — um sistema baseado em inteligência artificial para intensificar a compreensão de termos e sinônimos.

Há, no entanto, muita gente debruçada em dados. O consultor Roger Montti observou um movimento incomum dos crawlers, robôs responsáveis pela indexação de páginas web, no início de março. “Não sei se há uma conexão entre a indexação agressiva e a atualização, mas foi interessante observar isso pouco antes da atualização”, escreveu no Search Engine Journal.

Dados coletados e analisados pelo site Search Engine Land indicam um padrão curioso, notadamente em conteúdos na área da saúde e beleza: sites que haviam melhorado seu posicionamento orgânico após o ajuste de agosto, desta vez, perderam posições; ao mesmo tempo, quem havia caído agora melhorou. É como se o Google tivesse revertido estas modificações — o que, evidentemente, não foi confirmado pela empresa.

E o que devemos fazer?

Qualquer alteração nos resultados orgânicos do Google tem como objetivo aumentar sua precisão e melhorar a satisfação do usuário. Diante disso, pode-se dizer que a única sugestão possível é: mantenha o foco na criação de conteúdo relevante.L

Logo após o ajuste promovido em agosto de 2018, o Google fez uma thread no Twitter, com recomendações a partir da atualização dos algoritmos. Vale a pena reproduzi-las aqui.

Como com qualquer atualização, alguns sites podem notar perdas ou ganhos. Informamos sobre elas porque a recomendação prática é que não há nada em particular para “consertar”. Não queremos que os proprietários de conteúdo tentem alterar erroneamente coisas que não são problemas. Sugerimos que você se concentre em garantir que esteja oferecendo o melhor conteúdo possível. É isso que nossos algoritmos buscam recompensar. Um bom ponto de partida é revisar nossas diretrizes de avaliação de qualidade de pesquisa.

Na prática, as diretrizes de qualidade baseadas no acrônimo EAT (expertise, authoritativeness and trustworthiness) permanecem indispensáveis.

Takeaways

O Google anunciou mudanças no “March 2019 Core Update”, que provavelmente mexerão na ordem de importância dos fatores de ranqueamento. Enquanto experts em SEO não chegam a uma conclusão sobre o que isso significa, a orientação mais importante é a de produzir conteúdo de alta qualidade.

Leia mais