O Google nem sempre rastreia todas as páginas de um site instantaneamente. Às vezes, pode levar semanas. Isso pode atrapalhar seus esforços de SEO. Sua landing page recém-otimizada pode não ser indexada. Nesse momento, é hora de otimizar seu orçamento de rastreamento. Neste artigo, discutiremos o que é um “crawl budget” e o que o senhor pode fazer para otimizá-lo.

O que é um crawl budget?

Crawl budget é o número de páginas que o Google rastreará em seu site em um determinado dia. Esse número varia um pouco diariamente, mas, em geral, é relativamente estável. O Google pode rastrear seis páginas do seu site por dia; pode rastrear 5.000 páginas; pode até rastrear 4.000.000 de páginas todos os dias. O número de páginas que o Google rastreia, seu “orçamento”, geralmente é determinado pelo tamanho do seu site, pela “saúde” do seu site (quantos erros o Google encontra) e pelo número de links para o seu site. Alguns desses fatores são coisas que o senhor pode influenciar; falaremos sobre isso daqui a pouco.

Como funciona um crawler?

Um rastreador como o Googlebot obtém uma lista de URLs para rastejar em um site. Ele percorre essa lista sistematicamente. Ele pega o seu robots.txt ocasionalmente para garantir que ainda tenha permissão para rastrear cada URL e, em seguida, rastreia os URLs individualmente. Depois que um spider rastreia um URL e analisa o conteúdo, ele adiciona novos URLs encontrados nessa página que precisa rastrear novamente na lista de tarefas.

Vários eventos podem fazer com que o Google sinta que um URL precisa ser rastreado. Ele pode ter encontrado novos links apontando para o conteúdo, ou alguém o twittou, ou ele pode ter sido atualizado no mapa do site XML, etc., etc… Não há como fazer uma lista de todos os motivos pelos quais o Google rastrearia um URL, mas quando ele determina que precisa rastreá-lo, ele o adiciona à lista de tarefas.

Leia mais: Tráfego de bots: O que é e por que o senhor deve se preocupar com ele “

Quando o crawl budget é um problema?

O crawl budget não é um problema se o Google tiver que rastrear muitos URLs em seu site e tiver alocado muitos rastreamentos. Mas, digamos que seu site tenha 250.000 páginas e o Google rastreie 2.500 páginas nesse site específico todos os dias. Ele rastreará algumas (como a página inicial) mais do que outras. Se o senhor não agir, pode levar até 200 dias para que o Google perceba alterações específicas nas suas páginas. O orçamento de rastreamento é um problema agora. Por outro lado, se ele rastrear 50.000 por dia, não haverá problema algum.

Siga as etapas abaixo para determinar se o seu site tem um problema de crawl budget. Isso pressupõe que seu site tenha um número relativamente pequeno de URLs que o Google rastreia, mas não indexa (por exemplo, porque o senhor adicionou meta noindex).

  1. Determine quantas páginas seu site tem; o número de URLs em seus sitemaps XML pode ser um bom começo.
  2. Acesse o Google Search Console.
  3. Vá para “Settings” (Configurações) -> “Crawl stats” (Estatísticas de rastreamento) e calcule a média de páginas rastreadas por dia.
  4. Divida o número de páginas pelo número “Average crawled per day” (Média rastreada por dia).
  5. Provavelmente, o senhor deve otimizar seu orçamento de rastreamento se obtiver um número maior que ~10 (portanto, o senhor tem 10 vezes mais páginas do que o que o Google rastreia diariamente). O senhor pode ler outra coisa se tiver um número inferior a 3.
uma tela mostrando as estatísticas de rastreamento de um site no console de pesquisa do Google
O relatório “Crawl stats” do Google Search Console

Quais URLs o Google está rastreando?

O senhor realmente deve saber quais URLs o Google está rastreando no seu site. Os logs do servidor do seu site são a única maneira “real” de saber. Para sites maiores, o senhor pode usar algo como Logstash + Kibana. Para sites menores, o pessoal da Screaming Frog lançou um aplicativo para o senhor. Analisador de arquivos de registro de SEO ferramenta.

Obtenha os registros do seu servidor e dê uma olhada neles

Dependendo do seu tipo de hospedagem, talvez nem sempre seja possível obter os arquivos de log. Entretanto, se o senhor pensar o senhor precisa trabalhar na otimização do orçamento de rastreamento porque seu site é grande, deve obtê-los. Se o seu host não permitir que o senhor os obtenha, é hora de mudar de host.

Consertar o crawl budget do seu site é muito parecido com consertar um carro. Não é possível consertá-lo olhando para o exterior; o senhor terá de abrir o motor. Olhar para os logs será assustador no início. O senhor descobrirá rapidamente que há um muito de ruído nos registros. O senhor encontrará muitos 404s que ocorrem com frequência e que considera sem sentido. Mas o senhor tem para corrigi-los. O senhor deve se preocupar com o ruído e garantir que seu site não seja afogado em toneladas de 404s antigos.

Continue lendo: Manutenção de sites: Verificar e corrigir páginas de erro 404 “

Aumente seu orçamento de rastreamento

Vamos examinar os aspectos que melhoram o número de páginas que o Google pode rastrear em seu site.

Manutenção do site: reduzir erros

A primeira etapa para obter mais páginas rastreadas é garantir que as páginas rastreadas retornem uma das duas possibilidades códigos de retorno: 200 (para “OK”) ou 301 (para “Go here instead”). Todos os outros códigos de retorno são não OK. Para descobrir isso, examine os logs do servidor do seu site. O Google Analytics e a maioria dos outros pacotes de análise só rastreiam as páginas que receberam 200. Portanto, o senhor não encontrará muitos erros no seu site.

Depois de obter os logs do servidor, encontre e corrija os erros comuns. A maneira mais direta é pegar todos os URLs que não retornaram 200 ou 301 e ordená-los de acordo com a frequência com que foram acessados. A correção de um erro pode significar que o senhor precisa corrigir o código. Ou o senhor pode ter que redirecionar um URL para outro lugar. Se o senhor souber o que causou o erro, também poderá tentar corrigir a origem.

Outra boa fonte para encontrar erros é Console de pesquisa do Google. Ler nosso guia do Search Console para obter mais informações sobre isso. Se o senhor tiver Yoast SEO Premium, o senhor pode facilmente redirecioná-los usando o gerenciador de redirecionamentos.

Bloquear partes de seu site

Se o senhor tiver seções do seu site que não precisam estar no Google, bloqueie-as usando o robots.txt. Só faça isso se souber o que está fazendo, é claro. Um dos problemas comuns que vemos em sites de comércio eletrônico maiores é quando eles têm um milhão de maneiras de filtrar produtos. Cada filtro pode adicionar novos URLs para o Google. Em casos como esse, o senhor deve se certificar de que está permitindo que o Google faça o spider de apenas um ou dois desses filtros e não de todos eles.

Reduzir cadeias de redirecionamento

Quando o senhor faz o redirecionamento 301 de um URL, algo estranho acontece. O Google verá esse novo URL e o adicionará à lista de tarefas. Ele nem sempre o segue imediatamente; ele o adiciona à sua lista de tarefas e continua. Quando o senhor encadeia redirecionamentos, por exemplo, quando redireciona non-www para www, e depois http para https, o senhor tem dois redirecionamentos em todos os lugares, o que faz com que tudo demore mais para ser rastreado.

Isso é fácil de dizer, mas difícil de fazer. Obter mais links não é apenas uma questão de ser incrível, mas também de garantir que os outros saibam que o senhor é incrível. É uma questão de boas relações públicas e bom envolvimento nas mídias sociais. Escrevemos bastante sobre link building; sugerimos que o senhor leia estas três publicações:

  1. Link building de uma perspectiva holística de SEO
  2. Link building: o que não fazer?
  3. 6 etapas para uma estratégia de link building bem-sucedida

Quando o senhor tem um problema agudo de indexação, deve primeiro examinar sua erros de rastreamento, bloquear partes do seu site e corrigir cadeias de redirecionamento. O link building é um método muito lento para aumentar seu orçamento de rastreamento. Por outro lado, o link building deve fazer parte do seu processo se o senhor pretende criar um site grande.

TL;DR: a otimização do crawl budget é difícil

A otimização do crawl budget não é para os fracos de coração. Se o senhor estiver fazendo bem a manutenção do seu site ou se o site for relativamente pequeno, provavelmente não será necessário. Se o seu site for de tamanho médio e bem mantido, é bastante fácil fazer isso com base nos truques acima.

Avalie sua aptidão técnica para SEO

A otimização do orçamento de rastreamento faz parte do seu SEO técnico. O senhor tem curiosidade de saber como está o SEO técnico geral do seu site? Criamos uma teste de condicionamento físico de SEO técnico que o ajuda a descobrir o que precisa ser trabalhado!

Continue lendo: Robots.txt: o guia definitivo “