O que é um rastreador de mecanismo de pesquisa?

Por Leandro Lopes 19/09/2022
12 Min Leitura
O que é um rastreador de mecanismo de pesquisa?
Rastreador de Pesquisa

Os rastreadores de mecanismos de pesquisa, também chamados de spiders, robôs ou apenas bots, são programas ou scripts que navegam de forma sistemática e automática nas páginas da web. O objetivo dessa navegação automatizada é normalmente ler as páginas que o rastreador visita para adicioná-las ao índice do mecanismo de pesquisa.

Os mecanismos de pesquisa, como o Google, usam rastreadores da Web para ler páginas da Web e armazenar uma lista das palavras encontradas na página e onde essas palavras estão localizadas. Eles também coletam dados de usabilidade, como velocidade e status de erro HTTP encontrados.

Esses dados são armazenados no índice dos mecanismos de pesquisa – basicamente grandes bancos de dados de páginas da web.

Quando você faz uma pesquisa no Google, na verdade você está pesquisando no índice do Google, não na web real. O Google exibe as páginas indexadas relevantes para a consulta e fornece links para as páginas reais.

Como a web moderna contém vários tipos diferentes de conteúdo e os mecanismos de pesquisa têm maneiras de pesquisar especificamente esse tipo de conteúdo, os maiores mecanismos de pesquisa têm rastreadores dedicados a rastrear tipos específicos de páginas ou arquivos. Esses campos incluem:

  • Conteúdo geral da web
  • Imagens
  • Vídeo
  • Notícia
  • Publicidades
  • Móvel

Como funcionam os rastreadores de mecanismos de pesquisa?

Em um nível prático, o “rastreamento” acontece quando um rastreador recebe uma URL para verificar, busca a página e a armazena em um computador local. Você pode fazer isso sozinho acessando uma página, clicando com o botão direito do mouse e clicando em “Salvar como…”

Os rastreadores recebem seus URLs verificando o mapa do site de um domínio ou seguindo os links encontrados em outra página.

Os Sitemaps desempenham um papel importante nesta etapa, pois fornecem aos rastreadores uma lista organizada e agradável de URLs para acesso. Eles também fornecem detalhes que afetam como o Google decide rastrear cada página.

Leia também

O que é o orçamento de rastreamento?

Claro, até o Google tem recursos limitados (não importa quão alto seja esse limite). Portanto, o Googlebot trabalha com o que é conhecido como “orçamento de rastreamento”. O orçamento de rastreamento é simplesmente o número de URLs em um site que o Google deseja e pode rastrear.

Existem 2 ingredientes que entram no orçamento de rastreamento do Google para um site:

  • Limite da taxa de rastreamento: o Google não quer afetar a experiência do usuário de um site ao rastreá-lo, por isso limita o número de páginas que o rastreador pode buscar de uma só vez.
  • Demanda de rastreamento: para simplificar, esse é o desejo do Google de rastrear seu site. O Google não está interessado em rastrear URLs que parecem não agregar valor aos usuários (parâmetros de URL, navegação facetada, identificadores de sessão etc.). Portanto, mesmo que o Googlebot não atinja seu limite de taxa de rastreamento, ele não desperdiçará seus próprios recursos rastreando essas páginas.

A boa notícia é que o limite da taxa de rastreamento e a demanda de rastreamento podem mudar dependendo do que o Google encontra em seu site. Esses fatores afetam o orçamento de rastreamento do seu site:

  • Velocidade do site: o Google não gosta de esperar, então as páginas rápidas irão atraí-lo para rastrear mais páginas. Além disso, a velocidade é um sinal de um site saudável, então o Google poderá colocar mais recursos no rastreamento.
  • Páginas de erro: se um servidor responder a muitas solicitações do Google com códigos de erro, isso desencorajará o Google de tentar rastrear páginas, pois parecerá um site com muitos problemas.
  • Popularidade: quanto mais popular o Google achar que sua página é, mais frequentemente ele a rastreará para mantê-la atualizada em seu índice.
  • Atualizado: não é nenhum segredo que o Google gosta de conteúdo novo (novo, atualizado). A publicação de novo conteúdo informará ao Google que seu site tem novas páginas para rastrear regularmente. Conteúdo mais recente significa mais rastreamentos.

URLs alternativos como AMP ou hreflang podem ser rastreados pelo Google – o mesmo para JavaScript e CSS.

O que é Indexação de Pesquisa?

Depois que uma página é rastreada, o Google precisa extrair informações sobre a página para armazenar em seu índice. Os mecanismos de pesquisa usam vários algoritmos e heurísticas para determinar quais palavras no conteúdo da página são importantes e relevantes. Adicionar marcação semântica como Schema.org ajudará os mecanismos de pesquisa a entender melhor sua página.

Depois que uma página é buscada, armazenada e analisada, as informações extraídas dela são salvas no índice do mecanismo de pesquisa. Quando alguém usa uma consulta em uma pesquisa, as informações no índice são usadas para determinar as páginas relevantes para essa consulta.

Como otimizar o rastreamento do Google

Para classificar nos resultados de pesquisa, uma página deve primeiro ser indexada. Para ser indexada, uma página deve primeiro ser rastreada. Portanto, a rastreabilidade (ou a falta dela) tem um enorme impacto no SEO.

Você não pode controlar diretamente quais páginas os rastreadores do Google decidem rastrear, mas pode fornecer pistas sobre quais páginas seriam melhores para eles rastrearem e quais devem ser ignoradas.

Existem três maneiras principais de ajudar a controlar quando, onde e como o Google rastreia suas páginas. Eles não são absolutos (o Google tem vontade própria), mas ajudarão a garantir que suas páginas mais importantes sejam encontradas pelos rastreadores.

Confira também: Vantagens do SEO: 20 benefícios da otimização de mecanismos de busca

O papel do Robots.txt

A primeira coisa que um rastreador faz quando chega a uma página é abrir o arquivo robots.txt do site . Isso torna o arquivo robots.txt a primeira oportunidade de desviar os rastreadores do que eles considerariam URLs de baixo valor.

Você pode usar a diretiva não permitir do robots.txt para manter os rastreadores longe de páginas que você não necessariamente quer que apareçam nos resultados de pesquisa:

  • Obrigado ou página de confirmação do pedido
  • Conteúdo duplicado
  • Páginas de resultados de pesquisa do site
  • Fora de estoque ou outras páginas de erro

Não use o arquivo robots.txt para proibir URLs incorporados, como JavaScript ou CSS. Os rastreadores precisam usar o orçamento de rastreamento nesses URLs, mas o Google precisa renderizar totalmente uma página para entendê-la corretamente.

O bloqueio de arquivos CSS e JS resultará em rastreamento e indexação imprecisos ou incompletos, fazendo com que o Google veja uma página de maneira diferente dos humanos, podendo até resultar em classificações reduzidas.

O papel dos mapas de site XML

Os sitemaps XML são como o oposto do arquivo robots.txt. Eles dizem aos mecanismos de pesquisa quais páginas eles devem rastrear. E embora o Google não seja obrigado a rastrear todos os URLs em um mapa do site (ao contrário do robots.txt, que é obrigatório), você pode usar as informações incluídas sobre as páginas para ajudar o Google a rastrear as páginas de forma mais inteligente.

Sugestão de Leitura: SEO On page vs SEO Off Page: Confira as diferenças

Usando tags nofollow

Lembre-se de que os rastreadores se movem de página em página seguindo os links. No entanto, você pode adicionar o atributo rel=”nofollow” para instruir os rastreadores a não seguir links. Quando um mecanismo de pesquisa encontrar um link nofollow, ele o ignorará.

Você pode seguir um link de duas maneiras:

Meta tag: se você não quiser que os mecanismos de pesquisa rastreiem nenhum link em uma página, adicione o atributo content=”nofollow” à metatag robots. A tag se parece com isso:

<meta name=”robots” content=”nofollow”>

Tags âncora: se você quiser uma abordagem granular para links nofollow, adicione o atributo rel=”nofollow” à tag do link real, assim:

<a href=”www.example.com” rel=”nofollow>anchor text</a>

Dessa forma, os rastreadores não seguirão esse link, mas ainda poderão seguir outros links na página.

Usar rel=”nofollow” em tags de link não passará link juice para a página de destino, mas esse link ainda contará para a quantidade de link juice disponível para passar para cada link.

Em ambos os casos (meta tag ou tag âncora), o URL de destino ainda pode ser rastreado e indexado se outro link estiver apontando para essa página. Portanto, não permita essa página via robots.txt — não confie no nofollow para links internos.

Você pode estar se perguntando como o uso do atributo “noindex” na meta robots tag afeta o rastreamento. Em suma, não. O Google ainda rastreará uma página com o atributo noindex e seguirá todos os links dofollow na página. Ele simplesmente não armazenará a página e seus dados no índice.

Como encontrar erros de rastreamento

Erros de rastreamento ocorrem quando o Google tenta buscar uma página, mas não consegue acessar um URL por algum motivo. Erros de rastreamento podem ocorrer em todo o site (DNS, tempo de inatividade do servidor ou problemas de robots.txt) ou em nível de página (tempo limite, soft 404, não encontrado etc.).

O Site Crawl do WooRank verifica se há problemas no seu site que podem estar causando problemas que impedem que seu site tenha um bom desempenho nos mecanismos de pesquisa.

O relatório de cobertura do índice no Google Search Console listará as páginas que o Google encontra que tem problemas para rastrear, juntamente com o problema que impede o Google de indexá-lo corretamente.

Confira também, Web Vitals e SEO, dicas e práticas recomendadas!

Conclusão sobre Rastreador de Mecanismo de Pesquisa

Agora que você sabe como funciona o rastreador de mecaniscmo de pesquisa, verifique se o seu website está configurado corretamente para não perder nenhuma indexação e seu conteúdo realmente ranquear e figurar nas primeiras páginas do Google.

Aqui na otimizar.me , somos especialistas em otimização de sites, entre em contato conosco hoje mesmo e agende uma reunião!

Assine nossa Newsletter!

Fique por dentro das últimas atualizações de desempenho do WordPress e da web.
Direto para sua caixa de entrada a cada duas semanas.

Compatilhe este Conteúdo
Postado por Leandro Lopes
Seguir
É especialista em WordPress com mais de 10 anos de experiência no CMS, além de experiência em provedores de hospedagem, banco de dados, front-end e back-end em desenvolvimento web. Trabalhou ou teve participação em projetos ligado à empresas: Hopi Hari, iG, entre muitos outros