Os mecanismos de busca utilizam-se de robôs de busca, conhecidos como webcrawlers, que percorrem automaticamente toda a web, a fim de indexar todo conteúdo disponível na rede.
O robots.txt é um arquivo texto que permite ou impede um robô indexar seu site ou parte dele. Este é o primeiro arquivo que os robôs procuram em seu site e deve ser colocado na raiz do site.
Se um site não possuir este arquivo, os robôs de busca irão percorrer normalmente todo o site.
Como Criar um Arquivo robots.txt
Existem diversas ferramentas para criar um robot.txt, mas se o seu site não for muito grande você poderá facilmente criar através do bloco de notas ou qualquer outro editor de texto ASCII e salvar com a extensão .txt. O nome do arquivo deve ser todo em letras minúsculas. (robots.txt)
Ferramentas para criar o arquivo robots.txt
Site – marketingdebusca
Site – mestreseo
Site – google
Site – mcanerin
Exemplo de um arquivo robots.txt
Entendendo a formatação do robots.txt
User-agent: *
A expressão “User-Agent” é usada para declarar o nome de um robô.
Colocando asterisco você diz que é para todos os robôs de busca.
Para especificar um determinado robô, tira o asterisco e coloca nome do bots.
User-agent: Googlebot
• Google: User-agent: Googlebot
• Yahoo: User-agent: Slurp/3.0
• MSN: User-agent: Msnbot
• AltaVista: User-agent: Scoote
Disallow:/
Indica qual diretório não deve ser vasculhado pelos robôs
User-agent: * Disallow: /
Informa a todos os mecanismos de busca que este site não deve ser vasculhado por eles, ou seja o que está dentro do diretório raiz está impedido de ser indexados por todos os robôs de buscas.
User-agent: * Disallow:
Não colocando a barra após Disallow: permite a indexação total do site.
Outros exemplos:
User-agent: Googlebot Disallow: /administracao/ Disallow: /clientes/
Informa ao robô do Google que pode indexar todo o site, exceto os diretórios administracao e administracao.
User-agent: * Disallow: /cgi-bin/ #scripts e programas Disallow: /logado/ #paginas de usuários autenticados
O sustenido (#) serve para colocar um comentário, não influencia em nada para os robôs, porém use com moderação ou não use pois o Google por exemplo limita a monitoração do robots.txt em 5.000 caracteres.
Disallow: /contato.htm
Para bloquear uma página específica, use uma barra e o nome do arquivo.
Disallow: /*.asp$
Especificar arquivos com determinadas extensões usa-se o cifrão ($).
Bloquear todas as páginas com extensão.asp
User-agent: Googlebot Disallow: /particular*/
Para fazer com que uma sequência de caracteres gere uma correspondência, use um asterisco (*).Por exemplo, para bloquear o acesso a todos os subdiretórios que começam com “particular”
User-agent: Googlebot Disallow: /*?
Para bloquear o acesso a todos os URLs que incluam um ponto de interrogação (?) (mais especificamente, qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, por um ponto de interrogação ou por qualquer string):
Allow
Este comando diz aos robôs de buscas qual diretório ou arquivo pode ser indexado. Útil em situações em que o acesso a um diretório esta bloqueado pelo comando Disallow, mas tem um arquivo ou diretório que você considera interessante ser encontrado pelos mecanismos de buscas.
User-agent: * Disallow: /pasta/ Allow: /pasta/servicos.htm
Não permite que uma pasta seja indexada, porém o arquivo serviços.htm dentro desta pasta pode ser indexado.
Robôs específicos para imagens
• Google: User-agent: Googlebot-Image
• Yahoo: User-agent: Yahoo-mmcrawler
• MSN: User-agent: Psbot.
User-agent: Googlebot-Image Disallow: /
Para remover todas as imagens do seu site da Pesquisa de imagens do Google:
User-agent: Googlebot Disallow: /*.gif$
Para bloquear os arquivos de um tipo específico (por exemplo, .gif), use o seguinte:
Conclusão
O robots.txt é extremamente útil, pois informa aos mecanisnos de buscas o que pode e o que você não deseja que seja mostrado nos resultados de buscas .
Dentro do robots.txt você pode colocar o endereço do seu sitemap, insira esta informação no final do arquivo.
Gostei do post, mas vou fazer o teste Valeu! Até a próxima…
Valeu pela orientação. Muito bem explicado, e usei com sucesso na mesma hora. Valeu!!
Conteúdo muito bom Luciano! Quero agradecer e aproveitar para trazer um conteúdo que achei bem completo a respeito do robots.txt.
Talvez possa complementa-lo.
Forte abraço mais uma vez!