SEO

Robots.txt – Utilizando o arquivo robots

O robots.txt é basicamente um arquivo de texto que fica na raiz do servidor e serve como uma lista de diretrizes para rastreadores que seguem seu protocolo informando o que eles podem e não podem rastrear

Veja como exemplo nosso robots.txt: http://agenciast.com.br/robots.txt

Quando utilizar o robots.txt

Minha recomendação é que todo o site contenha o robots.txt em seu servidor, ele é um dos primeiros arquivos que o crawler do Google verifica ao acessar seu site, e nele como veremos a seguir podemos incluir informação importante como o sitemap do nosso site que é uma forma muito produtiva de informar aos buscadores todas as páginas que se encontram em nosso site.

O que podemos fazer com robots.txt

O arquivo robots.txt contém algumas diretrizes que podemos utilizar para controlar o fluxo de acesso dos rastreadores que podem acessar seu site. Com ele podemos:

  • Definir o que cada user-agent (rastreador) pode fazer em seu site
  • Permitir ou excluir diretórios
  • Podemos utilizar máscaras para determinar padrões de diretórios e até mesmo especificar tipos de arquivos.
  • Informar o local do sitemap XML

Diretrizes do Robots.txt

Comando Disallow:

Este comando serve para negar o acesso do rastreador aos diretórios e arquivos do seu servidor

Disallow: /cat -> Evita que seja rastreado qualquer url que comece com /cat
Disallow: /cat/ -> Evita que todo conteúdo dentro do diretório seja indexado.
Disallow: /cat/post.htm  -> Evita que apenas o post.htm seja indexado.

Comando Allow

Este comando informa qual diretório ou arquivo o crawler poderá indexar.

Disallow: /cat/ -> Evita que todo conteúdo dentro do diretório seja indexado.
Allow: /cat/post.htm  -> Permite que apenas o arquivo post.htm seja indexado dentro do diretório que foi anteriormente bloqueado.

Comando User-agent

Com este comando você pode informar instruções específicas para cada rastreador, a lista de rastreadores mais populares você pode encontrar logo abaixo:

Baiduspider – Buscador Baidu
Googlebot – Buscador Google
Googlebot-Image – Buscador Google Imagem
Bingbot – Buscador Bing
YandexBot – Buscador Yandex

Essa listagem foi extraída do site: http://www.useragentstring.com/pages/useragentstring.php

008
ABACHOBot
Accoona-AI-Agent
AddSugarSpiderBot
AnyApexBot
Arachmo
B-l-i-t-z-B-O-T
Baiduspider
BecomeBot
BeslistBot
BillyBobBot
Bimbot
Bingbot
BlitzBOT
boitho.com-dc
boitho.com-robot
btbot
CatchBot
Cerberian Drtrs
Charlotte
ConveraCrawler
cosmos
Covario IDS
DataparkSearch
DiamondBot
Discobot
Dotbot
EARTHCOM.info
EmeraldShield.com WebBot
envolk[ITS]spider
EsperanzaBot
Exabot
FAST Enterprise Crawler
FAST-WebCrawler
FDSE robot
FindLinks
FurlBot
FyberSpider
g2crawler
Gaisbot
GalaxyBot
genieBot
Gigabot
Girafabot
Googlebot
Googlebot-Image
GurujiBot
HappyFunBot
hl_ftien_spider
Holmes
htdig
iaskspider
ia_archiver
iCCrawler
ichiro
igdeSpyder
IRLbot
IssueCrawler
Jaxified Bot
Jyxobot
KoepaBot
L.webis
LapozzBot
Larbin
LDSpider
LexxeBot
Linguee Bot
LinkWalker
lmspider
lwp-trivial
mabontland
magpie-crawler
Mediapartners-Google
MJ12bot
MLBot
Mnogosearch
mogimogi
MojeekBot
Moreoverbot
Morning Paper
msnbot
MSRBot
MVAClient
mxbot
NetResearchServer
NetSeer Crawler
NewsGator
NG-Search
nicebot
noxtrumbot
Nusearch Spider
NutchCVS
Nymesis
obot
oegp
omgilibot
OmniExplorer_Bot
OOZBOT
Orbiter
PageBitesHyperBot
Peew
polybot
Pompos
PostPost
Psbot
PycURL
Qseero
Radian6
RAMPyBot
RufusBot
SandCrawler
SBIder
ScoutJet
Scrubby
SearchSight
Seekbot
semanticdiscovery
Sensis Web Crawler
SEOChat::Bot
SeznamBot
Shim-Crawler
ShopWiki
Shoula robot
silk
Sitebot
Snappy
sogou spider
Sosospider
Speedy Spider
Sqworm
StackRambler
suggybot
SurveyBot
SynooBot
Teoma
TerrawizBot
TheSuBot
Thumbnail.CZ robot
TinEye
truwoGPS
TurnitinBot
TweetedTimes Bot
TwengaBot
updated
Urlfilebot
Vagabondo
VoilaBot
Vortex
voyager
VYU2
webcollage
Websquash.com
wf84
WoFindeIch Robot
WomlpeFactory
Xaldon_WebSpider
yacy
Yahoo! Slurp
Yahoo! Slurp China
YahooSeeker
YahooSeeker-Testing
YandexBot
YandexImages
YandexMetrika
Yasaklibot
Yeti
YodaoBot
yoogliFetchAgent
YoudaoBot
Zao
Zealbot
zspider
ZyBorg

Para indicar uma diretriz para todos os crawlers, basta utilizar:

User-agent: *

Comando Sitemap

Geralmente incluímos esta linha por último no robots.txt, ela serve para informar o caminho onde se encontra  o sitemap.xml do site.

Sitemap: http://agenciast.com.br/sitemap_index.xml

Cuidados com o robots.txt

  • O robots.txt precisa se encontrar na raiz do domínio, senão ele não será detectado pelos rastreadores.
  • Cuidado com letras minúsculas e maiúsculas Pagina.html e pagina.html são diretrizes diferentes.
  • As diretrizes do robots.txt evita apenas que os buscadores indexem seu conteúdo, cuidado com os diretórios adicionados neste arquivo, já que qualquer usuário pode visualizar. Por isso, locais que não devam ser acessados precisam ter seu acesso restrinjido utilizando outras maneiras.
  • Não bloqueie o acesso do Google aos arquivos Javascript e CSS

Meu conselho final é que tenha bastante cuidado com a utilização do robots.txt e com as pessoas que tem acesso a este arquivo, pois ele pode simplesmente do dia para noite reduzir o seu tráfego orgânico a zero.

Eduardo Storini
Desde 2009 atuando no mercado de marketing digital brasileiro. Trabalha ativamente no desenvolvimento de novas estratégias para aumento de vendas e captação de leads para os clientes da Agência St.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *