Robots.txt

Explicamos o porquê do arquivo robots.txt e como se constrói tal arquivo.)

Por Sara Alvarez Langa


Publicado em: 04/4/08
Valorize este artigo:
Para começar temos que comentar o que são os robots e que função cumprem dentro da rede de redes.
Um robô é um programa mais ou menos complicado que se dedica a rastrear nossas páginas webs e salvar seu conteúdo em um banco de dados e seguir os links que tenhamos a outras páginas web. Isto nos beneficia, porém também nos pode prejudicar, já que às vezes não nos convém indexar certas páginas de nossas webs.

Atualmente, os robôs agem de tal forma que o primeiro que fazem é buscar na raiz de nossa página se temos um arquivo chamado robots.txt, se o encontra o lê e segue as diretrizes que nele se encontram, se não o encontra começa a rastrear toda a web.

Por este tema é importante criar bem este arquivo e pensar que páginas queremos que sejam rastreadas e quais não, já que as que não forem rastreadas não serão indexadas nos navegadores.

Este arquivo é muito fácil de construir, sabendo simplesmente certas pautas já poderá fazê-lo sem problema.

O arquivo robots.txt pode se construir para que se aplique só aos robôs de determinados buscadores.

Passamos a escrever um exemplo para ir explicando as possibilidades:

User-agent: * # aplicável a todos os robôs
Disallow: / # impede a indexação de todas as páginas

Neste exemplo, os robôs não poderiam indexar nenhuma página do domínio.
User-agent o que nos diz é que robôs se aplicam às características que lhe seguem abaixo. Se usarmos o * estamos dizendo que essas regras são aplicáveis para todos os robôs. Porém, também podemos fazê-lo para determinados robôs, como se vê no seguinte exemplo:

User-agent: lycra
User-agent: BadBot
Disallow: /

Neste exemplo, os robôs lucra e BadBot teriam proibidos a indexação de qualquer página do domínio.

O disallow nos diz os arquivos ou pastas que queremos que não sejam indexadas. Desta forma poderíamos fazer um arquivo como este:

User-agent: *
Disallow: /tmp/prova.html
Disallow: /logs

O que faria este exemplo seria proibir a indexação da pasta logs e o arquivo prova.html a todos os robôs.

Com isto já poderíamos realizar um arquivo robots.txt perfeitamente válido, porém também existem termos para determinar a que horas queremos que esses robôs rastreiem em nossas páginas. A forma de construí-lo é a seguinte:

Visit-time: 0300-0400 #esta opção obrigaria a rastrear as páginas somente de 3 am a 4 am

Lembre que as horas sempre se colocam em Greenwitch

Por outro lado podemos lhe dizer que indexe uma página ou várias cada "x" tempo, para isso, utiliza-se a seguinte sintaxe:

Request-rate: 1/30

Sendo o 1 o número de documentos a rastrear e o 30 o tempo que transcorre entre um rastreio e o seguinte.

É importante saber que não se pode deixar linhas em branco já que não funcionaria, o robô deixaria de ler no momento que encontra a linha em branco.

Outro aspecto que não comentei antes, mas que já devem ter notado é que os comentários ser realizam utilizando a #.

Um exemplo completo seria o seguinte:

User-agent: *
Disallow: /tmp/prova.html
Disallow: /logs
Visit-time: 0300-0400

Isto permitirá a todos os robôs rastrear todas as páginas menos prova.html e a pasta logs, ademais só poderiam indexar de 3 da manhã às 4h.






Usuários :    login / registro

Manuais relacionados
Categorias relacionadas
O autor

Home | Sobre nós | Copyright | Anuncie | Entrar em contato