Quem fornece dicas sobre como lidar com bots, aranhas e rastreadores

 

Eles são um tipo de software usado pelos mecanismos de pesquisa para excluir novos conteúdos da Internet para fins de indexação.

Eles executam as seguintes tarefas:

<br> Visite as páginas da web às quais você vinculou

<br> Verifique seu código HTML em busca de erros

<br> Eles salvam as páginas da Web às quais você está vinculando e ver quais páginas da Web vinculam ao seu conteúdo

<br> Eles indexam seu conteúdo

No entanto, alguns bots são maliciosos e pesquisam em seu site os endereços de e-mail e formulários que geralmente são usados para enviar mensagens indesejadas ou spam. Outros até procuram brechas de segurança em seu código.

O que é necessário para bloquear os rastreadores da web?

Antes de usar o arquivo .htaccess, você precisa verificar os seguintes itens:

  1. Seu site deve estar em execução em um servidor Apache. Hoje em dia, mesmo as empresas de hospedagem web metade decente em seu trabalho, dar-lhe acesso ao arquivo necessário.
  2. 2. Você deve ter acesso aos logs brutos do seu site para localizar os bots que visitaram suas páginas da web.
  3. Note que você não conseguirá bloquear todos os bots nocivos, a menos que você bloqueie todos eles, mesmo aqueles que você considera úteis. Novos bots aparecem todos os dias e os mais antigos são modificados. A maneira mais eficiente é proteger seu código e dificultar o spam de bots.
  4. Identificando bots
  5. Os bots podem ser identificados pelo endereço IP ou pela “String do agente do usuário”, que eles enviam nos cabeçalhos HTTP. Por exemplo, o Google usa o “Googlebot”.
  6. Você pode precisar desta lista com 302 bots se você já tem o nome do bot que você gostaria de manter usando .htaccess
  7. Outra maneira é baixar todos os arquivos de log do servidor e abri-los usando um editor de texto. Sua localização no servidor pode mudar dependendo da configuração do seu servidor. Se você não consegue encontrá-los, procure ajuda do seu host.
  8. Se você souber que página foi visitada, ou o tempo de visita, é mais fácil vir com um bot indesejado. Você poderia pesquisar o arquivo de log com esses parâmetros.
  9. Uma vez, você notou quais bots precisa bloquear; Você pode incluí-los no arquivo .htaccess. Por favor, note que bloquear o bot não é suficiente para pará-lo. Pode voltar com um novo IP ou nome.
  10. Como bloqueá-los
  11. Faça o download de uma cópia do arquivo .htaccess. Faça backups, se necessário.
  12. Método 1: bloqueando por IP
  13. Este trecho de código bloqueia o bot usando o endereço IP 197.0.0.1
  14. Ordem Negar, Permitir
  15. Negar a partir de 197.0.0.1
  16. A primeira linha significa que o servidor irá bloquear todas as solicitações correspondentes aos padrões que você especificou e permitir todos os outros.
  17. A segunda linha diz ao servidor para emitir uma 403: página proibida
  18. Método 2: bloqueio por agentes do usuário
  19. A maneira mais fácil é usar o mecanismo de reescrita do Apache
  20. RewriteEngine On
  21. RewriteCond% {HTTP_USER_AGENT} BotUserAgent
  22. RewriteRule. – [F, L]
  23. A primeira linha garante que o módulo de reescrita esteja ativado. A linha dois é a condição à qual a regra se aplica. O “F” na linha 4 diz ao servidor para retornar 403: Proibido enquanto o “L” significa que esta é a última regra.
  24. Você então fará o upload do arquivo .htaccess para o seu servidor e sobrescreverá o existente. Com o tempo, você precisará atualizar o IP do bot. Caso você cometa um erro, basta fazer o upload do backup que você fez.

Add a Comment

Your email address will not be published. Required fields are marked *