Напористые AhrefsBot-ы

Зарабатываем!, Мысли

Если в вашем хозяйстве имеются сайты в несколько десятков, а то и сотен тысяч динамических страниц, то стоит поберечься заранее и всячески оградить себя от сервиса мониторинга беклинков ahrefs.com, а конкретнее, от его ботов, которые наваливаются на большие сайты иной раз столь стремительно и беспощадно, что моментально могут отправить ваш хостинг в глубокий нокаут (ну и выбирайте только хороший хостинг, такой как IHC - тут для него выложены коды на максимальные скидки).

Чтобы сия неприятность вас миновала необходимо сделать следующее:

1. В robots.txt сайта добавить:

User-agent: AhrefsBot
Disallow: /

2. В .htaccess в корне сайта добавить:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule ^.* - [F,L]

3. Наконец, если вдруг боты сервиса совсем оборзели, и не слушаются robots.txt и/или сменили юзер агента, то надо забанить их IP-адреса (судя по тому, что я нашел в интернете, они периодически меняют IP-сетки, потому бан указанных мной адресов скорее всего не панацея на долгие годы).

9 комментов

  1. Ted сказал и подписался на новые комментарии по e-mail:

    А есть еще такая тварь как Updowner.com

  2. DimaX сказал:

    А есть еще такая тварь как Updowner.com

    Тоже своими ботами укладывает хостинг?

  3. Данила сказал:

    А разве хостер такую ерунду не блочит сам?

  4. DimaX сказал:

    А разве хостер такую ерунду не блочит сам?

    Какие-то хостеры наверняка блочат, но, думаю, далеко не все. Да и многие, у кого есть хотя бы несколько крупных сайтов, держат их не на виртуальных хостингах, а на VPS или дедиках, а их администрировать самому приходится.

  5. Весельчак сказал:

    А есть способ задать правило, чтобы с одного ip было, скажем, не больше 200 обращений в день?

  6. DimaX сказал:

    А есть способ задать правило, чтобы с одного ip было, скажем, не больше 200 обращений в день?

    Есть конечно, но это уже надо у профессионалов серверного администрирования узнавать, я такое делать не умею.

  7. Михалыч сказал:

    Dimax, эффективен именно первый метод. Т.к. при использовании второго (через .htaccess) до роботс.тхт страшный бот не доберётся - апач не даст доступ.

  8. DimaX сказал:

    Dimax, эффективен именно первый метод. Т.к. при использовании второго (через .htaccess) до роботс.тхт страшный бот не доберётся - апач не даст доступ.

    Ха, и правда, не подумал об этом :)

    С другой стороны, все, наверное, знают, что директивы robots.txt это лишь просьбы, по большому счету, а не закон, бот может их слушать, а может и нет. Поэтому принудительно выдавать 403 боту более действенно, по идее.

  9. Вадим сказал и подписался на новые комментарии по e-mail:

    Статью нашел совершенно случайно. Но дюже оказалась актуальной. Веду сайт автомобильной тематики, интернет-магазин, страниц не счесть, так как наполнение было автоматическим из быза запчастей. Теперь знаю как бороться с напастью!

Комментирование доступно только в первые 60 дней после публикации

© 2006-2024 by dimax.biz