Давно не секрет, что поисковые боты прожорливы. И это не беда, а большая радость, когда они приходят индексировать ваш сайт. Но что делать, когда сайт не один?

Мне всегда нравилось смотреть за динамикой заходов поисковиков на новые сайты. Но на прошлой неделе огромный интерес у меня вызвала активность яхубота на ВСЕХ моих сайтах (онлайн магазины, порталы, каталоги, форумы, блоги и т.д.) - он просто озверел. Яхубот легко и непринужденно положил один из моих серверов многочисленными обращениями (и это при том, что сервак этот выдерживал посещаемость в миллионы юзеров в сутки).

Многие наверняка в курсе, что не так давно Яху побанил множество сайтов (и не только всякую грязь, но и нормальные сайты). А на прошлой неделе опомнился и начал все индексировать заново - мои сайты (часть из которых попала под бан) подверглись агрессивной индексации.

Пока самый действенный способ поддерживать сервер в адекватном состоянии - это блокировка в конфигах сервера ахубота (по юзер агенту). Уже сделали кеш для всех сайтов, оптимизировали все, что только могли, поставили кеш для пхп и прочие заморочки - сервак уже почти держит натиск яхубота (раньше умирал через 5 минут после активации яхубота в конфигах, а сейчас по полчаса держится). Продолжаем оптимизировать скрипты и придумывать дополнительные хитрости.

Яхубот - всегда гость желанный, он нам очень нужен, но бывают моменты, когда мы просто не можем его себе позволить. Запрашивает яхубот в сутки 3-5 лямов страниц - хз, зачем ему столько, но видимо очень хочется. Другие боты на порядок скромнее.

Забавных моментов еще много. Например, то, что до этого сервак держался не один год (и при текущем количестве сайтов все было в порядке) - индексировалось все, работало довольно шустро. Кстати, все это происходит при вполне адекватном отношении к сайтам со стороны прочих поисковиков - они индексят без "авралов".

Вот такие пироги. Желаю всем попасть в индекс Яху и не лопнуть от переизбытка чуйств :)

В продолжение: Как я боролся с Yahoo! Slurp


  • blogger, спасибо. тоже на заметку возьмем!
  • не знаю как для яхи, а гуглу в похожих случаях лучше отдавать 503 Retry-After: NNN
  • samlowry, уже применили эту тему. плюс скрипты подкрутили. la на серваке упало очень заметно. все бегает. завтра будет пробовать снимать ограничение (delay=10 поставили ща) с яхубота - посмотрим, так ли хорошо мы заоптимизили скрипты.
  • dimok: ну когда идет настоящий дос понятие "приятно" уже неуместно.
    Два: в той же моей заметке пункт насчет заголовка с датой изменения. Вы его отдаете? Бот просто не будет в след. раз пагу грузить, если вы отдадите, что она не изменена.
  • samlowry, про такой прием слышал. спасибо, что напомнил, наверное поставим пока скрипты оптимизируются.

    Но все же это полумеры имхо. Так приятно, когда боты начинают тебя активно индексить, что ограничивать их в этом - просто кощунство! Так что я выбираю вариант оптимизации скриптов и апгрейда сервера.
  • Блин, два зубра SE RTFM не делают?

    Димок, смотри ссылку. Делаешь общий robots.txt алиасом апача - и в нем ставишь боту дилей, допустим, 10 сек. Отпускает буквально на глазах.
  • alexf2000, такое не в первый раз, конечно. но раньше получалось побороть эту напасть довольно быстро (постоянной оптимизацией скриптов и апгрейдами сервака), но в этот раз сервер падает как только мы даем яхе доступ. Я думаю, что это происходит потому, что забанив (в основном, частично) часть наших сайтов, аха осознала, какую глупость совершила, и старается как можно быстрее все проиндексировать все бездарно утерянные страницы - раньше все шло своим чередом, без спешки, а вот сейчас ей исподобилось обрушиться на нас.

    бывало и не такое. Как то раз китайский поисковик начал индексить сайты, каким-то образом подбирая неправильные урлы (видимо перепутали обслютные с относительными и стали запрашивать непозволительно идиотские страницы типа domen.com/archive/archive/archive/archive/archive/archive/archive/page.html) - модреврайт, конечно, помер довольно быстро, учитывая, что и запросов было оооочень много. В итоге я просто забанил всех китайцев на сервере.
  • У меня более гибкая схема - если бот попадается агрессивный, то есть скажем качает больше N страниц в час, то я начинаю показывать ему 502ю страницу (перегрев сервера) в течении какого-то времени. Проблама с яхо в том, что он досит распределённо, с кучи адресов, так что эту схему пришлось ещё дополнительно модифицировать, чтобы банить не по ip, а по подсети.
    Вообще странный пост, у тебя первый раз что-ли нашествие яхи? :) У меня минимум раз в 2 месяца такое случается. :)
blog comments powered by Disqus

Облако тегов

Связаться со мной можно по почте: dimokru@gmail.com или через твитер @dimokru
    follow me on Twitter

    Статистика

    • toodoo
    • TwitterCounter for @dimokru
    • Рейтинг блогов
    • Участник Blograte.ru