Официальное сообщение: Crawling through HTML forms

Гугл уже давно парсит flash и javascript, вытаскивая оттуда новые адреса страниц для индексации. Теперь для "очень качественных сайтов" Гугл сабмитит и формы на страницы, вводя туда слова с сайты и "играясь" всеми опциями.

Гугл сабмитит только GET формы, причем не содержащие поля типа "логин", "пароль" и т.п.

Кроме того, Гугл рекомендует все формы, которые меняют что-то на сервере, отправлять методом POST - такие Гугл не будет сабмитить. Получается, что Гугл теперь не только самопроизвольно индексирует сайты (а если вы хотите от него укрыться, то должны запрещать это специально - это тема давно уже вызывает споры), но теперь еще и формы надо переделывать, чтобы вдруг не случилось сюрприза, когда Гугл начнет их сабмитить и наполнять базу хламом.

Например, Гугл ведь может засабмитить формочку опроса или поиска - это все обычно складывается в архив на сервера. Если Гугл будет вбивать все слова в поиск, да еще и опции различные пробовать, то статистика на сервере может быть сильно испорчена.

Еще по теме: Googlebot Submitting Forms to Find More Pages



Облако тегов

Связаться со мной можно по почте: dimokru@gmail.com