Официальное сообщение: Crawling through HTML forms

Гугл уже давно парсит flash и javascript, вытаскивая оттуда новые адреса страниц для индексации. Теперь для "очень качественных сайтов" Гугл сабмитит и формы на страницы, вводя туда слова с сайты и "играясь" всеми опциями.

Гугл сабмитит только GET формы, причем не содержащие поля типа "логин", "пароль" и т.п.

Кроме того, Гугл рекомендует все формы, которые меняют что-то на сервере, отправлять методом POST - такие Гугл не будет сабмитить. Получается, что Гугл теперь не только самопроизвольно индексирует сайты (а если вы хотите от него укрыться, то должны запрещать это специально - это тема давно уже вызывает споры), но теперь еще и формы надо переделывать, чтобы вдруг не случилось сюрприза, когда Гугл начнет их сабмитить и наполнять базу хламом.

Например, Гугл ведь может засабмитить формочку опроса или поиска - это все обычно складывается в архив на сервера. Если Гугл будет вбивать все слова в поиск, да еще и опции различные пробовать, то статистика на сервере может быть сильно испорчена.

Еще по теме: Googlebot Submitting Forms to Find More Pages


  • Хе-хе, тут же родилась чёрная идейка...
  • Скоро Гугл будет писать статьи, индексировать их, и оценивать с точки зрения релевантности... :)

    Но по теме - простая капча все проблемы закрывает.

    Еще по теме - как только излишне проворный гугл где-нибудь на солидном ресурсе напортачит по самое немогу, последует хороший иск - и всё наладится.

    Всё же гугл может сколько угодно индексировать сайты, но вмешиваться - я считаю он не должен.
  • Всё, что не должно попасть в индекс должно быть прописано в robots.txt либо rel=nofollow на всю страницу.

    Если у вас в индекс попадает страница с результатами поиска то это только ваша вина.

    Как точно заметил dimok, это новое телодвижение гугла связано с поиском ссылок на новые страницы и с попыткой гугла к индексации deep web'a. Говорят в surface web сосредоточено 20% информации, остальные 80% - в deep web.
  • Возможно, он будет брать не именно страницы с результатами поиска, а ссылки с этих страниц. Как и яваскрипт они индексируют: не для того, чтобы его индексировать, а чтобы новые урлы страниц находить.
  • Кстати да, вопрос открыт - раньше за результаты поиска в индексе можно было отгрести санкции, а теперь Гугл сам пошел на попятную
  • Следующая новость - гуглбот теперь пишет комменты в блогах и общается на форумах ))
    А вообще странная затея. Если за формами и скрываются новые страницы, то это наверняка формы логина и пароля. То есть неиндексируемые страницы - это персональная часть сайта, где гуглу делать нечего...
  • [...]Димок рассказал про новые возможности гуглбота[...]
  • Гугловцы опять впереди паровоза! :)
  • Alex
    Еще пару месяцев назад заметил что Google сам заполнял форму поиска, сабмитил и потом индексировал полученные страницы. Самое интересное что все эти страницы он же и отправил в omitted results. От греха закрыл форму в noindex. Спрашивается, нафига он это делает?
  • bt
    Гугл начинает наглеть. Борясь с серыми методами, сам начинает использовать их?
    Это уже начинает напоминать параноидальный рассказ о глобальной системе слежения с его помощью.
    Интересно, были ли уже иски на Гуглю от антимонопольного комитета?
  • То есть сам насабмитил в поиск, проиндексировал, а потом за это в фильтр? С трудом вериться, не идиоты же там работают.

    Трудно представить в каких случаях может помось это нововведение, зато при разработке форм теперь еще и о гугле думать, а rel="nofollow" они не догадались на формы распространить.
  • Это сто процентов. На одном из блогов несколько сотен страниц поиска в индекс попало, случайно заметил. В форму поика слова по теме блога сабмитил и индексировал.

    Насколько я знаю, Гугль очень негативно относится к проиндексированным результатам поика, баном может и не закончится, но зафильтровать может
blog comments powered by Disqus

Облако тегов

Связаться со мной можно по почте: dimokru@gmail.com или через твитер @dimokru
    follow me on Twitter

    Статистика

    • toodoo
    • TwitterCounter for @dimokru
    • Рейтинг блогов
    • Участник Blograte.ru