Официальное сообщение: Crawling through HTML forms

Гугл уже давно парсит flash и javascript, вытаскивая оттуда новые адреса страниц для индексации. Теперь для "очень качественных сайтов" Гугл сабмитит и формы на страницы, вводя туда слова с сайты и "играясь" всеми опциями.

Гугл сабмитит только GET формы, причем не содержащие поля типа "логин", "пароль" и т.п.

Кроме того, Гугл рекомендует все формы, которые меняют что-то на сервере, отправлять методом POST - такие Гугл не будет сабмитить. Получается, что Гугл теперь не только самопроизвольно индексирует сайты (а если вы хотите от него укрыться, то должны запрещать это специально - это тема давно уже вызывает споры), но теперь еще и формы надо переделывать, чтобы вдруг не случилось сюрприза, когда Гугл начнет их сабмитить и наполнять базу хламом.

Например, Гугл ведь может засабмитить формочку опроса или поиска - это все обычно складывается в архив на сервера. Если Гугл будет вбивать все слова в поиск, да еще и опции различные пробовать, то статистика на сервере может быть сильно испорчена.

Еще по теме: Googlebot Submitting Forms to Find More Pages



  • http://goonews.ru/goo/guglbot-otpravlyaet-html-formyi Гуглбот отправляет HTML формы — GOOgleNEWS: новости Гугл

    [...] via [...]

  • http://www.mythbusters.org.ru buster

    Это сто процентов. На одном из блогов несколько сотен страниц поиска в индекс попало, случайно заметил. В форму поика слова по теме блога сабмитил и индексировал.

    Насколько я знаю, Гугль очень негативно относится к проиндексированным результатам поика, баном может и не закончится, но зафильтровать может

  • http://jokingly.ru/2008/04/14/guglbot-teper-sabmitit-formy-na-sajte/ SEOптимизм

    Гуглбот теперь сабмитит формы на сайте…

    Блог Димок:
    Гугл уже давно парсит flash и javascript, вытаскивая оттуда новые адреса страниц для индексации. Теперь для “очень качественных сайт….

  • http://designformasters.info Евгений

    То есть сам насабмитил в поиск, проиндексировал, а потом за это в фильтр? С трудом вериться, не идиоты же там работают.

    Трудно представить в каких случаях может помось это нововведение, зато при разработке форм теперь еще и о гугле думать, а rel=»nofollow» они не догадались на формы распространить.

  • http://psholka.ru bt

    Гугл начинает наглеть. Борясь с серыми методами, сам начинает использовать их?
    Это уже начинает напоминать параноидальный рассказ о глобальной системе слежения с его помощью.
    Интересно, были ли уже иски на Гуглю от антимонопольного комитета?

  • Alex

    Еще пару месяцев назад заметил что Google сам заполнял форму поиска, сабмитил и потом индексировал полученные страницы. Самое интересное что все эти страницы он же и отправил в omitted results. От греха закрыл форму в noindex. Спрашивается, нафига он это делает?

  • http://feelovblog.ru/ Feelov

    Гугловцы опять впереди паровоза! :)

  • http://www.seowriter.ru/2008/04/14/kak-mozhno-poluchat-ssylki-na-svoi-zarubezhnye-blogi/ SEO writer – Личный помощник в SEO! » Как можно получать ссылки на свои зарубежные блоги

    [...]Димок рассказал про новые возможности гуглбота[...]

  • http://freealt.net/ Bright

    Следующая новость – гуглбот теперь пишет комменты в блогах и общается на форумах ))
    А вообще странная затея. Если за формами и скрываются новые страницы, то это наверняка формы логина и пароля. То есть неиндексируемые страницы – это персональная часть сайта, где гуглу делать нечего…

  • http://www.svift.org/ Svift

    Кстати да, вопрос открыт – раньше за результаты поиска в индексе можно было отгрести санкции, а теперь Гугл сам пошел на попятную

  • http://dimok.ru/ dimok

    Возможно, он будет брать не именно страницы с результатами поиска, а ссылки с этих страниц. Как и яваскрипт они индексируют: не для того, чтобы его индексировать, а чтобы новые урлы страниц находить.

  • http://blog.w-research.ru Dmitriy K.

    Всё, что не должно попасть в индекс должно быть прописано в robots.txt либо rel=nofollow на всю страницу.

    Если у вас в индекс попадает страница с результатами поиска то это только ваша вина.

    Как точно заметил dimok, это новое телодвижение гугла связано с поиском ссылок на новые страницы и с попыткой гугла к индексации deep web’a. Говорят в surface web сосредоточено 20% информации, остальные 80% – в deep web.

  • http://seodzen.ru/yahoo-slurp-30 Yahoo! Slurp 3.0 : SEO дзен

    [...] днях Гугл анонсировал индексацию HTML форм и javascript. Яху же спешит представить [...]

  • http://rumba.net.ru rumba

    Скоро Гугл будет писать статьи, индексировать их, и оценивать с точки зрения релевантности… :)

    Но по теме – простая капча все проблемы закрывает.

    Еще по теме – как только излишне проворный гугл где-нибудь на солидном ресурсе напортачит по самое немогу, последует хороший иск – и всё наладится.

    Всё же гугл может сколько угодно индексировать сайты, но вмешиваться – я считаю он не должен.

  • http://with.in/ samlowry

    Хе-хе, тут же родилась чёрная идейка…

1

Облако тегов

Связаться со мной можно по почте: dimokru@gmail.com или через твитер @dimokru (9790 фолловеров)

Последние комментарии

    follow me on Twitter

    ТОП комментаторы

    Статистика

    • Рейтинг блогов
    • Участник Blograte.ru