Заметки на манжетах
22 сентября 2009 г.
Здравствуй, Яндекс-бот, давно не виделись. Снова о заголовках... и о грустном.
С ботом поздоровался. :-)
Теперь можно сообщить всем любопытствующим новость, которой пока еще нигде нет. Вероятно, в скором времени на webmaster.ya.ru появится сообщение, что Яндекс существенно расширил список индексируемых документов и далее стандартные заверения в своей приверженности интересам пользователей, ищущих многообразный контент во всевозможных форматах. А пока идет обкатка обновленного механизма индексации и неприятностей у вебмастеров будет много. Уж это к гадалке не ходи, все уже привыкли – как только обновление, так и неприятности...
А теперь плавно перейду к делу.
Началось все с апдейта индекса 14 сентября. Именно в эту ночь, когда выдача задвигалась, а на форумах оптимизаторов были открыты очередные топики «Ап!!!», этот сайт исчез из Яндекса. По проверке проиндексированных «ничего не найдено», в панели вебмастера «Ваш сайт не проиндексирован». А статистика запросов в целости и сохранности... в общем, сайт «выпал из индекса» по неизвестным причинам, о которых мне, конечно же, никто ничего не сообщит. Так что Платона Щукина даже спрашивать не захотелось. Но интересно все-таки...
Кому-то уже надоело читать эту фразу, но я все равно повторю: люблю рыться в логах. Благо, добрый хостер хранит их по месяцам, дополняя архив текущего месяца каждое утро. Первым делом я открыл сентябрьский лог. Забавно – оказывается, индексирующий бот за половину сентября вообще ни разу не заходил на сайт. Августовский лог уточнил ситуацию: с 27 августа I-бота не было, зато ко мне регулярно дважды в сутки ходил «картиночник», спрашивал robots.txt и две пиктограммы («Обратная связь» и «Карта сайта»). Завидное постоянство – учитывая, что пиктограммы он получал со статусом 304 Not Modified.
Как я уже писал в статье о заголовках, у меня на нескольких сайтах есть простенькая ловушка для ботов. Она пишет в логи полный набор заголовков HTTP-Request. После «вылета» захотелось проверить, хорошо ли бот посещал другие сайты. В потолстевшем логе я обнаружил существенно расширенный набор медиатипов в строке Accept. Привожу их полный список (для наглядности добавив переводы строк):
Accept:
text/html,
text/plain;q=0.1,
application/pdf;q=0.1,
application/rtf;q=0.1,
text/rtf;q=0.1,
application/msword;q=0.1,
application/x-shockwave-flash;q=0.1,
application/vnd.ms-excel;q=0.1,
application/vnd.ms-powerpoint;q=0.1,
----------------------------------------------
application/vnd.openxmlformats-officedocument.wordprocessingml.document;q=0.1,
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet;q=0.1,
application/vnd.openxmlformats-officedocument.presentationml.presentation;q=0.1,
application/vnd.oasis.opendocument.text;q=0.1,
application/vnd.oasis.opendocument.presentation;q=0.1,
application/vnd.oasis.opendocument.spreadsheet;q=0.1,
application/vnd.oasis.opendocument.graphics;q=0.1
Пунктиром отделено то место, где список кончался раньше. Хотя это и не совсем точное разделение, еще в старом списке отсутствовал тип text/plain. В запросах бота новый список медиатипов впервые был засечен 31 июля. Да, давненько я не проверял капканы...
«Ну и что?» – спросят в этом месте некоторые оптимизаторы, из тех, что первыми открывают очередную тему «Ап!!!». В самом деле, а что тут особенного, бэклинков-то от этого у них не прибавится... :-) Это правда, ребята. Бэки отсюда не растут.
Пополнение списка индексируемых типов вряд ли сильно обогатит выдачу полезным контентом. В конце концов, уважающий себя (и посетителей) вебмастер подобный контент выкладывает для скачивания в отдельном разделе, а большинство посетителей вовсе не хочет открывать в браузере все подряд. Да и не у всех в браузерах включена поддержка этого добра. Так что отчет о новых достижениях Яндекс со временем опубликует, большого фурора не произведет, будет поставлена галочка в отчетах по Public Relation.
А отладка обновленного индексатора, как и всех обновлений алгоритмов Яндекса, сопровождается обычными делами: ни с того ни с сего выпадают из индекса сайты. Часто совершенно ни в чем подозрительном не замешанные. Впрочем, это еще как сказать. Подозрительность Яндекса сильно возросла, в последнее время она начинает граничить с паранойей. Или, как минимум, шпиономанией.
О «шпионских страстях» Яндекса я подробнее расскажу как-нибудь в другой раз. Честно говоря, промолчал бы, но меня возмутила отправка запросов к сайту, грубо имитирующих переходы со страниц поисковой выдачи. Отправка с IP-адресов, зарегистрированных на Яндекс, так что отпираться бесполезно. Лгать могут люди, но не логи.
PS Да, а почему же я с ботом здороваюсь? :-) Ничего особенного, просто бот вернулся. Как раз 19 сентября, после моей злобной реплики на MasterTalk – через три с половиной часа, когда я уже вынес сайт из панели вебмастера, бот прибежал и начал интересоваться в robots.txt, что здесь можно почитать. Сейчас индексирует сайт заново, с нуля.
PPS А я уже начал было мастерить страницу с формой «Вы робот?» для поддельных переходов с выдачи. Они тоже прекратились, как по команде... Но 14-го после исчезновения сайта из индекса они еще были.