На фоне дорвейщиков «белые оптимизаторы» выглядят поистине рыцарями на конях соответствующего оттенка. Они используют правила игры, установленные поисковиками, и применяют свои знания, по возможности, с минимальными потерями для клиента. Оптимизаторы тоже создают сайты для раскрутки других сайтов, но делают они это более кропотливо и с «долгоиграющими» перспективами. Так, если дорвей – это, как правило, сайт с бессмысленным набором слов на заданную тематику (для этого обычно используется знаменитый генератор Маркова), то оптимизатор не поленится и создаст вполне читаемый сайт, к содержимому которого нельзя будет применить понятие «чистый поисковый спам».
В общем, основная разница между двумя профессиями в том, что на дорвейщиков идет постоянная охота, и им нужно постоянно плодить новые сайты, быстрее, чем будут убивать (с точки зрения PR) старые. «Принцип таракана»: убегать и плодиться быстрее, чем давят. Оптимизаторы работают на будущее, вкладывают в сайты на порядок больше усилий, но и получают более «долгоиграющие» механизмы. Впрочем, они столь же, по сути, бесполезны: как те, так и другие перекачивают воздух. Дешевые способы раскрутки дадут дешевый эффект, законы сохранения энергии еще никто не отменял. А гении в этой профессии, как и в любой другой, встречаются редко. (Впрочем, история знает примеры самораскрутки сайтов с помощью простейших гениальных идей. Задание для самостоятельного исследования: The very last page of the Internet, HotOrNot.com, MillionDollarHomePage.com. Почитайте истории об этих проектах.)
И еще об оптимизации. Один из дурных приемов поискового спама – «невидимый текст». Суть его в том, что часть страницы отводится под мелкий (а иногда и крупный) текст, написанный тем же цветом, что и фон под ним. Увидеть его можно, только выделив содержимое страницы мышкой или сочетанием Ctrl+A, что делают немногие. Поисковик же, если он не оснащен средствами проверки текста на видимость, может посчитать, что страница эта просто кишит нужным словосочетанием, и вывести ее в топ. Классический пример – страница, иллюстрирующая данное явление – spam-page.narod.ru.
А теперь… барабанная дробь, господа… На сцену выходит Google… Ему предлагают запрос «невидимый текст»… Enter… Что же мы видим первой ссылкой? О, чудо! Это… spam-page.narod.ru! И вовсе не очевидно, баг ли это Google или усмешка его охотников на ведьм.
Поиски в прошлом
Наиболее странным и полезным сервисом, основанным на тех же поисково-бродильных технологиях, можно считать archive.org. Этот сайт позволяет заглянуть в прошлое Сети. Так, если с помощью других поисковых машин вам встретится упоминание интересного ресурса, которого больше не существует, смело идите на Аrchive.org (полностью сервис называется Internet Archive – Wayback Machine, то есть машина-времени-в-прошлое), предварительно вооружившись нужной ссылкой. Скорее всего, если только владельцы ресурса предварительно не запретили индексирование сайта с помощью файла robots.txt, вы найдете одну или несколько его сохраненных версий. Вероятно, даже сможете, прослезившись, найти там свою домашнюю страницу образца какого-нибудь 1997 года. Вот только один вопрос беспокоит нас уже много лет: где эти ребята берут столько места на винчестерах? И кто за это платит?
Поваренная книга анархиста
С помощью поисковых машин можно готовить и атаки на тот или иной сайт. Не будем превращать материал в руководство к действию, но перечислим возможности. Во-первых, исследование сайта (особенно, если его администраторы не сильно заботились о безопасности) с помощью поисковика позволит провести разведку, не прикасаясь собственно к интересующему вас объекту, то есть админ не заметит попыток взлома, даже изучив логи. Google ведь безопасен, правда?
Так, часто используют кэш Google, в котором можно найти много любопытных сохраненных страниц определенного сайта (например, со словом login); используется поиск related (похожих) страниц – например, страницы, похожие на главную, могут лежать на сайте неспроста.
Карта сайта, показываемая Google-командой site, откроет вам много любопытных страниц, ссылок на которые уже нет. Поиск страниц с незащищенным списком файлов по ключам index of или parent directory даст знающему человеку определенные козыри. Наконец, найдя ошибку в каком-либо популярном скрипте, с помощью поисковика можно найти его копии на других серверах.
Помнить об этих возможностях полезно не только малолетним «кулхацкерам», но и всем, кто так или иначе связан с администрированием сайтов, – с помощью поисковой машины вы найдете потенциальные уязвимости раньше, чем до них доберутся другие.
Вместо заключения
Не знаю, бывают ли хорошие монополисты, и не знаю, хочу ли это узнать. Но 70% рынка поиска, принадлежащие Google, внушают уже не только трепет, но и опасения. С другой стороны, Microsoft давно грозится выпустить обновленную версию MSN, которая будет поисковиком не хуже Google, и не факт, что у Редмонда это не получится.
Google обычно старается не комментировать планы на будущее, и оттого пофантазируем.
Грядет Интернет-2, IPv6, о которых мы уже писали в ДК #12_2005. Интернет со скоростью мысли не может остаться без последствий: скорее всего, сервисы Google Maps/Google Earth рано или поздно станут сервисами реального времени, и мы будем смотреть не на снимки нашей планеты трехлетней давности, а на реальную картинку в данную секунду – ведь это дело техники и трафика. Вслед за этим должны появиться сервисы поиска «картинки по картинке» – я показываю образец, поисковая машина приносит мне все, что на него похоже. (Некоторые реализации этого сервиса уже есть – например, WhatTheFont , который по картинке может определить гарнитуру и производителя неизвестного вам шрифта.) Поиск «картинки по картинке» может в сочетании с Google Maps стать поиском человека/строения/местности на карте планеты.
С запросами «простым языком» все плохо. Во-первых, синтез речи сделан давным-давно, а ее распознавание все еще, прямо скажем, – нерешенная задача. Во-вторых, ситуация с ребрендингом Дживса (см. выше) настораживает.