Литмир - Электронная Библиотека
Содержание  
A
A

2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то вы получите документы, в которых содержится хотя бы одно из этих слов. Если нет специальных ограничительных оговорок, то документы, где оба эти слова присутствуют, также будут найдены.

Например, по запросу собака ИЛИ кошка будут найдены документы, исключенные в прошлом запросе и содержащие тексты «кошка отдыхала» или «корм для собак», а также документ, в котором есть предложение «Собака гналась за кошкой».

3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, которые вы хотите включить в запрос, то оператор «НЕ», наоборот, слова из запроса исключает. Те, кто впервые сталкивается с операторами запросов, нередко высказывают удивление и говорят: «Так не проще ли не включать ненужное слово в запрос? Зачем вводить дополнительный оператор?» Увы, не проще.

На самом деле, чтобы понять значение логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам надо, из имеющегося огромного, но все же конечного массива. При этом мы должны отсечь информационный мусор. Вот и отсекаем его с помощью оператора «НЕ». К сожалению, не мы решаем, будет мусор в выдаче или нет. Так, например, по запросу информации о коньке крыши неизбежно будет появляться информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут не обойтись никак.

Давайте рассмотрим примеры работы логического оператора «НЕ».

По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы, содержащие текст «кошка отдыхала» или «собака гналась за кошкой» и даже «корма для собак и кошек», из выдачи будут исключены.

Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все операторы, показанные выше. В этом случае лучше пользоваться еще одним элементом поискового запроса – круглыми скобками, которые позволяют отделять однотипные слова запроса от остальных. Кроме того, они дают возможность самому составителю визуально лучше различать разные фрагменты запроса. Покажем на конкретных примерах, как и для чего скобки используются.

Например, запрос пушистые И (собаки ИЛИ кошки) позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что глубоких знаний этой дисциплины вам не потребуется).

А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки) выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не содержится документов, в которых кошки и собаки будут упоминаться вместе.

Еще раз уточним – все поисковые машины сегодня работают на основе этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут быть различны.

Как реализуется поиск

Каждая полноценная поисковая машина располагает собственным штатом роботов, так называемых, пауков – их еще называют краулерами, спайдерами (spiders, crawlers). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая в их содержание. После этого они сбрасывают их на серверы своих хозяев и идут к следующим страницам. Паук определяет, куда ему пойти, по гиперссылке. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней, заполнив специальную форму на сайте поисковой машины.

На сервере поисковой машины текст разбивается на отдельные слова. Каждому из них присваиваются координаты, вычисляется его расположение относительно других слов на странице, и оно заносится в таблицу сервера вместе со ссылкой на тот адрес Интернета, где текст размещался в момент посещения пауком.

Сам по себе сервер поисковой машины представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Они разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.

Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.

При этом важно понять, как именно паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, он возвращается на нее, ну, например, через две недели. Если изменений там не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. Если и тогда он не увидит изменений, то следующее посещение произойдет еще позже.

Вот почему нередко бывает ситуация, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по ссылке, полученной в ответ на запрос, безрезультатна – ее может уже просто не быть на прежнем месте, но паук на нее давно не заходил, поэтому поисковая система об удалении страницы не знает. Весь комплекс процессов, описанных выше, называется индексацией.

Описание языков запросов различных поисковых машин

Умение искать информацию с помощью поисковых машин очень важно для создания и последующей раскрутки блога.

Благодаря поисковым машинам можно своевременно собирать информацию, появляющуюся в Интернете по теме, которой посвящен блог. Это, в свою очередь, дает возможность своевременно прокомментировать ситуацию и разместить на своем блоге готовый материал, предложив его вниманию читателей. Важно, что язык запросов поисковой машины работает не только при поиске во всем Интернете, но и при поиске по блогам и форумам, что значительно расширяет возможности блоггера. Несмотря на то, что принципы языка современных поисковых машин действительно одинаковы, синтаксис запросов у них различен. Некоторые операторы языка запросов универсальны, но большинство – нет.

Рассмотрим языки запросов трех основных поисковых машин, работающих с русскоязычными текстами, более подробно.

Поиск в Яндексе

Лучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс, выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его блоге в статье «Хозяйке на заметку. Поиск через Яндекс для специалистов»[19] постоянно публикуются результаты исследований, отслеживаются, оцениваются и обсуждаются изменения в работе операторов поисковой машины Яндекс (рис. 22).

Блог. Создать и раскрутить - _22.png

Рис. 22. Внешний вид страницы «Хозяйке на заметку. Поиск через Яндекс для специалистов»

Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете. При изучении этого вопроса не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос исходя из того, что он будет обработан буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая обращение к поисковой машине. Лучше всех эту мысль проиллюстрировал летом 2005 года Алексей Амилющенко, главный аналитик отдела маркетинга Яндекса, на таком примере.

Вот еще одна история с семинаров, но ее приходится рассказывать не очень часто. Иногда случается, что заходит разговор о том, что хорошо бы поисковым системам учитывать не только слова, которые есть в индексируемых документах, но и смысл написанного. В ответ говорю, что знаю фразу, про которую и человек-то не скажет, о чем это. Вот она: «Эти типы стали есть в прокатном цехе». И что тут написано? Я вижу минимум три смысла. Не подглядывайте в ответ сразу (он ниже). Попробуйте сначала самостоятельно… Обычно, когда зал видит это предложение, сначала становится тихо (видно, что думают), потом начинаются смешки (до кого-то дошло). Потом хихикают уже все. Но к делу, что же здесь все-таки написано?

1. Скучный такой вариант: «Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе».

2. Более творческий, с элементами мизантропии: «Эти типы (неприятные автору личности) стали (начали) есть (принимать пищу) в прокатном цехе».

3. Несколько надуманный, конечно, и тем не менее: «Эти типы стали (варианты металлопроката) есть (надлежит принимать в пищу) в прокатном цехе».

Вот видите, даже протеиновые мозги не справляются, а вы хотите, чтобы силиконовые умели[20].

вернуться

19

Фурсов Д. Хозяйке на заметку. Поиск через Яндекс для специалистов // www.community.livejournal.com/kubok/45852.html

19
{"b":"95894","o":1}