Литмир - Электронная Библиотека
Содержание  
A
A
Пример

Запросов за месяц: архитектурный — 33 779, проект — 273 903, жилого — 26 366, дома — 1 062 700.

А что бывает, когда вы ошиблись в написании слова? Мы уже говорили, что Яндекс использует при обработке запроса морфологический анализ. В результате он способен определить, что вы написали слово с ошибкой и предложить свой вариант. Например, если в нашем примере вместо слова проект мы напишем прокт, Яндекс предложит нам корректный вариант, снабдив его предположением, не опечатка ли это. Впрочем, не всегда следует пользоваться этими подсказками. В некоторых случаях некорректное написание слова было выполнено специально. К примеру, всем известно слово "агентство", но не все пишут его правильно. Очень часто это слово пишут так: агенство (по информации Яндекса, в его Индексе это слово с ошибкой встречается 7 783 366 раз, а количество запросов за месяц составило 152 952.) Если вести поиск по правильному написанию, то документы, где слово написано с ошибкой, в результаты поиска не попадут.

Есть и другие случаи, когда Яндекс воспринимает правильно написанное слово иначе, предлагая другой вариант. По всей видимости, критерием "правильно-неправильно" в данном случае служит частота употребления слова. Поэтому редко встречающиеся слова, похожие на часто употребительные, могут быть восприняты как написанные с ошибкой.

Но, конечно, далеко не всегда Яндекс может правильно определить, какое слово было задумано посетителем.

Пример

Посетитель написал слово колеки, вместо того, чтобы написать калеки. Яндекс, подумав, решил, что должно было быть написано слово колени. С точки зрения Яндекса предложенное им слово находится ближе к исходному, чем первоначально задуманное посетителем.

В том случае, если на ваш запрос ничего не было найдено, Яндекс предложит вам повторить поиск. К примеру, если поисковое выражение стояло в кавычках, будет предложено выполнить аналогичный поиск, но кавычки убрать.

Орфографическая проверка

Предположение о том, что слово в строке поиска набрано неверно, строится не на пустом месте. Определить корректность написания слов помогает орфографический словарь либо статистика написания слова, полученная в результате индексирования интернет-страниц. Однако в наши дни новые слова, названия компаний, фамилии людей появляются не по одному каждый день, и уследить за ними одному Яндексу было бы проблематично. Создать словарь, в который были бы занесены все слова русского языка, и, самое главное, поддерживать его в актуальном состоянии, не сможет ни одна команда, как бы подготовлена и обеспечена она ни была. Зачастую слова приходят из других языков, совершенно не соответствуют правилам русского языка, нечитаемые и непроизносимые. При появлении таких слов в запросах Яндекс ранее предлагал их исправить, предполагая, что человек допустил опечатку.

В 2005 году был запущен новый алгоритм, участвующий в разборе и анализе таких ситуаций. Его цель — создание словаря исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из числа наиболее распространенных в Интернете. Таким образом, появляется база пар "плохих" и "хороших" слов — слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому "народному" словарю. Набранная статистика позволяет отбирать наиболее употребляемые варианты написания слов, за счет чего и происходит поддержка орфографического словаря.

Транслитерация

Слова могут быть написаны с ошибкой, которую вы можете не заметить. Например, если в слове встречаются символы русского и английского алфавита, близкие по начертанию. Например, в слове "передача" первая буква "а" была взята из английского алфавита. Яндекс "с удовольствием" принял запрос, заменил некорректную букву на русскую "а" и в результатах поиска представил документы, содержащие корректное написание слова "передача". Самое интересное все же в том, что в этом же списке результатов могут присутствовать и документы, в которых ключевое слово написано именно так, как в вашем запросе. Аналогичным образом конвертируются слова, содержащие хотя бы одну русскую букву.

Конвертируются следующие буквы (полужирным выделены английские): e — е — ё, a — а, В — В (только прописные), c — с, g — д (только строчные), k — к, n — п (только строчные), o — о, p — р, u — и (только строчные), x — х, y — у.

Иначе обстоит дело, если слово набрано на транслите. Яндекс правильно преобразует его в слово на русском языке, например, слово "peredacha" будет представлено как "передача". При этом поиск в документах ведется по исходному слову, а русский вариант предлагается в качестве возможного в преобразовании с транслита. Если предположение Яндекса верно, щелкнув на слове передача, вы откроете страницу с результатами поиска по этому ключевому слову.

Не конвертируются слова, в которых есть хотя бы одна цифра. Например, в слове "переgача1" буква "g" не будет заменена на букву "д". Не конвертируются и слова, состоящие из одной буквы, например, предлог "c". И цифра "0" буквой "О" не заменяется. Она подпадает под предыдущее условие, что слова с цифрой не подлежат транслитерации. Обратите внимание на то, что транслитерация идет только в одном направлении — с латинского (английского) на русский. Но не обратно. И напомню, что надо делать, чтобы избежать конвертирования слова, если вам требуется поиск с точным его написанием. Для этого достаточно в поле запроса записать ключевое слово с предшествующим ему восклицательным знаком, например, так:!переgача.

Все, о чем было сказано ранее, в Яндексе называется прологом. Тем, что еще не является собственно результатом. И лишь после пролога выводится та часть, которая нам нужна более всего — результаты поиска.

Результаты поиска

Сколько бы ни было найдено документов, информация по каждому из них формируется на основе единых правил и включает одни и те же информационные блоки. Это — заголовок документа, его описание, фрагмент и статус. В свою очередь каждый из этих блоков может состоять из нескольких элементов.

Заголовок документа

Каждый результат имеет свой порядковый номер. Он служит только для удобства ориентирования на странице и иной функциональности не несет.

А вот следующая информация в заголовке результата уже имеет ценность. Это — название документа, в котором были найдены слова, входящие в запрос. Для веб-страниц название берется из тега <title>, поэтому полностью зависит от того, что в него включил разработчик. Если тег <title> не заполнен, вместо названия страницы вписывается ее адрес (URL). Для документов в других форматах название берется из их свойств, а если в свойствах файла название отсутствует, вместо него берется имя файла.

Если заголовок осмысленный, то даже по нему можно оценить соответствие найденной страницы запросу. Но могут быть и иные заголовки, не несущие какой-либо информации, например, page5. Вряд ли по этому названию удастся оценить найденное. Если в заголовок входят ключевые слова, они будут выделены в нем полужирным шрифтом.

Пример

Архитектурный проект жилого дома, 3 экземпляра, общей пл. 320.

Заголовок является ссылкой, поэтому щелчок на нем левой кнопкой мыши приведет к переходу на найденную страницу либо к загрузке файла. Будет ли ссылка открыта в этом же окне, либо в новом, зависит от настроек страницы результатов поиска.

16
{"b":"215355","o":1}