Далее эти отобранные сотни миллиардов документов выкачиваются и фильтруются еще раз – удаляются дубли, служебные файлы, поисковый спам. Остаются десятки миллиардов URL, которые затем индексируются: разбираются на слова и заносятся в базу данных поисковой системы.
Фильтрация при поиске
Следующие этапы фильтрации происходят уже после получения конкретного поискового запроса от пользователя. Суть этого этапа – найти подходящие документы-кандидаты и упорядочить их по степени релевантности запросу, то есть выполнить ранжирование. Оно происходит в два приема:
1. Черновое ранжирование: система получает из индекса списки документов со словами запроса. Это сотни тысяч или миллионы URL.
2. Чистовое ранжирование: извлекаются дополнительные характеристики каждой страницы, и специальный алгоритм вычисляет их итоговые позиции в поисковой выдаче.
В итоге остается лишь несколько тысяч наиболее подходящих документов, готовых к выводу в виде результатов поиска. Однако на этом процесс не заканчивается. Далее происходит финальное формирование выдачи: дополнительная сортировка, добавление данных из узкоспециализированных вертикальных поисковиков, подбор цитат со словами запроса.
Итак, мы подробно разобрали, как именно функционирует поисковая машина, из каких этапов складывается сложный процесс обработки огромного количества данных и формирования максимально релевантной пользовательскому запросу выдачи.
Искусственный интеллект – основа современного поиска
Функционирование современных поисковых систем почти полностью зависит от технологий искусственного интеллекта. Понимание принципов работы искусственного интеллекта в поисковиках позволит оптимизировать ваш сайт для лучшего ранжирования в выдаче.
Искусственный интеллект отвечает за все аспекты работы поисковых систем – от выбора показываемых результатов поиска до рекомендаций по связанным запросам для дальнейшего изучения темы. Без сложных алгоритмов машинного обучения современные поисковики уже не могут эффективно функционировать. Для понимания работы ИИ в поисковиках не обязательно разбираться в деталях каждого из этих направлений. Достаточно уяснить, что на основе накопленных данных интеллектуальные алгоритмы способны самостоятельно находить закономерности, делать прогнозы и таким образом улучшать качество своей работы. Эти прогнозы могут касаться:
– выбора товара, который захочет купить пользователь;
– подбора контента исходя из предпочтений пользователя;
– предугадывания запроса или ответа на заданный вопрос.
Когда алгоритмы ИИ делают прогнозы, они анализируют результаты и таким образом учатся, чтобы в будущем выдавать более точные предсказания.
Мы видим это на примере таких сервисов, как Gmail. Несколько лет назад алгоритм Smart Compose умел предугадывать лишь отдельные слова и фразы в письмах пользователей. На основе анализа миллиардов электронных писем сервис научился предлагать варианты целых предложений. Сегодня подобные алгоритмы ИИ уже настолько продвинуты, что могут самостоятельно генерировать полноценные статьи.
Эта способность к обучению отличает технологии искусственного интеллекта от традиционных программ, не использующих машинное обучение. Именно благодаря алгоритмам ИИ стало возможным обрабатывать огромные объемы данных в поисковых системах и выдавать результаты практически мгновенно. Поэтому сегодня искусственный интеллект лежит в основе работы практически всех компонентов поисковых систем – от индексации страниц до выбора результатов для конкретного пользовательского запроса.
Как используется искусственный интеллект в поисковых системах?
Практически каждый аспект работы поисковиков напрямую зависит от технологий искусственного интеллекта. Рассмотрим основные области использования ИИ.
Ранжирование результатов поиска
Основная задача, которую решают алгоритмы ИИ в поисковых системах, – это ранжирование сайтов и другого контента в результатах поиска. Google и другие поисковики используют сложные нейронные сети, чтобы оценить релевантность той или иной страницы запросу пользователя. Эти интеллектуальные алгоритмы анализируют десятки факторов – от ключевых слов до удобства использования сайта.
Несмотря на то что Google публикует основные рекомендации для вебмастеров, точный алгоритм работы системы ИИ остается закрытым. Поэтому большая часть оптимизации для поисковиков (SEO) направлена как раз на изучение принципов работы этих алгоритмов.
Контроль качества результатов поиска
Ранее некоторые вебмастера использовали спорные методы оптимизации, чтобы незаслуженно занимать высокие позиции в поиске. К таким методам относятся, например, накрутка ключевых слов, скрытый текст на страницах, невидимый пользователю контент. Сегодня алгоритмы ИИ помогают поисковым системам отличать качественный контент от спама и недобросовестной оптимизации. Регулярные обновления алгоритмов направлены как раз на повышение релевантности результатов поиска для конечных пользователей.
Голосовой поиск и поиск по изображениям
Благодаря достижениям в области обработки естественного языка и распознавания образов стало возможным использование голосовых и визуальных запросов в поисковых системах. Интеллектуальные алгоритмы распознают речь пользователя в режиме реального времени и переводят ее в текстовый поисковый запрос. Аналогично происходит распознавание изображений с последующим подбором релевантных визуальных результатов.
Конечно, влияние технологий ИИ на работу поисковых систем гораздо шире. Но эти примеры демонстрируют ключевую роль искусственного интеллекта в обработке поисковых запросов и выдачи результатов.
Как Google использует технологии искусственного интеллекта?
Чтобы лучше понять принципы работы ИИ в поисковых системах, разберемся с использованием интеллектуальных алгоритмов в Google.
Говоря об алгоритме Google, люди обычно имеют в виду систему ранжирования результатов поиска. Многие владельцы сайтов внимательно следят за всеми обновлениями этого алгоритма, которые влияют на их трафик. Однако на самом деле речь идет не об одном, а о множестве алгоритмов искусственного интеллекта. Все они определяют, какие именно сайты будут показаны пользователю и в каком порядке.
Полной картины работы этих интеллектуальных алгоритмов нет ни у кого, кроме самой компании Google. Тем не менее, можно выделить ключевые принципы:
1. Система ИИ Google нацелена на максимально точный результат для каждого конкретного запроса. Это значит – наиболее полезный для пользователя ответ и лучший пользовательский опыт.
2. В обозримом будущем обойти алгоритм можно будет только создавая высококачественный контент для реальных людей.
3. RankBrain и BERT – ключевые элементы ИИ в поиске Google.
RankBrain – это компонент искусственного интеллекта, который помогает системе понимать контекст запроса и связанные с ним темы. Благодаря этому Google избегает ошибок при обработке разных по смыслу запросов, совпадающих по написанию.
BERT (Bidirectional Encoder Representations from Transformers) – еще одна важная технология ИИ в поиске Google. Она позволяет анализировать смысл и цель запроса на основе взаимосвязей между всеми словами в предложении. До появления BERT система обрабатывала слова в запросе по отдельности, по порядку. Это давало формально правильный, но не всегда релевантный результат. BERT же учитывает весь контекст предложения, что позволяет выдавать гораздо более релевантные результаты.
4. MUM – перспективная технология ИИ для поиска.
Еще одна многообещающая разработка в области ИИ для поисковиков – это MUM (Multitask Unified Model). Эта технология представляет собой более мощную версию BERT, которая лучше понимает контекст, намерения пользователя, умеет обрабатывать запросы на разных языках.
Как искусственный интеллект влияет на поисковую оптимизацию (SEO)?
Повышение роли искусственного интеллекта в работе поисковиков влечет за собой существенные изменения и для оптимизации сайтов под них. Как технологии ИИ отражаются на SEO?