✍ На заметку
Данное правило является частным случаем другого, более универсального, принципа, который звучит так: «Пользователи и поисковые системы должны видеть одинаковый контент». Если на сайте возникают страницы, содержимое которых нецелесообразно индексировать поисковому роботу, необходимо задуматься о том, а стоит ли их «индексировать» пользователям сайта и какое впечатление такие страницы на них произведут? Не проще ли просто их убрать?
Остается добавить, что использование данного тега для управления индексированием менее предпочтительно по сравнению с правильным формированием файла robots.txt (о нем мы поговорим позже).
10. Поиск и устранение дублей
Идентичный (дублированный) контент на разных страницах сайта может привести к ошибкам индексации и даже свести на нет все усилия по продвижению. Чем опасны дубликаты и почему от них стоит избавляться?
Во-первых, на дубли уходит часть статического веса, а неправильное распределение веса ухудшает ранжирование целевых разделов сайта.
✍ На заметку
Статический вес – это один из важных параметров, влияющих на продвижение сайта в целом и конкретной страницы в частности. Вес определяется количеством и качеством ссылающихся на страницу документов (в основном, html-страниц, но учитываются еще pdf и doc-файлы, а также другие распознаваемые поисковиками документы с гиперссылками).
Во-вторых, на дубли тратится часть драгоценного краулингового бюджета. Особенно остро эта проблема стоит для крупных информационных и e<ommerce (онлайн-торговля) проектов.
✍ На заметку
В Интернете триллионы веб-страниц, и каждый день появляются сотни миллионов новых веб-страниц. В этой связи перед поисковыми системами стоит серьезная проблема: как успевать обходить, скачивать и ранжировать все это огромное хозяйство.
Для обхода страниц используются роботы. Поисковый робот («веб-паук», «краулер») – программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета и занесения информации о них в базу данных. Очевидно, что каким бы мощным и быстрым не был краулер, скачать единовременно все обновления со всех сайтов у него не получится.
Из-за этого паук скачивает сайты постепенно, небольшими «порциями», например, по нескольку десятков или сотен страниц в день. Размер этой порции на профессиональном сленге специалистов по продвижению и называется краулинговым бюджетом.
По сути, бюджет – это то количество страниц сайта, которое обновится в базе поисковика за определенный период. Чем больше бюджет, тем лучше, так как при большом бюджете можно быть уверенным, что все изменения на сайте быстро попадут в базу данных поисковика.
Краулинговый бюджет зависит от многих факторов (уровня траста, размера сайта, частоты обновления, тематики, региона) и рассчитывается по специальному алгоритму. Самостоятельно увеличить его на нужную величину довольно сложно.
Поэтому при продвижении сайта стоит обратная задача: вместить в имеющийся бюджет все изменения, которые произошли на сайте. Для этого применяется комплекс мер, от удаления дублей до управления индексацией с помощью служебных файлов. Все эти меры мы последовательно рассмотрим на страницах данной книги.
Остается добавить, что получить представление о краулинговом бюджете для продвигаемого сайта можно с помощью статистики, которую предоставляют поисковые системы в панелях для веб-мастеров, или анализа логов сервера.
В-третьих, из-за ошибок в алгоритмах поисковых систем после очередного обновления поискового индекса дубль может заменить в выдаче целевую страницу. Как правило, после этого позиции сайта в выдаче существенно ухудшаются.
Но даже если этого не произойдет, может возникнуть ряд негативных эффектов: например, падение конверсии[26] и накопление поведенческой статистики на неправильной странице. Целевая страница при этом может вообще пропасть из индекса (в самом деле, зачем держать в базе несколько копий одной и той же страницы?).
В-четвертых, может возникнуть ситуация, когда поисковая система не сможет разобраться, какой из дублей следует считать основным. В этом случае алгоритм понизит обе страницы (и сайт в целом) в результатах выдачи.
Причины возникновения дублей и методы их обнаружения
Причины возникновения дублей могут быть разными:
1. Дубли штатно или по ошибке может генерировать движок сайта. Например, дублями могут быть страница и ее версия для печати, встречаются дубли главной страницы (site.ru и site.ru/index.php) или одинаковые страницы с разными расширениями (.php и. html).
2. Дубли могут возникнуть из-за невнимательности вебмастера (после изменения адреса страницы она становится доступна и по старому, и по новому URL).
3. Дубли могут генерироваться из-за дизайнерских или контентных особенностей проекта (в интернет-магазинах часто похожие товары отличаются лишь очень кратким описанием или несколькими техническими параметрами).
Для обнаружения дубликатов есть множество эффективных инструментов:
1. Панели для веб-мастеров поисковых систем[27]. С помощью этих веб-сервисов также можно следить за скачиваемыми страницами и находить дубли.
2. Расширенный поиск в поисковых системах. Для Гугла можно использовать site: имя_хоста[28]. В Яндексе можно смотреть индекс по отдельным разделам с помощью url: имя_хоста/категория/*[29] (для этого же можно использовать оператор inurl).
3. Специальные сервисы и программы. Например, можно воспользоваться программой XENU[30], а также некоторыми распространенными веб-сервисами, информацию о которых легко найти в Сети (см. рис. 2 на с. 54).
Устранение дублей может быть сложным и зачастую требует творческого подхода. Однако есть направления, которые однозначно стоит проверить.
Ошибки движка сайта
Разберем типичные ошибки работы движка сайта, которые приводят к появлению дублей:
1. Движок сайта не генерирует 301 редирект при смене адреса страницы (этот редирект либо нельзя поставить вообще, либо нужно ставить в ручном режиме, о чем легко забыть). Данный недостаток легко устранить на программном уровне.
Рис. 2. Результаты сканирования сайта программой XENU: интерфейс безнадежно устарел, но функционал остается полезным при выполнении практических задач
2. Движок отображает один и тот же контент по разным адресам:
a. Разные страницы могут возникать при перестановке частей URL-адреса. Например, одинаковый контент выводится на страницах site.ru/cars/volvo и site.ru/volvo/cars.
b. Отображение страницы происходит при частичном вводе адреса, например по URL site.ru/sumki/cristina-agilera и site.ru/sumki/cristina.
c. Одна и та же страница может отображаться в разных категориях. Особенно это актуально для карточек товаров в интернет-магазине: site.ru/moto/sc-234 и site. ru/moto-s-pricepom/sc-234. Проще всего решить эту проблему, присвоив каждой карточке раз и навсегда свой уникальный адрес.
3. Движок сайта может генерировать сессионные переменные в адресе страниц. Ниже мы разберемся с этим вопросом подробнее.