Им же приводятся и такие рекомендации относительно структуры внутренних связей страниц на сайте:
□ там, где группа страниц может содержать внешние ссылки, используйте иерархическую структуру;
□ там, где группа страниц не содержит внешних ссылок, используйте структуру с обширными связями, расширив ее добавлением ссылки на главную страницу;
□ если конкретная страница особенно важна, помещайте ее выше в иерархической структуре.
Но сколько бы ни приводилось рекомендаций, лучше понять механизм индекса цитирования удастся тогда, когда вы на практике будете пробовать различные варианты воздействия на него. Сделать это легче всего на моделях, а не на реальных объектах. Для этого можно воспользоваться моделью Александра Садовского (http://digits.ru/promotion/articles/pagerank.xls) или Марка Хоррэла (http://www.nri-ltd.com/pagerank.asp).
9.4. Факторы, влияющие на ранжирование
В ряде опубликованных в Интернете статей: "118 факторов ранжирования в Google"(http://webest.info/seo/google/google-pr-ratings.php), "Факторы, влияющие на ранкинг в поисковой системе" (http://www.master-x.com/articles/ printmode.html?id=270) была сделана попытка собрать и классифицировать известные факторы, учитываемые поисковой системой Google при ранжировании сайтов. Не эти, но подобные факторы могут учитываться при ранжировании и другими поисковиками. Об отдельных факторах, влияющих как на индекс цитирования, так и на ранжирование сайта в результатах поиска, говорится в статьях, опубликованных и на сайте Яндекса в разделе "О компании" (http://company.yandex.ru/).
В чем бы ни заключались различия в подходах к определению релевантности различными поисковыми системами, существуют и общие факторы, оказывающие как положительное, так и отрицательное влияние на формируемые результаты поиска.
Остановимся вначале на проблемах, связанных с невозможностью выполнения индексации сайта и, соответственно, невозможностью корректно рассчитать значение его индекса цитирования.
Одним из камней преткновения при индексировании сайта может оказаться неправильно сформированный файл robots.txt, с помощью которого можно ограничить доступ поисковых роботов к разделам сайта.
На индексацию сайтов отечественными поисковиками (Яндекс и Рамблер) оказывает влияние тег <noindex> </noindex>. Все, что будет размещено на странице внутри этого тега, не индексируется (зарубежные поисковики на этот тег внимания не обращают). С другой стороны, этот тег может быть использован для манипулирования распределением на странице ключевых слов.
Хотя поисковым системам уже немало лет, но индексировать скрипты, написанные на Java-script и Vbscript, они еще не научились. Тем более те, что исполняются на стороне клиента. Поэтому переход по ссылке, формируемой в процессе загрузки страницы, робот не отследит. В лучшем случае, робот проиндексирует скрипт как обычный текст.
Аналогичная ситуация сложилась и вокруг выпадающих меню, выполненных по технологии DHTML. Помимо причин, аналогичных взаимоотношению паука и скриптов, меню на DHTML имеет и дополнительную проблему. Заключается она в том, что часто код меню размещается во внешних файлах, а некоторые поисковые роботы такую систему формирования структуры ссылок не поддерживают.
Многие сайты, разработанные на технологиях ASP, PHP, Cold Fusion или JSP, формируют динамические адреса страниц. Порой их сложно отличить от статических, но многие пауки считают динамическими адресами те, в которых присутствует знак вопроса или они имеют расширение, отличное от htm или html, например php, jsp, pl и др. В строке динамического адреса могут находиться несколько параметров со своими значениями. Некоторые поисковые роботы будут обрабатывать такие адреса, если количество параметров не превышает некоторого определенного числа. Другие — вообще не будут обрабатывать такие адреса. Третьи обработают лишь часть адресов в количестве, не превышающем некоторого значения. Следовательно, сайты, адреса страниц на которых определяются динамически, могут "выпасть" из индекса поисковой системы вне зависимости от их качества.
Мешают корректному процессу индексирования неверные отклики сервера. Проявляться это может, например, в том, что сервер выдает код 200 (Ok) для несуществующих страниц, либо возвращает код 301 (перемещено), 302 (временно перемещено), 404 (не найдено). В последних трех случаях страницы роботом не индексируются, а если они уже были в индексе, то удаляются из него.
Обратите внимание на размер страницы. Практика показывает, что роботы индексируют только определенное количество первых килобайтов кода. Например, робот Google добавляет в индекс первые 101 Кбайт, робот Яндекса — не более 200 Кбайт. Поэтому большие тексты для полноценного индексирования лучше разбивать на части.
Если обратиться к Яндексу, то рекомендую прочитать ответы Александра Садовского на вопросы, заданные ему на форуме www.searchengines.ru в ходе пресс-конференции. В частности, были затронуты вопросы влияния внешних факторов на индексирование сайтов. Например, очень жесткое отношение у Яндекса к сайтам-сателлитам, созданным специально для роботов. Такие сайты определяются с помощью специальных алгоритмов, позволяющих найти их и исключить из индекса.
На вопрос о влиянии хостинговой площадки на процесс индексирования и получаемый размещенным на площадке сайте "вес", Александр ответил:
Яндекс не выдвигает требований к хостингам, и сайты на любой площадке, которые отвечают нашему роботу, индексируются одинаково быстро. Тем не менее можно сформулировать рекомендации общего характера.
• При выборе хостера обращайте внимание на стабильность работы его оборудования (для этого можно воспользоваться такими сервисами, как http://www.uptime.ru/, http://www.uptime.org.ua/ и др.); ширину канала на Россию, если серверы расположены вне РФ; загрузку сервера, на котором будут работать ваши скрипты. Все это в той или иной мере определяет возможность робота "достучаться" до сайта.
9.4.1. Пессимизация и баны
Теперь можно ввести еще один термин, связанный с результатами ранжирования сайтов. Это — пессимизация, разновидность наказания сайта поисковой системой, которая проявляется в необычно низком ранжировании сайта. Вот какое определение было дано в 2005 году этому явлению:
Пессимизация — это принудительное занижение поисковой системой позиций некоторого сайта по ключевым запросам.
Термин "пессимизация" был придуман разработчиками поисковой системы Рамблер. В Рунете этот термин был официально упомянут в 2003 году при обсуждении принципов работы Рамблера. Другие поисковые системы официально о пессимизации не заявляли (http://www.seonews.ru/masterclass/9/34/).
С тех пор прошло довольно много времени, и о пессимизации говорят не только на Рамблере. Отвечая на вопросы, Александр Садовский так охарактеризовал пессимизацию:
Пессимизацию можно рассматривать как понижение в результатах поиска сайта и/или его страниц за некачественную информацию или использование обманных техник. Например, если сайт активно участвует в ссылочных обменах, "линкаторах" и другими способами ссылается на "накрученные" ресурсы и спам, он может быть автоматически пессимизирован.
Пессимизация может применяться как к сайту в целом, так и к его отдельным разделам и страницам. Устранение причины, приведшей к автоматической пессимизации, возвращает сайту нормальные позиции тоже автоматически.
Процесс пессимизации на Яндексе можно условно разделить на автоматический и ручной. При автоматической пессимизации специальный робот выполняет проверку страниц, помещенных в Индекс, для выявления чрезмерно оптимизированных страниц. В случае их выявления, им присваивается коэффициент пессимизации, отрицательно сказывающийся на ранжировании. Этот коэффициент будет также автоматически убран в том случае, если при очередном посещении сайта роботом поисковой системы факторы, определявшие чрезмерную оптимизацию сайта, будут со страницы удалены.