Как работает поисковая система

Средний

Акулов Максим
Cооснователь Российской школы SEO

На момент зарождения интернета (конец 90-ых годов) число сайтов измерялось сотнями. В 2012 году эта цифра составляла более 1 млн. в день. На 2018 год в сети появляются более 47 млн. сайтов каждый месяц. Как поисковые системы способны найти, обработать и предоставлять их пользователю? В данной статье разложим пошагово все компоненты от момента регистрации домена до появления страниц в результатах выдачи.

Роботами будем называть специальные программы поисковых систем, которые способны самостоятельно находить информацию о web-сайтах в интернете и обрабатывать её на основе заложенных алгоритмов.

Давайте разделим весь процесс работы поисковика с сайтом на несколько отдельных этапов, которые идут друг за другом:

Включение домена в базу робота.
Получение информации о страницах, расположенных на домене.
Обработка контента на этих страницах.
Сортировка и публикация web-документа в результатах поисковой выдачи.

Как поисковик узнает о новом домене

Несмотря на широкие возможности, робот может долго не знать о существовании вашего сайта. Для сбора данных поисковик использует различные ресурсы, один из которых, рано или поздно, даст знать о появлении нового сайта. Какие же ресурсы используют поисковый робот для сканирования интернета:

Ссылки с уже известных доменов;
Действия пользователей (e-mail переходы из почт, социальных сетей, рекламных площадок, мессенджеров и любые переходы, которые можно отследить);
Браузеры (Яндекс.Браузер, Google Сhrome и другие собирают анонимные данные о пользователях для собственной статистки);
Установка сервисов поисковых систем (Яндекс.Метрика, Google Analytics и т.д.);
Выдача других поисковиков, в которых уже появился сайт.

Ссылки между сайтами

Вариантов мониторинга очень много. Но самый верный способ сообщить о новом сайте – добавить его в вебмастер того поисковика, в котором сайт должен отображаться. Например, для Яндекса это webmaster.yandex.ru, а для google - google.ru/webmasters. После добавление в течение 1-7 дней робот обязательно посетит страницы сайта.

Процессом сканирования ссылок в интернете занимаются пауки (веб-паук, веб-краулер, бот, web-crawler) – специализированные программы, которые переходят по всем доступным страницам на домене и отправляют найденные URL-адреса в основную часть поискового робота для последующего анализа. Краулер не занимается обработкой контента самостоятельно. Цели веб-паука:

Найти все возможные адреса страниц;
Отправить новые страницы для последующего анализа в поисковую базу;
Если старые страницы были изменены с момента последнего захода, то также отправить для анализа;
Помимо обхода задача веб-краулера – сохранить ресурс анализатора. Поэтому он должен четко определить, что текущая версия страницы уже есть в базе, и не нужно её отправлять повторно.

Стартовая панель - Яндекс.Вебмастер

Стартовая страница - Яндекс.Вебмастер

Стартовая панель - Google.Search.Console

Стартовая страница - Google.Search.Console

Как происходит добавления страниц сайта в базу поисковика

Когда поиск знает о существовании домена, то с определенной периодичностью робот будет сканировать и индексировать его.

Индексирование – процесс обработки страниц сайта с целью последующего добавления новых страниц или обновлённых старых в поисковую выдачу. Во время анализа робот оценивает вероятность попадания страницы в зону видимости для пользователя.

На старте все сайты получают примерно равные квоты на частоту сканирования (переобхода страниц). Со временем для постоянно обновляемых ресурсов квота расширяется, и роботы чаще посещают сайт. Для менее обновляемых сайтов эта квота снижается. Поэтому так важно проводить постоянно хотя бы в минимальных количествах изменения на домене.

О новых или измененных страницах поисковик узнает, используя те же способы, что и для поиска доменов. Но к ним добавляются:

Внутренние ссылки между страницами индексируемого сайта;
XML-карта (sitemap.xml) – страница внутри сайта, содержащая дерево ссылок на все полезные URL-адреса;
Ручное добавление новых url-адресов в вебмастер.

Работая с вышеуказанными инструментами, мы можем напрямую влиять на частоту индексирования нашего сайта.

Анализ контента. Прогноз попадания страницы в выдачу

Когда страница находится в базе поисковика, ему нужно оценить – насколько текущая версия будет полезна для пользователей. Обработкой и прогнозом занимается анализатор - обособленная часть поисковой системы. Если страница признается полезной, то в ближайшие текстовые апдейты она появится в результатах органической выдачи.

Апдейт в seo – обновление поисковой выдачи. Она может обновлять в результате пересчета уже имеющихся данных о страницах, либо в результате добавления новых URL-адресов. Только во время текстового апдейта ранее не добавленная страница может попасть в выдачу.

Почему страница может не попасть в поисковый индекс – причин много, но вот самые основные из них:

контент частично или полностью дублируется с другими страницами в поисковой базе;
бесполезный, малоинформативный контент на странице;
контент насыщен рекламой;
страница содержит очень мало текстового контента.

Яндекс.Вебмастер - отклоненные страницы

Отклоненные страницы - Яндекс

Ранжирование результатов выдачи

Робот узнал о странице и проанализировал её содержание. Но помимо этого URL-адреса в выдаче еще десятки, сотни или тысячи похожих страниц. Поэтому существует процесс ранжирования и группа факторов, влияющих на этот процесс.

Ранжирование – сортировка результатов поисковой выдачи на основе неких факторов. В разных поисковиках свои факторы ранжирования, но они все очень похожи. Их задача – посредством математических алгоритмов рассчитать полезность страницы для пользователя в рамках конкретного запроса. На 2018 год представители поисковиков заявляют о сотнях факторов.

Каждый раз при обновлении поисковой базы робот производит пересчет значений сайта для последующего ранжирования, поэтому после апдейтов позиции сайта изменяются.

Итоговая цепочка появления страницы в выдачи выглядит так:

1. Добавление в базу поисковика информацию о новом домене.
2. Сканирование и добавление новых URL-адресов для последующей обработки.
3. Анализ контента новых страниц – добавление/отклонение URL в поисковый индекс.
4. Расчет качества страницы и появление в результатах выдачи на определенных позициях.

Публикации раздела

Какая CMS-система подходит для сайта