SEO-Курсы от новичка до профессионала

Как работает поисковая система

Средний
Акулов Максим
Cооснователь Российской школы SEO

На момент зарождения интернета (конец 90-ых годов) число сайтов измерялось сотнями. В 2012 году эта цифра составляла более 1 млн. в день. На 2018 год в сети появляются более 47 млн. сайтов каждый месяц. Как поисковые системы способны найти, обработать и предоставлять их пользователю? В данной статье разложим пошагово все компоненты от момента регистрации домена до появления страниц в результатах выдачи.

Роботами будем называть специальные программы поисковых систем, которые способны самостоятельно находить информацию о web-сайтах в интернете и обрабатывать её на основе заложенных алгоритмов.

Давайте разделим весь процесс работы поисковика с сайтом на несколько отдельных этапов, которые идут друг за другом:

  • Включение домена в базу робота.
  • Получение информации о страницах, расположенных на домене.
  • Обработка контента на этих страницах.
  • Сортировка и публикация web-документа в результатах поисковой выдачи.

Как поисковик узнает о новом домене

Несмотря на широкие возможности, робот может долго не знать о существовании вашего сайта. Для сбора данных поисковик использует различные ресурсы, один из которых, рано или поздно, даст знать о появлении нового сайта. Какие же ресурсы используют поисковый робот для сканирования интернета:

  • Ссылки с уже известных доменов;
  • Действия пользователей (e-mail переходы из почт, социальных сетей, рекламных площадок, мессенджеров и любые переходы, которые можно отследить);
  • Браузеры (Яндекс.Браузер, Google Сhrome и другие собирают анонимные данные о пользователях для собственной статистки);
  • Установка сервисов поисковых систем (Яндекс.Метрика, Google Analytics и т.д.);
  • Выдача других поисковиков, в которых уже появился сайт.

Ссылки между сайтами

Вариантов мониторинга очень много. Но самый верный способ сообщить о новом сайте – добавить его в вебмастер того поисковика, в котором сайт должен отображаться. Например, для Яндекса это webmaster.yandex.ru, а для google - google.ru/webmasters. После добавление в течение 1-7 дней робот обязательно посетит страницы сайта.

Процессом сканирования ссылок в интернете занимаются пауки (веб-паук, веб-краулер, бот, web-crawler) – специализированные программы, которые переходят по всем доступным страницам на домене и отправляют найденные URL-адреса в основную часть поискового робота для последующего анализа. Краулер не занимается обработкой контента самостоятельно. Цели веб-паука:

  • Найти все возможные адреса страниц;
  • Отправить новые страницы для последующего анализа в поисковую базу;
  • Если старые страницы были изменены с момента последнего захода, то также отправить для анализа;
  • Помимо обхода задача веб-краулера – сохранить ресурс анализатора. Поэтому он должен четко определить, что текущая версия страницы уже есть в базе, и не нужно её отправлять повторно.

Стартовая панель - Яндекс.Вебмастер

Стартовая страница - Яндекс.Вебмастер

Стартовая панель - Google.Search.Console

Стартовая страница - Google.Search.Console

Как происходит добавления страниц сайта в базу поисковика

Когда поиск знает о существовании домена, то с определенной периодичностью робот будет сканировать и индексировать его.

Индексирование – процесс обработки страниц сайта с целью последующего добавления новых страниц или обновлённых старых в поисковую выдачу. Во время анализа робот оценивает вероятность попадания страницы в зону видимости для пользователя.

На старте все сайты получают примерно равные квоты на частоту сканирования (переобхода страниц). Со временем для постоянно обновляемых ресурсов квота расширяется, и роботы чаще посещают сайт. Для менее обновляемых сайтов эта квота снижается. Поэтому так важно проводить постоянно хотя бы в минимальных количествах изменения на домене.

О новых или измененных страницах поисковик узнает, используя те же способы, что и для поиска доменов. Но к ним добавляются:

  • Внутренние ссылки между страницами индексируемого сайта;
  • XML-карта (sitemap.xml) – страница внутри сайта, содержащая дерево ссылок на все полезные URL-адреса;
  • Ручное добавление новых url-адресов в вебмастер.

Работая с вышеуказанными инструментами, мы можем напрямую влиять на частоту индексирования нашего сайта.

Анализ контента. Прогноз попадания страницы в выдачу

Когда страница находится в базе поисковика, ему нужно оценить – насколько текущая версия будет полезна для пользователей. Обработкой и прогнозом занимается анализатор - обособленная часть поисковой системы. Если страница признается полезной, то в ближайшие текстовые апдейты она появится в результатах органической выдачи.

Апдейт в seo – обновление поисковой выдачи. Она может обновлять в результате пересчета уже имеющихся данных о страницах, либо в результате добавления новых URL-адресов. Только во время текстового апдейта ранее не добавленная страница может попасть в выдачу.

Почему страница может не попасть в поисковый индекс – причин много, но вот самые основные из них:

  • контент частично или полностью дублируется с другими страницами в поисковой базе;
  • бесполезный, малоинформативный контент на странице;
  • контент насыщен рекламой;
  • страница содержит очень мало текстового контента.

Яндекс.Вебмастер - отклоненные страницы

Отклоненные страницы - Яндекс

Ранжирование результатов выдачи

Робот узнал о странице и проанализировал её содержание. Но помимо этого URL-адреса в выдаче еще десятки, сотни или тысячи похожих страниц. Поэтому существует процесс ранжирования и группа факторов, влияющих на этот процесс.

Ранжирование – сортировка результатов поисковой выдачи на основе неких факторов. В разных поисковиках свои факторы ранжирования, но они все очень похожи. Их задача – посредством математических алгоритмов рассчитать полезность страницы для пользователя в рамках конкретного запроса. На 2018 год представители поисковиков заявляют о сотнях факторов.

Каждый раз при обновлении поисковой базы робот производит пересчет значений сайта для последующего ранжирования, поэтому после апдейтов позиции сайта изменяются.

Итоговая цепочка появления страницы в выдачи выглядит так:

1. Добавление в базу поисковика информацию о новом домене.
2. Сканирование и добавление новых URL-адресов для последующей обработки.
3. Анализ контента новых страниц – добавление/отклонение URL в поисковый индекс.
4. Расчет качества страницы и появление в результатах выдачи на определенных позициях.


Публикации раздела