Краулинговый бюджет: почему Яндекс не индексирует ваши страницы

Краулинговый бюджет: почему Яндекс не индексирует ваши страницы

Вы добавили на сайт сотню новых карточек товаров, написали десяток статей в блог, а в поиске их по-прежнему нет — и так неделями. Знакомая ситуация? В девяти случаях из десяти дело не в фильтрах и не в «плохих текстах», а в банальной арифметике: робот Яндекса просто не дошёл до этих страниц. У каждого сайта есть предел того, сколько страниц поисковик готов обойти за единицу времени, — краулинговый бюджет. Если он расходуется на дубли, мусор и битые URL, важные страницы остаются за бортом индекса. В этой статье разберём, что такое краулинговый бюджет, от чего он зависит, как понять, что робот «не справляется», и что конкретно делать, чтобы Яндекс индексировал именно то, что приносит трафик и деньги.

Что такое краулинговый бюджет простыми словами

Краулинговый бюджет (crawl budget) — это количество URL вашего сайта, которое поисковый робот готов и способен обойти за определённый промежуток времени. Это не фиксированная цифра, выбитая в камне, а динамическая величина, которая складывается из двух составляющих.

  • Лимит обхода (crawl rate limit) — сколько запросов робот может отправить вашему серверу, не «уронив» его. Если сервер отвечает быстро и стабильно, робот наращивает скорость. Если ответы медленные или сыплются ошибки, частота обращений снижается, чтобы не создавать нагрузку.
  • Потребность в обходе (crawl demand) — насколько Яндексу вообще интересно переобходить ваши страницы. Здесь играют роль популярность сайта, его авторитет, частота обновления контента и то, насколько «свежей» поисковик считает имеющуюся у него копию страницы.

Простая аналогия: представьте курьера, у которого есть ровно 8 рабочих часов в день на доставку по вашему району. Если адреса разбросаны хаотично, половина квартир — это пустые подъезды и тупики, а на каждой двери его заставляют ждать по пять минут, он успеет обойти от силы треть домов. Ровно так же ведёт себя робот: его ресурс конечен, и расходуется он на всё подряд — и на нужные страницы, и на мусор.

Важно понимать: для небольшого сайта на 200–500 страниц краулинговый бюджет почти никогда не является проблемой. Робот обходит такой сайт целиком за один-два визита. Тема становится критичной для крупных проектов — интернет-магазинов с тысячами карточек, агрегаторов, новостных порталов, классифайдов, — где счёт страниц идёт на десятки и сотни тысяч.

От чего зависит размер краулингового бюджета

Бюджет не назначается случайно. Яндекс оценивает сайт по совокупности сигналов и на их основе решает, как часто и как глубоко его обходить. Ключевые факторы:

  1. Авторитетность и трастовость домена. Чем выше доверие к сайту (возраст, ссылочный профиль, история, бренд), тем щедрее робот выделяет ресурс на обход.
  2. Скорость и стабильность сервера. Быстрый отклик — прямой сигнал, что можно обходить чаще. О том, как это связано с ранжированием, мы подробно писали в материале про скорость сайта и Core Web Vitals.
  3. Частота обновления контента. Если сайт регулярно публикует новое и меняет старое, робот приходит чаще, чтобы не отставать.
  4. Качество и уникальность страниц. Сайт, состоящий из дублей и тонкого контента, робот обходит неохотно — смысла переобходить «пустышки» мало.
  5. Структура и перелинковка. Чем логичнее устроена навигация, тем эффективнее робот распределяет обход по важным разделам.

Из этого следует главный практический вывод: краулинговый бюджет можно и нужно оптимизировать. Вы не можете напрямую «попросить больше», но можете сделать так, чтобы имеющийся ресурс тратился с максимальной пользой — на страницы, которые вам действительно важны.

Признаки, что у сайта проблемы с обходом

Краулинговый бюджет — штука невидимая, но его дефицит проявляется во вполне конкретных симптомах. Если вы наблюдаете один или несколько из них, пора заняться диагностикой:

  • Новые страницы долго не попадают в индекс. Опубликовали товар или статью неделю-две назад, а в поиске их всё ещё нет, хотя сайт в целом индексируется.
  • Большая разница между числом страниц на сайте и в индексе. В Вебмастере видно, что загружено 50 000 URL, а в поиске участвует 12 000 — остальное застряло в статусе «обход разрешён, но не проиндексировано» или «недостаточно качественная».
  • Робот «топчется» на мусоре. В статистике обхода видно, что львиная доля визитов приходится на страницы фильтров, сортировок, корзину, технические URL — а не на каталог и контент.
  • Изменения долго не подхватываются. Поменяли цену или текст, а в выдаче несколько недель висит старая версия страницы.
  • Глубокие страницы вообще не индексируются. То, что лежит на 4–5 кликов от главной, робот не достаёт годами.

Эти симптомы часто путают с фильтрами или «выпадением» сайта. Чтобы не лечить не ту болезнь, полезно сначала исключить технику — об этом отдельный разбор в статье почему сайт выпал из индекса.

Куда утекает краулинговый бюджет: главные причины

Бюджет редко «маленький» сам по себе — чаще он тратится впустую. Робот честно обходит тысячи URL, но это не те URL. Вот основные «пожиратели» обхода, которые я вижу почти на каждом крупном сайте.

Дубли страниц

Самая массовая причина. Одна и та же страница доступна по нескольким адресам: с www и без, по http и https, со слешем на конце и без, с параметрами и без. Для пользователя это одна страница, для робота — четыре, восемь, шестнадцать разных URL, каждый из которых нужно обойти. Дубли множат объём обхода в разы, не добавляя ни одной полезной страницы.

Бесконечные фильтры и пагинация

В интернет-магазинах фильтры по цвету, размеру, бренду, цене порождают комбинаторный взрыв: каждое сочетание параметров — это отдельный URL. Сайт на 5 000 товаров легко генерирует сотни тысяч страниц фильтрации, большинство из которых либо пустые, либо дублируют друг друга. Сюда же — глубокая пагинация на десятки страниц и календари, по которым робот может уходить «в бесконечность».

Мусорные параметры в URL

UTM-метки, идентификаторы сессий, параметры сортировки (?sort=price), параметры отслеживания — всё это создаёт уникальные с точки зрения робота URL, которые ведут на тот же контент. Робот добросовестно обходит каждую вариацию, сжигая бюджет.

Цепочки редиректов

Когда URL A ведёт на B, B на C, а C уже на финальную страницу, робот проходит всю цепочку. Каждый «прыжок» — это лишний запрос и потерянное время. Длинные цепочки 301-х особенно вредны после переездов и смены структуры.

Ошибки 4xx и 5xx

Битые ссылки (404), удалённые страницы, которые всё ещё в карте сайта, и особенно серверные ошибки (500, 502, 503) — это прямая трата бюджета на тупики. Хуже того, частые 5xx сигнализируют роботу, что сервер нестабилен, и он снижает частоту обхода всего сайта.

Медленный сервер

Если страница отдаётся за 2–3 секунды вместо 200 миллисекунд, робот за то же время успеет обойти в 10–15 раз меньше URL. Скорость отклика напрямую конвертируется в количество обойденных страниц — подробнее о механике в статье про влияние скорости загрузки на SEO.

Большой объём низкокачественных страниц

Тонкие страницы, автогенерированные теги, пустые категории, страницы «ничего не найдено» — всё это балласт. Робот обходит их, оценивает как малополезные и в итоге начинает хуже относиться к сайту в целом, тратя на него меньше ресурса.

Диагностика: как понять, на что уходит бюджет

Прежде чем что-то оптимизировать, нужно увидеть реальную картину. Гадать бесполезно — есть два надёжных источника данных.

Логи сервера

Это самый точный инструмент. В логах видно каждое обращение робота Яндекса (по User-Agent YandexBot и проверке IP). Анализ логов показывает:

  • какие разделы и URL робот обходит чаще всего;
  • сколько визитов уходит на мусорные параметры и фильтры;
  • на каких страницах робот получает 404 и 5xx;
  • как часто переобходятся важные страницы и доходит ли робот до глубоких уровней.

Часто анализ логов вскрывает шокирующую картину: 60–70% обхода тратится на страницы, которых вообще не должно быть в индексе. Это и есть ваш слитый бюджет в чистом виде.

Яндекс Вебмастер

Если доступа к логам нет, Вебмастер даёт достаточно, чтобы поставить диагноз. Смотрите два раздела:

  1. «Индексирование» → «Статистика обхода». Здесь видно динамику: сколько страниц робот загружает, сколько из них отвечают кодом 200, сколько — ошибками, как менялась активность обхода во времени.
  2. «Индексирование» → «Страницы в поиске» и «Структура сайта». Тут видно, сколько страниц реально участвует в поиске, а сколько исключено и по каким причинам («дубль», «недостаточно качественная», «обход запрещён»).

Связка «много загруженных, мало в поиске» + «робот ходит по фильтрам» = классический дефицит бюджета. Эта диагностика — часть полноценной технической проверки, методологию которой мы описали в гайде по SEO-аудиту сайта.

Управление обходом: инструменты на каждый день

Когда понятно, куда утекает бюджет, в дело идут инструменты управления краулингом. Их немного, но каждый решает свою задачу, и важно не путать их назначение.

robots.txt

Директива Disallow закрывает разделы от обхода целиком. Это грубый, но эффективный инструмент для технических зон: корзины, личного кабинета, страниц поиска по сайту, служебных скриптов. Важно помнить: закрытие в robots.txt не гарантирует удаления из индекса (если на страницу есть ссылки, она может попасть в поиск как URL без описания), но обход экономит хорошо.

Clean-param — главный инструмент для Яндекса

Это специфическая для Яндекса директива в robots.txt, и для борьбы с мусорными параметрами она важнее всего. Clean-param сообщает роботу, что определённые GET-параметры не меняют содержимое страницы, и их можно игнорировать. Например, Clean-param: utm_source&utm_medium&sort скажет роботу не обходить копии страниц с этими метками. Это прямой способ схлопнуть тысячи параметрических дублей и вернуть бюджет на полезные URL.

Атрибут canonical

Тег rel="canonical" указывает роботу, какая версия страницы — главная, когда есть несколько похожих. Он не запрещает обход, но помогает консолидировать дубли и передать вес каноническому URL. Незаменим для пагинации, фильтров, карточек с вариациями и страниц с сортировкой.

noindex

Метатег robots со значением noindex закрывает страницу от индексации, но позволяет роботу её обойти и перейти по ссылкам. Применяется к страницам, которые нужны пользователю, но бесполезны в поиске: результаты внутреннего поиска, служебные разделы, технические страницы.

Карта сайта sitemap.xml

Sitemap — это ваш «белый список» для робота: перечень URL, которые вы считаете важными и хотите видеть в индексе. Корректная карта (только канонические, отвечающие кодом 200 страницы, с актуальными датами lastmod) помогает роботу находить и приоритизировать нужные URL, особенно глубокие. Грязный sitemap с битыми и закрытыми URL, наоборот, вредит.

Скорость и стабильность

Ускорение сервера и оптимизация отдачи страниц — это прямое расширение бюджета: за тот же интервал робот обойдёт больше URL. Кэширование, CDN, оптимизация запросов к базе, сжатие — всё это работает на краулинг. Сопутствующие технические дефекты стоит закрыть в комплексе, ориентируясь на разбор технических ошибок сайта.

Перелинковка и приоритизация важных страниц

Робот распределяет обход в том числе по внутренним ссылкам: чем больше качественных ссылок ведёт на страницу и чем ближе она к главной по кликам, тем выше её приоритет в обходе. Это даёт мощный рычаг управления.

  • Сократите глубину вложенности. Стремитесь, чтобы любая важная страница была в 2–3 кликах от главной. То, что лежит глубже, робот достаёт реже и хуже.
  • Усильте перелинковку на приоритетные разделы. Блоки «популярное», «хиты», тематические подборки, ссылки из статей блога в каталог — всё это поднимает важные URL в очереди обхода. Механики мы разбирали в материале про внутреннюю перелинковку сайта.
  • Уберите ссылки на мусор из навигации. Если в меню и сайдбарах нет ссылок на сортировки и пустые фильтры, робот реже на них натыкается.
  • Выстройте логичную иерархию. Понятная древовидная структура помогает роботу обходить сайт системно, а не хаотично. Об этом — статья про структуру сайта для SEO.

Суть приоритизации проста: вы своими руками показываете роботу, что важно, а что — нет. Чем чётче эти сигналы (перелинковка + sitemap + закрытие мусора), тем точнее расходуется бюджет.

Краулинговый бюджет для интернет-магазинов и крупных сайтов

Именно в e-commerce проблема обхода стоит острее всего, потому что каталог по своей природе генерирует огромное число вариативных URL. Вот приоритетный план действий для магазина.

  1. Возьмите под контроль фильтры. Решите, какие фильтры формируют полезные посадочные страницы под спрос (например, «красные платья» или «ноутбуки до 50000»), — их оставляйте открытыми и оптимизируйте под запросы. Все остальные комбинации закрывайте от индексации и обхода.
  2. Закройте сортировки и пагинацию параметрами. Сортировка по цене или популярности не должна плодить индексируемые дубли — здесь работают canonical и Clean-param.
  3. Вычистите параметрический мусор. UTM, сессии, параметры показа — через Clean-param.
  4. Уберите из индекса пустые и неактуальные карточки. Товары без остатков, снятые с продажи — продумайте логику (редирект, страница-заглушка, возврат в каталог), чтобы не копить тонкий контент.
  5. Держите sitemap в чистоте. Для крупного магазина — разбейте карту на несколько файлов по разделам, с актуальными lastmod, чтобы робот видел, что обновилось.

Грамотная техническая база каталога — половина успеха в e-commerce. Системная работа над этим входит в наши услуги по внутренней оптимизации сайта, и именно с неё мы начинаем продвижение любого крупного магазина.

Чек-лист оптимизации краулингового бюджета

Соберём всё в практический список. Пройдитесь по нему — каждый закрытый пункт высвобождает ресурс робота для важных страниц.

  1. Настроен единый канонический формат URL (один протокол, один вариант со слешем/без, без www-дублей).
  2. Параметрические дубли закрыты через Clean-param (UTM, сортировки, сессии).
  3. На страницах с вариациями и фильтрами проставлен корректный canonical.
  4. Технические разделы (корзина, кабинет, внутренний поиск) закрыты в robots.txt или через noindex.
  5. Бесполезные комбинации фильтров не индексируются; полезные — оптимизированы под спрос.
  6. Устранены цепочки редиректов — ссылки ведут сразу на финальный URL.
  7. Вычищены битые ссылки (404) и серверные ошибки (5xx).
  8. Ускорен отклик сервера, настроено кэширование.
  9. Sitemap.xml содержит только канонические страницы с кодом 200 и актуальными датами.
  10. Важные страницы находятся в 2–3 кликах от главной и усилены перелинковкой.
  11. Удалён или доработан массив тонкого, низкокачественного контента.
  12. Регулярно отслеживается статистика обхода в Яндекс Вебмастере и (по возможности) логи сервера.

Этот чек-лист — не разовая акция, а регулярная гигиена. На живом сайте мусорные URL появляются постоянно: новые фильтры, новые метки, новые удалённые товары. Поэтому мониторинг обхода стоит встроить в ежемесячный регламент.

Частые ошибки при работе с краулинговым бюджетом

Напоследок — грабли, на которые наступают чаще всего, в том числе и опытные владельцы сайтов:

  • Закрыть страницу в robots.txt и ждать, что она выпадет из индекса. Запрет обхода не равно запрету индексации. Чтобы убрать страницу из поиска, нужен noindex (и обход для его прочтения должен быть разрешён).
  • Поставить и canonical, и Disallow на одну страницу. Если страница закрыта в robots.txt, робот не увидит canonical — инструкции конфликтуют.
  • Игнорировать Clean-param в пользу только canonical. Canonical консолидирует вес, но робот всё равно обходит дубли. Для экономии именно обхода в Яндексе нужен Clean-param.
  • Раздувать sitemap всем подряд. Карта — это список приоритетных URL, а не свалка всех адресов сайта.
  • Чинить симптом, не найдя причину. Без анализа логов и Вебмастера оптимизация превращается в стрельбу вслепую.

Вывод

Краулинговый бюджет — это не абстрактная теория, а вполне измеримый ресурс, от которого напрямую зависит, попадут ли ваши страницы в поиск и как быстро. Робот не индексирует часть страниц не из вредности, а потому что его ресурс конечен и расходуется на дубли, фильтры, параметрический мусор и серверные ошибки. Хорошая новость в том, что всё это управляемо: чистый robots.txt с Clean-param, корректные canonical и noindex, аккуратный sitemap, быстрый сервер и продуманная перелинковка возвращают бюджет на действительно важные URL — и индексация выправляется. Для крупного сайта или интернет-магазина это часто даёт ощутимый рост трафика без единой новой страницы — просто за счёт того, что в индекс наконец попадает уже созданный контент.

Разобраться, на что именно ваш сайт тратит обход, и выстроить систему управления краулингом — задача техническая и кропотливая: она требует анализа логов, Вебмастера и архитектуры сайта в комплексе. Если вы хотите делегировать это профессионалам, посмотрите наши кейсы — там видно, как мы выводим в индекс и топ крупные проекты, — и свяжитесь с нами для аудита. В SEO ПРОГРЕСС мы наведём порядок в обходе, индексации и технике, чтобы поисковик показывал то, что приносит вам клиентов.

Закажите SEO-продвижение в SEO ПРОГРЕСС

20 лет опыта, 250+ успешных кейсов. Бесплатный аудит и консультация.

Получить консультацию