Краулинговый бюджет: почему Яндекс не индексирует ваши страницы

Вы добавили на сайт сотню новых карточек товаров, написали десяток статей в блог, а в поиске их по-прежнему нет — и так неделями. Знакомая ситуация? В девяти случаях из десяти дело не в фильтрах и не в «плохих текстах», а в банальной арифметике: робот Яндекса просто не дошёл до этих страниц. У каждого сайта есть предел того, сколько страниц поисковик готов обойти за единицу времени, — краулинговый бюджет. Если он расходуется на дубли, мусор и битые URL, важные страницы остаются за бортом индекса. В этой статье разберём, что такое краулинговый бюджет, от чего он зависит, как понять, что робот «не справляется», и что конкретно делать, чтобы Яндекс индексировал именно то, что приносит трафик и деньги.
Что такое краулинговый бюджет простыми словами
Краулинговый бюджет (crawl budget) — это количество URL вашего сайта, которое поисковый робот готов и способен обойти за определённый промежуток времени. Это не фиксированная цифра, выбитая в камне, а динамическая величина, которая складывается из двух составляющих.
- Лимит обхода (crawl rate limit) — сколько запросов робот может отправить вашему серверу, не «уронив» его. Если сервер отвечает быстро и стабильно, робот наращивает скорость. Если ответы медленные или сыплются ошибки, частота обращений снижается, чтобы не создавать нагрузку.
- Потребность в обходе (crawl demand) — насколько Яндексу вообще интересно переобходить ваши страницы. Здесь играют роль популярность сайта, его авторитет, частота обновления контента и то, насколько «свежей» поисковик считает имеющуюся у него копию страницы.
Простая аналогия: представьте курьера, у которого есть ровно 8 рабочих часов в день на доставку по вашему району. Если адреса разбросаны хаотично, половина квартир — это пустые подъезды и тупики, а на каждой двери его заставляют ждать по пять минут, он успеет обойти от силы треть домов. Ровно так же ведёт себя робот: его ресурс конечен, и расходуется он на всё подряд — и на нужные страницы, и на мусор.
Важно понимать: для небольшого сайта на 200–500 страниц краулинговый бюджет почти никогда не является проблемой. Робот обходит такой сайт целиком за один-два визита. Тема становится критичной для крупных проектов — интернет-магазинов с тысячами карточек, агрегаторов, новостных порталов, классифайдов, — где счёт страниц идёт на десятки и сотни тысяч.
От чего зависит размер краулингового бюджета
Бюджет не назначается случайно. Яндекс оценивает сайт по совокупности сигналов и на их основе решает, как часто и как глубоко его обходить. Ключевые факторы:
- Авторитетность и трастовость домена. Чем выше доверие к сайту (возраст, ссылочный профиль, история, бренд), тем щедрее робот выделяет ресурс на обход.
- Скорость и стабильность сервера. Быстрый отклик — прямой сигнал, что можно обходить чаще. О том, как это связано с ранжированием, мы подробно писали в материале про скорость сайта и Core Web Vitals.
- Частота обновления контента. Если сайт регулярно публикует новое и меняет старое, робот приходит чаще, чтобы не отставать.
- Качество и уникальность страниц. Сайт, состоящий из дублей и тонкого контента, робот обходит неохотно — смысла переобходить «пустышки» мало.
- Структура и перелинковка. Чем логичнее устроена навигация, тем эффективнее робот распределяет обход по важным разделам.
Из этого следует главный практический вывод: краулинговый бюджет можно и нужно оптимизировать. Вы не можете напрямую «попросить больше», но можете сделать так, чтобы имеющийся ресурс тратился с максимальной пользой — на страницы, которые вам действительно важны.
Признаки, что у сайта проблемы с обходом
Краулинговый бюджет — штука невидимая, но его дефицит проявляется во вполне конкретных симптомах. Если вы наблюдаете один или несколько из них, пора заняться диагностикой:
- Новые страницы долго не попадают в индекс. Опубликовали товар или статью неделю-две назад, а в поиске их всё ещё нет, хотя сайт в целом индексируется.
- Большая разница между числом страниц на сайте и в индексе. В Вебмастере видно, что загружено 50 000 URL, а в поиске участвует 12 000 — остальное застряло в статусе «обход разрешён, но не проиндексировано» или «недостаточно качественная».
- Робот «топчется» на мусоре. В статистике обхода видно, что львиная доля визитов приходится на страницы фильтров, сортировок, корзину, технические URL — а не на каталог и контент.
- Изменения долго не подхватываются. Поменяли цену или текст, а в выдаче несколько недель висит старая версия страницы.
- Глубокие страницы вообще не индексируются. То, что лежит на 4–5 кликов от главной, робот не достаёт годами.
Эти симптомы часто путают с фильтрами или «выпадением» сайта. Чтобы не лечить не ту болезнь, полезно сначала исключить технику — об этом отдельный разбор в статье почему сайт выпал из индекса.
Куда утекает краулинговый бюджет: главные причины
Бюджет редко «маленький» сам по себе — чаще он тратится впустую. Робот честно обходит тысячи URL, но это не те URL. Вот основные «пожиратели» обхода, которые я вижу почти на каждом крупном сайте.
Дубли страниц
Самая массовая причина. Одна и та же страница доступна по нескольким адресам: с www и без, по http и https, со слешем на конце и без, с параметрами и без. Для пользователя это одна страница, для робота — четыре, восемь, шестнадцать разных URL, каждый из которых нужно обойти. Дубли множат объём обхода в разы, не добавляя ни одной полезной страницы.
Бесконечные фильтры и пагинация
В интернет-магазинах фильтры по цвету, размеру, бренду, цене порождают комбинаторный взрыв: каждое сочетание параметров — это отдельный URL. Сайт на 5 000 товаров легко генерирует сотни тысяч страниц фильтрации, большинство из которых либо пустые, либо дублируют друг друга. Сюда же — глубокая пагинация на десятки страниц и календари, по которым робот может уходить «в бесконечность».
Мусорные параметры в URL
UTM-метки, идентификаторы сессий, параметры сортировки (?sort=price), параметры отслеживания — всё это создаёт уникальные с точки зрения робота URL, которые ведут на тот же контент. Робот добросовестно обходит каждую вариацию, сжигая бюджет.
Цепочки редиректов
Когда URL A ведёт на B, B на C, а C уже на финальную страницу, робот проходит всю цепочку. Каждый «прыжок» — это лишний запрос и потерянное время. Длинные цепочки 301-х особенно вредны после переездов и смены структуры.
Ошибки 4xx и 5xx
Битые ссылки (404), удалённые страницы, которые всё ещё в карте сайта, и особенно серверные ошибки (500, 502, 503) — это прямая трата бюджета на тупики. Хуже того, частые 5xx сигнализируют роботу, что сервер нестабилен, и он снижает частоту обхода всего сайта.
Медленный сервер
Если страница отдаётся за 2–3 секунды вместо 200 миллисекунд, робот за то же время успеет обойти в 10–15 раз меньше URL. Скорость отклика напрямую конвертируется в количество обойденных страниц — подробнее о механике в статье про влияние скорости загрузки на SEO.
Большой объём низкокачественных страниц
Тонкие страницы, автогенерированные теги, пустые категории, страницы «ничего не найдено» — всё это балласт. Робот обходит их, оценивает как малополезные и в итоге начинает хуже относиться к сайту в целом, тратя на него меньше ресурса.
Диагностика: как понять, на что уходит бюджет
Прежде чем что-то оптимизировать, нужно увидеть реальную картину. Гадать бесполезно — есть два надёжных источника данных.
Логи сервера
Это самый точный инструмент. В логах видно каждое обращение робота Яндекса (по User-Agent YandexBot и проверке IP). Анализ логов показывает:
- какие разделы и URL робот обходит чаще всего;
- сколько визитов уходит на мусорные параметры и фильтры;
- на каких страницах робот получает 404 и 5xx;
- как часто переобходятся важные страницы и доходит ли робот до глубоких уровней.
Часто анализ логов вскрывает шокирующую картину: 60–70% обхода тратится на страницы, которых вообще не должно быть в индексе. Это и есть ваш слитый бюджет в чистом виде.
Яндекс Вебмастер
Если доступа к логам нет, Вебмастер даёт достаточно, чтобы поставить диагноз. Смотрите два раздела:
- «Индексирование» → «Статистика обхода». Здесь видно динамику: сколько страниц робот загружает, сколько из них отвечают кодом 200, сколько — ошибками, как менялась активность обхода во времени.
- «Индексирование» → «Страницы в поиске» и «Структура сайта». Тут видно, сколько страниц реально участвует в поиске, а сколько исключено и по каким причинам («дубль», «недостаточно качественная», «обход запрещён»).
Связка «много загруженных, мало в поиске» + «робот ходит по фильтрам» = классический дефицит бюджета. Эта диагностика — часть полноценной технической проверки, методологию которой мы описали в гайде по SEO-аудиту сайта.
Управление обходом: инструменты на каждый день
Когда понятно, куда утекает бюджет, в дело идут инструменты управления краулингом. Их немного, но каждый решает свою задачу, и важно не путать их назначение.
robots.txt
Директива Disallow закрывает разделы от обхода целиком. Это грубый, но эффективный инструмент для технических зон: корзины, личного кабинета, страниц поиска по сайту, служебных скриптов. Важно помнить: закрытие в robots.txt не гарантирует удаления из индекса (если на страницу есть ссылки, она может попасть в поиск как URL без описания), но обход экономит хорошо.
Clean-param — главный инструмент для Яндекса
Это специфическая для Яндекса директива в robots.txt, и для борьбы с мусорными параметрами она важнее всего. Clean-param сообщает роботу, что определённые GET-параметры не меняют содержимое страницы, и их можно игнорировать. Например, Clean-param: utm_source&utm_medium&sort скажет роботу не обходить копии страниц с этими метками. Это прямой способ схлопнуть тысячи параметрических дублей и вернуть бюджет на полезные URL.
Атрибут canonical
Тег rel="canonical" указывает роботу, какая версия страницы — главная, когда есть несколько похожих. Он не запрещает обход, но помогает консолидировать дубли и передать вес каноническому URL. Незаменим для пагинации, фильтров, карточек с вариациями и страниц с сортировкой.
noindex
Метатег robots со значением noindex закрывает страницу от индексации, но позволяет роботу её обойти и перейти по ссылкам. Применяется к страницам, которые нужны пользователю, но бесполезны в поиске: результаты внутреннего поиска, служебные разделы, технические страницы.
Карта сайта sitemap.xml
Sitemap — это ваш «белый список» для робота: перечень URL, которые вы считаете важными и хотите видеть в индексе. Корректная карта (только канонические, отвечающие кодом 200 страницы, с актуальными датами lastmod) помогает роботу находить и приоритизировать нужные URL, особенно глубокие. Грязный sitemap с битыми и закрытыми URL, наоборот, вредит.
Скорость и стабильность
Ускорение сервера и оптимизация отдачи страниц — это прямое расширение бюджета: за тот же интервал робот обойдёт больше URL. Кэширование, CDN, оптимизация запросов к базе, сжатие — всё это работает на краулинг. Сопутствующие технические дефекты стоит закрыть в комплексе, ориентируясь на разбор технических ошибок сайта.
Перелинковка и приоритизация важных страниц
Робот распределяет обход в том числе по внутренним ссылкам: чем больше качественных ссылок ведёт на страницу и чем ближе она к главной по кликам, тем выше её приоритет в обходе. Это даёт мощный рычаг управления.
- Сократите глубину вложенности. Стремитесь, чтобы любая важная страница была в 2–3 кликах от главной. То, что лежит глубже, робот достаёт реже и хуже.
- Усильте перелинковку на приоритетные разделы. Блоки «популярное», «хиты», тематические подборки, ссылки из статей блога в каталог — всё это поднимает важные URL в очереди обхода. Механики мы разбирали в материале про внутреннюю перелинковку сайта.
- Уберите ссылки на мусор из навигации. Если в меню и сайдбарах нет ссылок на сортировки и пустые фильтры, робот реже на них натыкается.
- Выстройте логичную иерархию. Понятная древовидная структура помогает роботу обходить сайт системно, а не хаотично. Об этом — статья про структуру сайта для SEO.
Суть приоритизации проста: вы своими руками показываете роботу, что важно, а что — нет. Чем чётче эти сигналы (перелинковка + sitemap + закрытие мусора), тем точнее расходуется бюджет.
Краулинговый бюджет для интернет-магазинов и крупных сайтов
Именно в e-commerce проблема обхода стоит острее всего, потому что каталог по своей природе генерирует огромное число вариативных URL. Вот приоритетный план действий для магазина.
- Возьмите под контроль фильтры. Решите, какие фильтры формируют полезные посадочные страницы под спрос (например, «красные платья» или «ноутбуки до 50000»), — их оставляйте открытыми и оптимизируйте под запросы. Все остальные комбинации закрывайте от индексации и обхода.
- Закройте сортировки и пагинацию параметрами. Сортировка по цене или популярности не должна плодить индексируемые дубли — здесь работают canonical и Clean-param.
- Вычистите параметрический мусор. UTM, сессии, параметры показа — через Clean-param.
- Уберите из индекса пустые и неактуальные карточки. Товары без остатков, снятые с продажи — продумайте логику (редирект, страница-заглушка, возврат в каталог), чтобы не копить тонкий контент.
- Держите sitemap в чистоте. Для крупного магазина — разбейте карту на несколько файлов по разделам, с актуальными lastmod, чтобы робот видел, что обновилось.
Грамотная техническая база каталога — половина успеха в e-commerce. Системная работа над этим входит в наши услуги по внутренней оптимизации сайта, и именно с неё мы начинаем продвижение любого крупного магазина.
Чек-лист оптимизации краулингового бюджета
Соберём всё в практический список. Пройдитесь по нему — каждый закрытый пункт высвобождает ресурс робота для важных страниц.
- Настроен единый канонический формат URL (один протокол, один вариант со слешем/без, без www-дублей).
- Параметрические дубли закрыты через Clean-param (UTM, сортировки, сессии).
- На страницах с вариациями и фильтрами проставлен корректный canonical.
- Технические разделы (корзина, кабинет, внутренний поиск) закрыты в robots.txt или через noindex.
- Бесполезные комбинации фильтров не индексируются; полезные — оптимизированы под спрос.
- Устранены цепочки редиректов — ссылки ведут сразу на финальный URL.
- Вычищены битые ссылки (404) и серверные ошибки (5xx).
- Ускорен отклик сервера, настроено кэширование.
- Sitemap.xml содержит только канонические страницы с кодом 200 и актуальными датами.
- Важные страницы находятся в 2–3 кликах от главной и усилены перелинковкой.
- Удалён или доработан массив тонкого, низкокачественного контента.
- Регулярно отслеживается статистика обхода в Яндекс Вебмастере и (по возможности) логи сервера.
Этот чек-лист — не разовая акция, а регулярная гигиена. На живом сайте мусорные URL появляются постоянно: новые фильтры, новые метки, новые удалённые товары. Поэтому мониторинг обхода стоит встроить в ежемесячный регламент.
Частые ошибки при работе с краулинговым бюджетом
Напоследок — грабли, на которые наступают чаще всего, в том числе и опытные владельцы сайтов:
- Закрыть страницу в robots.txt и ждать, что она выпадет из индекса. Запрет обхода не равно запрету индексации. Чтобы убрать страницу из поиска, нужен noindex (и обход для его прочтения должен быть разрешён).
- Поставить и canonical, и Disallow на одну страницу. Если страница закрыта в robots.txt, робот не увидит canonical — инструкции конфликтуют.
- Игнорировать Clean-param в пользу только canonical. Canonical консолидирует вес, но робот всё равно обходит дубли. Для экономии именно обхода в Яндексе нужен Clean-param.
- Раздувать sitemap всем подряд. Карта — это список приоритетных URL, а не свалка всех адресов сайта.
- Чинить симптом, не найдя причину. Без анализа логов и Вебмастера оптимизация превращается в стрельбу вслепую.
Вывод
Краулинговый бюджет — это не абстрактная теория, а вполне измеримый ресурс, от которого напрямую зависит, попадут ли ваши страницы в поиск и как быстро. Робот не индексирует часть страниц не из вредности, а потому что его ресурс конечен и расходуется на дубли, фильтры, параметрический мусор и серверные ошибки. Хорошая новость в том, что всё это управляемо: чистый robots.txt с Clean-param, корректные canonical и noindex, аккуратный sitemap, быстрый сервер и продуманная перелинковка возвращают бюджет на действительно важные URL — и индексация выправляется. Для крупного сайта или интернет-магазина это часто даёт ощутимый рост трафика без единой новой страницы — просто за счёт того, что в индекс наконец попадает уже созданный контент.
Разобраться, на что именно ваш сайт тратит обход, и выстроить систему управления краулингом — задача техническая и кропотливая: она требует анализа логов, Вебмастера и архитектуры сайта в комплексе. Если вы хотите делегировать это профессионалам, посмотрите наши кейсы — там видно, как мы выводим в индекс и топ крупные проекты, — и свяжитесь с нами для аудита. В SEO ПРОГРЕСС мы наведём порядок в обходе, индексации и технике, чтобы поисковик показывал то, что приносит вам клиентов.
Закажите SEO-продвижение в SEO ПРОГРЕСС
20 лет опыта, 250+ успешных кейсов. Бесплатный аудит и консультация.
Получить консультацию