Некоторые новые страницы не появляются в поиске. Какие базовые проверки нужно провести?
Быстро проверить индексацию можно через инструменты вебмастера (Google Search Console/Яндекс Вебмастер) и технический чек-лист: страница должна отдавать 200 OK, не быть закрыта от сканирования (robots/noindex), иметь корректный canonical и быть доступной через внутренние ссылки и sitemap. В 80% случаев новые страницы «не появляются» из‑за блокировок на уровне robots/meta, неправильных каноникалов, редиректов/ошибок ответа или слабой связности (страницы сироты). Ниже — базовые проверки в правильном порядке.
1) Базовые проверки по конкретному URL (самое важное)
- HTTP-статус: страница должна отдавать 200. Проверьте, нет ли 3xx на другой URL, 4xx/5xx, «soft 404» (контент пустой, но 200).
- Один “главный” адрес страницы: определитесь с HTTP→HTTPS, www→non-www, со слешем/без слеша, регистром, параметрами. Для поисковика это разные URL, если не настроить редиректы и каноникал.
- meta robots / X-Robots-Tag: на странице не должно быть noindex/nofollow. Важно проверять не только HTML-мета, но и заголовок ответа X-Robots-Tag (часто его добавляют на уровне сервера/CDN).
- robots.txt: URL не должен попадать под Disallow. Отдельно проверьте, не запрещены ли важные директории (например, /catalog/ или /search/), и не закрыты ли CSS/JS (иногда это ломает понимание страницы).
- rel=canonical: canonical должен указывать на саму страницу (self-canonical) или на корректную каноническую версию. Частая проблема: все новые страницы каноникалят на раздел/главную или на версию с параметрами.
2) Проверки на уровне сайта (почему бот может не дойти)
- Внутренняя перелинковка: новая страница должна быть достижима по ссылкам с уже индексируемых страниц. «Сироты» (страницы без входящих внутренних ссылок) индексируются плохо даже при идеальной технике.
- Sitemap.xml: URL должен быть в sitemap, sitemap должен открываться с 200 OK, без редиректов и без мусора. Смотрите, чтобы не было неканонических URL, 3xx/4xx, и чтобы lastmod не был случайным (иначе поисковик игнорирует “обновления”).
- Дубликаты и параметры: если контент почти одинаковый (фильтры, сортировки, UTM/параметры), поисковик может выбрать другой URL как основной или не индексировать дубликаты. Тут важны canonical, правила параметров и понятная структура.
- JS-рендеринг: если контент/ссылки появляются только после выполнения JavaScript, боты могут видеть «пустую» страницу. Минимум: проверьте, что в исходном HTML есть основной контент и ссылки либо настроен SSR/пререндер.
- Производительность и доступность: частые 5xx, долгий TTFB, блокировки по User-Agent/Geo, агрессивный WAF/антибот — всё это режет crawl budget, и новые URL могут не доходить до индекса.
3) Проверки в Google Search Console / Яндекс Вебмастере (что скажет поисковик)
- Инспекция URL: статус “доступен/не доступен для индексирования”, причина (blocked by robots, noindex, duplicate, discovered — currently not indexed и т.д.).
- Покрытие/Индексирование: ошибки, исключённые страницы, дубликаты, «сканировано — не проиндексировано». Это помогает понять, проблема техническая или качественно-структурная.
- Статистика сканирования: падение числа запросов, рост времени ответа, всплеск ошибок — признак инфраструктурной проблемы.
- Проверка sitemap: сколько URL отправлено и сколько принято/в индексе; расхождения — повод чистить карту сайта от лишнего и чинить каноникализацию.
Практический план действий (что сделать команде за 1–2 часа)
- Возьмите 5–10 «проблемных» новых URL и проверьте по ним: 200 OK → robots/meta/X-Robots → canonical → наличие в sitemap → наличие внутренней ссылки.
- В вебмастере сделайте инспекцию каждого URL и зафиксируйте точную причину, почему не в индексе (не гадать, а смотреть статус).
- Если страницы сироты — добавьте ссылки из релевантных разделов (категории, блоки «похожие», хлебные крошки), и обновите sitemap.
- Если проблема в каноникале/редиректах — приведите всё к единой схеме URL и настройте постоянные 301 на единственную каноническую версию.
- Если бот «видит пусто» из-за JS — обеспечьте серверную выдачу ключевого контента (SSR/пререндер) или хотя бы HTML-версию контента для первого экрана.
Типичные ошибки, из-за которых новые страницы не индексируются
- Оставили noindex после разработки/миграции или закрыли раздел в robots.txt и забыли открыть.
- Включили шаблонный canonical на главную/категорию для всех карточек или на URL с параметрами.
- Sitemap содержит мусор: 3xx/4xx, неканонические URL, страницы с noindex, или генерируется с неправильными датами lastmod.
- Страницы создаются, но на них нет внутренних ссылок (боту неоткуда о них узнать, кроме sitemap).
- Защита (WAF/антибот), капчи, ограничения по частоте или нестабильный сервер мешают краулингу.
Если дадите пример пары URL и опишете, как они создаются (CMS, шаблон, есть ли фильтры/параметры, SSR/SPA), я подскажу, какие 2–3 проверки приоритетны именно в вашем сценарии.