Как проверить, что сайт корректно индексируется поисковиками?

Тимофей Савельев 15.04.2026 00:50 2 1 Есть ответ

Некоторые новые страницы не появляются в поиске. Какие базовые проверки нужно провести?

Андрей Фролов 15.04.2026 00:50 2

Быстро проверить индексацию можно через инструменты вебмастера (Google Search Console/Яндекс Вебмастер) и технический чек-лист: страница должна отдавать 200 OK, не быть закрыта от сканирования (robots/noindex), иметь корректный canonical и быть доступной через внутренние ссылки и sitemap. В 80% случаев новые страницы «не появляются» из‑за блокировок на уровне robots/meta, неправильных каноникалов, редиректов/ошибок ответа или слабой связности (страницы сироты). Ниже — базовые проверки в правильном порядке.

1) Базовые проверки по конкретному URL (самое важное)

  • HTTP-статус: страница должна отдавать 200. Проверьте, нет ли 3xx на другой URL, 4xx/5xx, «soft 404» (контент пустой, но 200).
  • Один “главный” адрес страницы: определитесь с HTTP→HTTPS, www→non-www, со слешем/без слеша, регистром, параметрами. Для поисковика это разные URL, если не настроить редиректы и каноникал.
  • meta robots / X-Robots-Tag: на странице не должно быть noindex/nofollow. Важно проверять не только HTML-мета, но и заголовок ответа X-Robots-Tag (часто его добавляют на уровне сервера/CDN).
  • robots.txt: URL не должен попадать под Disallow. Отдельно проверьте, не запрещены ли важные директории (например, /catalog/ или /search/), и не закрыты ли CSS/JS (иногда это ломает понимание страницы).
  • rel=canonical: canonical должен указывать на саму страницу (self-canonical) или на корректную каноническую версию. Частая проблема: все новые страницы каноникалят на раздел/главную или на версию с параметрами.

2) Проверки на уровне сайта (почему бот может не дойти)

  • Внутренняя перелинковка: новая страница должна быть достижима по ссылкам с уже индексируемых страниц. «Сироты» (страницы без входящих внутренних ссылок) индексируются плохо даже при идеальной технике.
  • Sitemap.xml: URL должен быть в sitemap, sitemap должен открываться с 200 OK, без редиректов и без мусора. Смотрите, чтобы не было неканонических URL, 3xx/4xx, и чтобы lastmod не был случайным (иначе поисковик игнорирует “обновления”).
  • Дубликаты и параметры: если контент почти одинаковый (фильтры, сортировки, UTM/параметры), поисковик может выбрать другой URL как основной или не индексировать дубликаты. Тут важны canonical, правила параметров и понятная структура.
  • JS-рендеринг: если контент/ссылки появляются только после выполнения JavaScript, боты могут видеть «пустую» страницу. Минимум: проверьте, что в исходном HTML есть основной контент и ссылки либо настроен SSR/пререндер.
  • Производительность и доступность: частые 5xx, долгий TTFB, блокировки по User-Agent/Geo, агрессивный WAF/антибот — всё это режет crawl budget, и новые URL могут не доходить до индекса.

3) Проверки в Google Search Console / Яндекс Вебмастере (что скажет поисковик)

  • Инспекция URL: статус “доступен/не доступен для индексирования”, причина (blocked by robots, noindex, duplicate, discovered — currently not indexed и т.д.).
  • Покрытие/Индексирование: ошибки, исключённые страницы, дубликаты, «сканировано — не проиндексировано». Это помогает понять, проблема техническая или качественно-структурная.
  • Статистика сканирования: падение числа запросов, рост времени ответа, всплеск ошибок — признак инфраструктурной проблемы.
  • Проверка sitemap: сколько URL отправлено и сколько принято/в индексе; расхождения — повод чистить карту сайта от лишнего и чинить каноникализацию.

Практический план действий (что сделать команде за 1–2 часа)

  1. Возьмите 5–10 «проблемных» новых URL и проверьте по ним: 200 OK → robots/meta/X-Robots → canonical → наличие в sitemap → наличие внутренней ссылки.
  2. В вебмастере сделайте инспекцию каждого URL и зафиксируйте точную причину, почему не в индексе (не гадать, а смотреть статус).
  3. Если страницы сироты — добавьте ссылки из релевантных разделов (категории, блоки «похожие», хлебные крошки), и обновите sitemap.
  4. Если проблема в каноникале/редиректах — приведите всё к единой схеме URL и настройте постоянные 301 на единственную каноническую версию.
  5. Если бот «видит пусто» из-за JS — обеспечьте серверную выдачу ключевого контента (SSR/пререндер) или хотя бы HTML-версию контента для первого экрана.

Типичные ошибки, из-за которых новые страницы не индексируются

  • Оставили noindex после разработки/миграции или закрыли раздел в robots.txt и забыли открыть.
  • Включили шаблонный canonical на главную/категорию для всех карточек или на URL с параметрами.
  • Sitemap содержит мусор: 3xx/4xx, неканонические URL, страницы с noindex, или генерируется с неправильными датами lastmod.
  • Страницы создаются, но на них нет внутренних ссылок (боту неоткуда о них узнать, кроме sitemap).
  • Защита (WAF/антибот), капчи, ограничения по частоте или нестабильный сервер мешают краулингу.

Если дадите пример пары URL и опишете, как они создаются (CMS, шаблон, есть ли фильтры/параметры, SSR/SPA), я подскажу, какие 2–3 проверки приоритетны именно в вашем сценарии.

Ответы пользователей
Войдите, чтобы написать ответ
Войти через центр авторизации