Screaming Frog SEO Spider: анализ результатов парсинга

6459
7 мин.

Успешный аудит сайта — это фундамент оптимизации SEO. В этой статье разберем инструмент для проведения технического SEO-аудита сайта Screaming Frog. Рассмотрим возможности программы, которыми чаще всего пользуюсь при аудите сайта.

Начнем с загрузки программы.

Скачать Screaming Frog можно на официальном сайте www.screamingfrog.co.uk Программа бесплатная, но за полный функционал придется заплатить. Бесплатная версия включает скриминг 500 Urls и не поддерживает дополнительные расширения.

За годовую подписку на расширенную версию придется потратить около 6 тыс. грн. Если вы SEO-специалист, эта программа must-have на “Рабочем столе”, она существенно облегчит и ускорит сбор и анализ технических недочетов сайта.

Разбор функционала, которым чаще всего пользуюсь.

Скриминг фрог позволяет сканировать сайт несколькими способами:

  1. Spider:
    Сканирование всего сайта, программ ходит по всем URLs ресурса. Это дает полный анализ сайта и позволяет обнаружить все “битые” ссылки. У метода есть недостаток, который заключается в том, что если у сайта поврежденные JS-скрипты или проблемы с пагинацией, сканирование может уйти в бесконечный цикл. Что же делать? Выход есть, с помощью конфигурации Include или Extend можно обозначить парсингуемый раздел или исключить соответственно. Например:

Есть задача спарсить раздел сайта brander.ua/what-we-offer. Для этого я добавляю правило в Configuration — Include.

Затем с помощью регулярного выражения (синтаксис указан в окне) ввожу нужный для сканирования раздел.

Старт и вуаля. Мы просканировали только отдельную категорию на сайте. Бывают ситуации, когда необходимые для сканирования страницы не лежат в какой-либо вложенности, а просканировать сайт полностью нет возможности по ряду причин (объем сайта, ломаный js и тд.). Тогда действуем от обратного. Можно внести в исключения Extend все категории, что существенно уменьшит количество урлов, и успешно спарсить остаток.

  1. List:
    Сканирование сайта по списку URLs. Список необходимых для сканирования страниц вы можете вставить как файлом, так и мануально. У сканирования List также есть недостаток. Если есть список урлов, и хочешь спарсить только внешние ссылки, то в отчете лист сделать этого нельзя. Данный метод парсит только конкретные URL и не проходится по ним “пауком”.
    Есть возможность просканировать SiteMap. Это позволяет находить ошибки на проиндексированных страницах.
  1. SERP:
    Этот режим не сканирует сайт, а создан для работы с мета-текстами. Можно загрузить меты, редактировать и просматривать, как они отображаются в браузере.

Перед началом сканирования сайта рекомендую подключить аналитику, что позволит не делать отдельных анализов по всем сервисам, а выгрузить все и сразу. Доступна аналитика по Google Analytics, Search Console, Moz, Pagespeed, Ahrefs, Majestiks. Это можно сделать с помощью вкладки Configuration — API Access.

История парсинга находится во вкладке File — Craw Resent.

Широкий функционал утилиты Screaming Frog позволяет исключить из сканирования элементы сайта (картинки, JS, CSS и тд.).

Если сайт мультиязычный, в конфигурации необходимо включить параметры Configuration - Spider - Crawl Linked XML Sitemap.

SPA сайти

Отдельно стоит упомянуть парсинг SPA сайтов. При дефолтных настройках результатом будет только парсинг главного урла. Следует в Configuration — Spider во вкладке Rendering выбрать конфигурацию Old AJAX Crawling Scheme и запустить парсинг.

Закрытые от индексации сайты

Есть пару моментов настройки парсинга для сайтов, закрытых от индексации. Необходимо “паука” направить по неиндексированным файлам. Открываем для robots.txt:

Затем в мета роботс:

И проверить отсутствие галки на Respect noindex:

Итак, завершили сканирование сайта. Что мы можем извлечь из результатов сканирования?

  1. Internal. В этой вкладке содержатся все внутренние ссылки сайта. Тут можем отсортировать URLs по коду ответа и отловить все битые ссылки и редиректы.
    Во вкладке доступен фильтр (выбираем элемент сайта).

Ниже доступен подробный отчет.

Самое полезное в нем:

  • Куда ссылка ведет и откуда. Выбрав урлы с ошибкой в подробном анализе, выгружаем данные. И получаем файл с местом расположения “некорректного” url.
  • Доступна визуализация мета текста в SERP.
  1. External. Здесь найдете все внешние ссылки сканируемого сайта. По аналогии с внутренними отлавливаем код ответа и в доп. отчете смотрим, на какой странице сайта находятся ссылки с не 200 ответом, и составляем ТЗ на исправление.
  1. Security. В этой вкладке отображаются данные, связанные с безопасностью внутренних URL-адресов сканируемого сайта (является ли URL индексируемым или неиндексируемым, и почему неиндексирован и тд). Смешанный контент — показывает любые HTML-страницы, загруженные через безопасное соединение HTTPS, которые имеют такие ресурсы как изображения, JavaScript или CSS, загружаемые через небезопасное соединение HTTP. Фильтр Http Urls выявит все http-URLs, выгружаем подробный отчет и избавляемся от всех небезопасных элементов сайта.

В моем случае таких страниц не обнаружено, поэтому кнопка экспорта не активна.

  1. Response code. Отчет по всем УРЛ, который можно отсортировать по коду ответа и загрузить в отчет для доработки все не 200 ответы.
  1. Page Titles. Отчет в данной вкладке показывает, на каких страницах проставлен Title мета-текста, и где его нет. Выявляем дубли, слишком короткие/длинные заголовки.
  1. Meta description. Тот же отчет, что и Page Titles, только для дискрипшена к странице. Находим дубли, длинные/короткие описания, отсутствующее, и оптимизируем.
  1. H1 и H2. Позволяет найти страницы без заголовка или указывает их количество и длину на странице.
  1. Images. В этой вкладке анализируем размер изображений на сайте. С помощью фильтра “over 100 Kb” выгружаем в отчет картинки, которые необходимо сжать. Также в этой вкладке доступен анализ Alt-текста, где он пропущен, либо не присвоен атрибут альт.
  1. Canonical. Отчет отображает канонические и нон-каноникал. В фильтре можно выбрать интересующие ошибки и сделать анализ, где проставить, а где изменить Canonical.
  1. Pagination. В этом разделе можно отловить все ошибки, связанные с пагинацией. Выявляет первые страницы пагинации с тегом rel = "prev", проверяет наличие этого тега во всех 2+ страницах, показывая, что страница не первая. Указывает URL-адрес разбиения на страницы с кодом ответа не 200. Выявляет несвязные адреса разбиения на страницы.
  1. Hreflang. Отображены ошибки с атрибутами hreflang (разные коды языка на одной странице и прочее, не 200 ответ сервера, страницы, на которых отсутствуют гиперссылки).

Функционал Screaming Frog позволяет получить визуальную структуру каталога сайта в виде графы или диаграммы.

Описывать все настройки парсинга программы SF можно долго, а и нужно ли? В этой статье рассказала обо всех самых частых и нужных настройках. В нишевых параметрах настройки можно покопаться после освоения базы утилиты. Надеюсь, было полезно. Успешных вам SEO-анализов и ТОПовых позиций в SERP!

04 июня 2021
5 / 5 (17 голосов)