Screaming Frog SEO Spider: аналіз результатів парсінгу

6433
7 хв.

Успішний аудит сайту — це фундамент оптимізації SEO. У цій статті розберемо інструмент для проведення технічного SEO-аудиту сайту Screaming Frog. Розглянемо можливості програми, якими найчастіше користуюся при аудиті сайту.

Почнемо з завантаження програми.

Завантажити Screaming Frog можна на офіційному сайті www.screamingfrog.co.uk. Програма безплатна, але за повний функціонал доведеться заплатити. Безплатна версія включає скрімінг 500 Urls і не підтримує додаткові розширення.

За річну підписку на розширену версію доведеться витратити близько 6 тис. грн. Якщо ви SEO-фахівець, ця програма must-have на "Робочому столі", вона істотно полегшить і прискорить збір і аналіз технічних недоліків сайту.

Розбір функціоналу, яким найчастіше користуюся.

Скрімінг фрог дозволяє сканувати сайт декількома способами:

  1. Spider:
    Сканування всього сайту, програм ходить по всім URLs ресурсу. Це дає повний аналіз сайту і дозволяє виявити всі "биті" посилання. У методу є недолік, який полягає в тому, що якщо у сайту пошкоджені JS-скрипти або проблеми з пагінацією, сканування може піти в нескінченний цикл. Що ж робити? Вихід є, за допомогою конфігурації Include або Extend можна позначити розділ, що парсінгуємо, або виключити відповідно. Наприклад:

Є завдання спарсити розділ сайту brander.ua/what-we-offer. Для цього я додаю правило в Configuration — Include.

Потім за допомогою регулярного виразу (синтаксис вказано у вікні) вводжу потрібний для сканування розділ.

Старт і вуаля. Ми просканували тільки окрему категорію на сайті. Бувають ситуації, коли необхідні для сканування сторінки не лежать в будь-якій вкладеності, а просканувати сайт повністю немає можливості по ряду причин (об'єм сайту, ламаний js тощо). Тоді діємо від зворотного. Можна внести в виключення Extend всі категорії, що істотно зменшить кількість урлів, і успішно спарсити залишок.

  1. List:
    Сканування сайту за списком URLs. Список необхідних для сканування сторінок ви можете вставити як файлом, так і мануально. У сканування List також є недолік. Якщо є список урлів, і хочеш спарсити тільки зовнішні посилання, то у звіті лист зробити цього не можна. Даний метод парсить тільки конкретні URL і не проходиться по ньому "павуком".
    Є можливість просканувати SiteMap. Це дозволяє знаходити помилки на проіндексованих сторінках.
  1. SERP:
    Цей режим не сканує сайт, а створений для роботи з мета-текстами. Можна завантажити позначки, редагувати й переглядати, як вони показуються в браузері.

Перед початком сканування сайту рекомендую увімкнути аналітику, що дозволить не робити окремих аналізів по всіх сервісах, а вивантажити все і відразу. Доступна аналітика по Google Analytics, Search Console, Moz, Pagespeed, Ahrefs, Majestiks. Це можна зробити за допомогою вкладки Configuration — API Access.

Історія парсінгу знаходиться у вкладці File — Craw Resent.

Широкий функціонал утиліти Screaming Frog дозволяє виключити зі сканування елементи сайту (картинки, JS, CSS тощо).

Якщо сайт багатомовний, в конфігурації потрібно ввімкнути установку Configuration - Spider - Crawl Linked XML Sitemap.

SPA сайти

Окремо варто згадати парсінг SPA сайтів. При дефолтних налаштуваннях результатом буде лише парсінг головного урла. Слід в Configuration — Spider у вкладці Rendering вибрати конфігурацію Old AJAX Crawling Scheme і запустити парсінг.

Закриті від індексації сайти

Є пару моментів налаштування парсінгу для сайтів, закритих від індексації. Необхідно "павука" направити по неіндексованих файлів. Відкриваємо для robots.txt:

Потім в мета роботс

І перевірити відсутність галки на Respect noindex:

Отже, завершили сканування сайту. Що ми можемо витягти з результатів сканування?

  1. Internal. У цій вкладці містяться всі внутрішні посилання сайту. Тут можемо впорядкувати URLs за кодом відповіді й відловити всі биті посилання і редіректи.
    У вкладці доступний фільтр (вибираємо елемент сайту).

Нижче доступний докладний звіт.

Найкорисніше в ньому:

  • Куди посилання веде і звідки. Вибравши урли з помилкою в докладному аналізі, вивантажуємо дані. І отримуємо файл з місцем розташування "некоректного" url.
  • Доступна візуалізація мета тексту в SERP.
  1. External. Тут знайдете всі зовнішні посилання сайту, що скануються. За аналогією з внутрішніми відловлюємо код відповіді й в доп. звіті дивимося, на якій сторінці сайту можна знайти посилання з не 200 відповіддю, і складаємо ТЗ на виправлення.
  1. Security. У цій вкладці показуються дані, пов'язані з безпекою внутрішніх URL-адрес сайту, що сканується (чи URL індексований або неіндексований, і чому неіндексований тощо). Змішаний контент — показує будь-які HTML-сторінки, завантажені через безпечне з'єднання HTTPS, які мають такі ресурси як зображення, JavaScript або CSS, що завантажуються через небезпечне з'єднання HTTP. Фільтр Http Urls виявить всі http-URLs, вивантажуємо докладний звіт і позбавляємося від усіх небезпечних елементів сайту.

У моєму випадку таких сторінок не виявлено, тому кнопка експорту не активна.

  1. Response code. Звіт по всім УРЛ, який можна відсортувати за кодом відповіді й завантажити у звіт для доопрацювання всі не 200 відповіді.
  1. Page Titles. Звіт в даній вкладці показує, на яких сторінках проставлений Title мета-тексту, і де його немає. Виявляємо дублі, занадто короткі/довгі заголовки.
  1. Meta description. Той же звіт, що і Page Titles, тільки для діскріпшена на сторінку. Знаходимо дублі, довгі/короткі описи, відсутнє, і оптимізуємо.
  1. H1 і H2. Дозволяє знайти сторінки без заголовка або вказує їх кількість і довжину на сторінці.
  1. Images. У цій вкладці аналізуємо розмір зображень на сайті. За допомогою фільтра "over 100 Kb" вивантажуємо у звіт картинки, які необхідно стиснути. Також в цій вкладці доступний аналіз Alt-тексту, де його пропущено, або не присвоєно атрибут альт.
  1. Canonical. Звіт показує канонічні й нон-канонікал. У фільтрі можна вибрати помилки, що цікавлять, й зробити аналіз, де проставити, а де змінити Canonical.
  1. Pagination. У цьому розділі можна відловити всі помилки, пов'язані з пагінацією. Виявляє перші сторінки пагінації з тегом rel = "prev", перевіряє наявність цього тега в усіх 2+ сторінках, показуючи, що сторінка не перша. Вказує URL-адресу розбиття на сторінки з кодом відповіді не 200. Виявляє незв'язні адреси розбиття на сторінки.
  1. Hreflang. Показані помилки з атрибутами hreflang (різні коди мови на одній сторінці та інше, не 200 відповідь сервера, сторінки, на яких відсутні гіперпосилання).

Функціонал Screaming Frog дозволяє отримати візуальну структуру каталогу сайту у вигляді графи або діаграми.

Описувати всі налаштування парсінгу програми SF можна довго, а й чи потрібно? У цій статті розповіла про всі найчастіші й найпотрібніші налаштування. У нішевих параметрах налаштування можна попорпатися після освоєння бази утиліти. Сподіваюся, було корисно. Успішних вам SEO-аналізів і топових позицій в SERP!

03 червня 2021
5 / 5 (17 голосів)