Как использовать векторные вложения для составления карты редиректов в Screaming Frog SEO Spider

Популярный сканер SEO Spider обзавелся функцией анализа семантического сходства страниц с использованием векторных вложений. Эта технология открывает принципиально новые возможности для автоматизации любой работы с контентом. Рассказываем, как внедрить семантический анализ страниц и какие полезные дополнительные возможности имеет эта технология имеет для SEO-продвижения сайтов.
Что изменилось: от простого текста к пониманию смысла
Традиционные методы поиска дублированного контента ограничивались сравнением текста "символ в символ". Новая функция использует возможности искусственного интеллекта для понимания смысла страниц, что позволяет находить семантически близкие материалы даже при различном содержании.
Практический пример: Страница "Услуги веб-разработки" на старом сайте может быть автоматически сопоставлена со страницей "Создание сайтов" на новом или действующем ресурсе, несмотря на различную формулировку заголовков.
Для чего может быть использован инструмент
- перенос контента (внутри сайта или снаружи)
- автоматическая линковка сайта
- линковка между последовательными материалами или сюжетами
- поиск схожих материалов и выстраивание их в сюжет
- связка контента тегами итд.
Пошаговое руководство по настройке семантического анализа
Этап 1: Подключение AI-провайдера
Система поддерживает три основных провайдера машинного обучения:
- OpenAI - универсальное решение с высокой точностью
- Gemini - рекомендуемый вариант для семантического анализа
- Ollama - локальное решение для конфиденциальных проектов
Настройка выполняется через раздел Config > API Access > AI.
Потребуется действующий API-ключ выбранного провайдера.
Этап 2: Конфигурация промптов
В разделе Prompt Configuration
необходимо добавить специализированный промпт из библиотеки. Для Gemini рекомендуется выбрать Extract Semantic Embeddings from Page
с типом задачи SEMANTIC_SIMILARITY
.
Важно: Система автоматически исключает навигационные элементы и футер, анализируя только основной контент страницы.
Этапы 3-5: Техническая подготовка
- Активация подключения к API в разделе
Account Information
- Включение опций
Store HTML
иStore Rendered HTML
черезConfig > Spider > Extraction
- Активация функции вложений в
Config > Content > Embeddings
Этап 6: Оптимизация сканирования
Для повышения скорости работы рекомендуется отключить сканирование ресурсов и внешних ссылок в разделе Config > Spider > Crawl
(если не используется JavaScript-рендеринг).
Практическое применение: сканирование двух сайтов
Подготовка к анализу
Переключение в режим списка (Mode > List
) позволяет одновременно сканировать старый и новый сайты. Обязательно отключите ограничение глубины сканирования в Config > Spider > Limits.
Через функцию Upload > Enter Manually
внесите URL обоих доменов для комплексного анализа.
Запуск анализа
После завершения сканирования необходимо активировать анализ через Crawl Analysis > Start
. Процесс можно автоматизировать, выбрав опцию Auto-Analyse at End of Crawl
.
Интерпретация результатов
Ключевые показатели
Во вкладке Content
появляется столбец Closest Semantically Similar Address
с наиболее подходящими соответствиями для каждого URL.
Показатель качества: Колонка Semantic Similarity Score
содержит оценки от 0 до 1. URL с оценкой ниже 0.95 требуют дополнительной проверки.
Валидация и контроль качества
Критически важно: Результаты требуют обязательной ручной проверки.
Особое внимание следует уделить:
- URL с низкими показателями семантического сходства
- Страницам, сопоставленным с тем же поддоменом
- Соответствиям с оценкой ниже установленного порога
Дополнительные возможности
Анализ множественных соответствий
Столбец No. Semantically Similar
показывает количество семантически близких страниц. Детальный просмотр доступен через вкладку Duplicate Details
.
Экспорт данных
Результаты можно экспортировать через Bulk Export > Content > Semantically Similar
для дальнейшей обработки в Excel или специализированных системах управления редиректами.
Альтернативные решения
Помимо SEO Spider, специалисты могут использовать:
- Python-скрипт от Марка Уильямса-Кука - использует модели MiniLM-L6-v2 и FAISS
- Нечеткое сопоставление - методика, описанная Лазариной Стой
- Rapid301 - коммерческое решение с собственным алгоритмом
Выводы для SEO-специалистов
Интеграция AI-технологий в SEO Spider значительно упрощает процесс переноса сайтов, проверки сайтов на дубли. Автоматизация поиска семантических соответствий экономит десятки часов ручной работы, однако не исключает необходимости экспертной оценки результатов.
Практическая рекомендация: Используйте новую функцию как отправную точку для составления карты редиректов, карты ссылок, но обязательно проводите финальную проверку всех автоматически созданных соответствий.