SEO-СОФТ И СЕРВИСЫ

БЛОГ

К основной статье с описанием краулера LinksTamed
Дата обновления: 02.03.2021

Поиск частичных дубликатов на сайте,
а также проверка Canonical, Clean‑param и пагинаций

Оглавление
 1.   Эвристический поиск дубликатов на сайте
 1.1 Как отключить эвристический поиск дубликатов по контенту
 2.   Окно детального просмотра дубликатов страницы
 3.   Умный % соответствия
 3.1 Почему минимальный процент соответствия 82
 4.   Постобработка: автоматическое доуточнение результатов
 5.   Фильтрация найденных дубликатов
 6.   Выгрузка всех дубликатов в формате CSV
 7.   Важные моменты относительно поиска дубликатов,
       которые не вошли в разделы выше

 8.   Исключение блоков макета страницы вручную
 9.   Эвристические консолидации
 9.1. Эвристические дубликаты
 9.2. Эвристические страницы пагинаций
 10.   Проверка и склейка явно указанных canonical и Clean-param
 10.1. Обработка canonical
 10.2. Обработка Clean-param
 11.    Перерасчёты и время на повторный поиск дублей
 12.    В чём проявляется в интерфейсе склейка
эвристических дублей, пагинаций, Canonical и Clean-param

     LinksTamed в интернет‑магазине Chrome

Бесплатно найдите похожие страницы с дублирующим контентом и устраните недочёты, которые могут вызвать проблемы с продвижением сайта. Фирменный алгоритм сэкономит время за счёт фокусировки анализа на важных словах и зонах документов. Удобные инструменты для работы с дублями, рекомендации и умная визуализация ценных различий позволит быстро устранить важные проблемы с дубликатами на сайте. Встроенные алгоритмы также проверят уже имеющиеся Canonical и Clean‑param. Более того, LinksTamed автоматически склеит все достаточно похожие страницы и отвечающие базовым требованиям страницы пагинаций (категорий товаров и многостраничные статьи), чтобы вы могли увидеть более реалистичную структуру сайта. Продвинутые пользователи могут также исключать шаблонные блоки документов и проводить мультидоменные сравнения по спискам.

Эвристический поиск дубликатов на сайте — метрика «дубли на грани»

Хотите найти и удалить дубли на сайте?
Просто запустите парсинг в LinksTamed и он по умолчанию найдёт все частичные дубликаты, похожие по тексту!

Парсер обходит домен по правилам для выбранного в настройках бота поисковой системы: сканирует страницы сайта, включая асинхронно погружаемый JavaScript контент, после чего самостоятельно проводит поиск частичных дубликатов. Результаты отображаются на главной странице парсера в столбце итоговой таблицы ⚙ДУБЛИ на грани в виде количества похожих документов для каждой страницы.
Частичные дубликаты страницы, рекомендации и различия
На иллюстрации выше, где изображен фрагмент итоговой таблицы, Вы можете видеть, что часть дубликатов вместо числового значения могут иметь  ←. Это значит, что страница является дубликатом с очень похожим контентом, который превысил порог эвристического склеивания и был объединен с канонической страницей автоматически. Вам остается лишь указать на сайте для таких страниц canonical c URL-адресом из соседнего столбца эвристические консолидации, который будет иметь метку (эвристический дубликат). На сайте также можно закрыть от индексации такие страницы (noindex, none, Disallow), сделать редирект с HTTP-кодом 301 или, наоборот, провести работы по их уникализации, если они имеют дополненную ценность.
Для страниц, которые уже имеют указание на каноническую версию через рекомендацию canonical, дубликаты не отображаются с целью уменьшения количества дублей «на грани», не требующих от пользователя дальнейших работ по дедубликации. В любом случае в строке самой канонической страницы можно посмотреть все страницы на которые она похожа (в столбце ⚙ДУБЛИ на грани), а также те, которые приклеены к ней, но для которых она сама не является полным или частичным дубликатом (в столбце ссылок с весомin). Это можно сделать через всплывающее окно с деталями, о котором рассказано в следующем разделе. LinksTamed также проверяет правильность уже имеющихся на сайте рекомендаций canonical: если для каких-либо страниц указанные на них canonical признаны недействительными, их список будет перечислен в таблице с результатами аудита, а в самом столбце Canonical такая ссылка будет отсутствовать. LinksTamed делает множество проверок и предупредит даже из двух страниц вы выбрали канонической неоптимальную, например, из-за того, что на неё ведёт меньше входящих ссылок, чем на той, в коде которой указан canonical.
Как отключить эвристический поиск дубликатов по контенту
В информационном блоке Этапы работы парсера снять галочку в разделе этапа Эвристический анализ неявных дублей, качество акцента, возможные опечатки. В процессе анализа дубликатов также возможно остановить поиск с текущим количеством найденных дубликатов страниц нажав в этом разделе кнопку . Парсер продолжит работать с теми дубликатами, которые были найдены на момент прерывания поисков. Дубликаты продолжают склеиваться по имеющимся canonical и Clean-param даже без анализа контента (после простой проверки доступности документа).

Окно детального просмотра дубликатов страницы

Любое цифровое значение в столбце ⚙Дубли на грани кликабельно и вызывает окно, на котором дубли страницы раскрыты детально:

Дубли страницы детально

Внутри всплывающего окна показаны и рассортированы по разделам не только частичные дубли на грани для данной страницы, но и эвристически склеенные и имеющие действительную отметку canonical документы. Имеется возможность сделать выгрузку данной таблицы в формате CSV.
Одним из двух наиболее интересных показателей в окне является столбец с заголовком  ★ , значения которого показывают, насколько предпочтительна страница (в строке) с дублирующим контентом на роль канонической страницы, исходя из её авторитетности. Значения подсказывают, что лучше всего проставить канонические ссылки со страниц с большим значением, указав страницу с меньшим (разумеется, если после осмотра вы пришли к выводу, что копии не имеют дополненной ценности). % соответствия при этом не учитывается при создании рейтинга. Поскольку вы можете решить, что в таблице несколько подгрупп и для каждой подходит своя каноническая страница, минимальное число для каждой такой подгруппы будет также указывать на оптимальную.

Второй и наиболее интересный столбец Различия в ценных словах показывает самые ценные слова, которые есть только у страницы ЭТА или её дубликатов.
Фирменная визуализация различий от LinksTamed показывает именно те словоформы, которые высоковероятно имеют реальную ценность для быстрого принятия решений в плане SEO. Больше не нужно сравнивать документы визуально, и тратить время на изучение не влияющих на SEO дублирующих участков контента. Преимущество отображения несоответствий в виде списков проявляются при выгрузке всех дубликатов в файл с таблицей в формате CSV — на данный момент это единственная в мире эффективная технология, позволяющая изучать дублирующие страницы вне интерфейса SEO-софта.

Обязательные для понимания детали по визуализации различий:
  • Строка со страницей ЭТА никогда не содержит различий, так как все сравнения идут относительно неё в строках её дубликатов;
  • В ячейке отображаются слова с наибольшим весом и ценностью, которые есть только у страницы строки и нет у страницы ЭТА, для которой было вызвано окно;
  • Слова, которые есть только у страницы ЭТА начинаются с минусом (то есть этих слов у страницы строки нет). В примере на иллюстрации выше только ЭТА имеет словоформу «уникальное», а вот все остальные имеют цифры «11 12 13 14 15», которых нет в ЭТА. То, что выбраны столь незначительные различия как цифры, подсказывает, что более ценных различий нет;
  • Показывается не более 5 слов без минуса и не более 5 с минусом. Если слов менее пяти, значит только это количество уникальных слов имеется у страницы и нет у её дубликата;
  • Если слова не рядом, они идут через запятую ,;
  • Если есть различия в тайтле, они идут перед символом точки с запятой ;. Если различий в тайтле станицы нет — в начале будет ;. Если при сравнении двух страниц уникальных словоформ не нашлось вообще, в столбце % будет указанно 100, а ячейка будет пуста. В примере на прошлой иллюстрации различия в TITLE-заголовке страницы отсутствуют, поэтому перед ; и -; ничего нет;
  • Если между двумя словами удалены при парсинге незначащие части речи и оба они попали в различия (по спискам минус-слов на странице ПАРАМЕТРЫ), они будут без запятой;
  • Слова идут по порядку, как в DOM-дереве, то есть после выбора 5 наиболее редких слов последовательность восстанавливается;
  • Слова в ссылках игнорируются для целей визуализации и если на одной странице ссылка на себя перестает быть ссылкой, а на другой останется, оно может быть указанно как различие.
Обратите внимание, что значения столбца Различия в ценных словах рассчитываются в процессе постобработки, после того, как данные уже выведены и требует некоторого времени. Подробнее в разделе «Постобработка...»

Умный % соответствия

Поиск дубликатов страниц на сайте просто по участкам текста, которые имеют одинаковую ценность, не всегда эффективен: специалисты сталкивались с огромным количеством признанных схожими из-за неважных деталей документов, особенно при малом количестве уникального контента на страницах, например, на карточках товаров. Поиск дублей страниц в LinksTamed работает иначе и выполняет сравнение деликатнее большинства алгоритмов благодаря фирменному программно-аппаратному комплексу решений, на которые подана патентная заявка.

Основные приемы повышения качества расчёта процента соответствия дубликатов по контенту в LinksTamed:

Таким образом, несмотря на то, что процент соответствия отражает скорее процент соответствия смысла, а не просто количество совпавших слов, его значения, в подавляющем числе случаев, являются интуитивно более понятными и выглядят более естественными при работе с дубликатами.

Почему минимальный процент соответствия 82

В процессе использования парсера Вы можете обратить внимание, что дубли страниц ниже 82% не отображаются в результатах. Данный минимальный процент соответствия, который попадает в таблицу, отвечает двум рациональным величинам, объясняя также название самой метрики «дубли на грани»: Всё это позволяет убрать дубли, которые не представляют никакой ценности для специалистов и не пригодятся при работе с сайтом.

Постобработка: автоматическое доуточнение результатов поиска дубликатов

После окончания всех расчётов и вывода результатов алгоритму требуется ещё некоторое время для уточнения % соответствия дубликатов от 97% и выше (в большую сторону), а также визуализации различий ценных слов для всплывающих окон с дубликатами и соответствующего столбика выгрузки дубликатов в CSV. Постобработка не влияет на уже сделанные расчёты, в том числе не меняет отображаемое количество дубликатов в таблице и служит лишь для визуализации различий.

Необходимость дополнительной обработки вызвана тем, что расчёт последних 2-3% основным алгоритмом занял бы более 20% времени. Постобработка работает по другому — в процессе поиска ценных различий на уточнение % вообще не тратится дополнительного времени, при этом пользователь уже имеет доступ ко всем готовым данным. Сообщение об окончании постобработки отображается в блоке Основные этапы парсинга и обработки данных.

Фильтрация найденных дубликатов

LinksTamed предлагает пользователю два вида инструментов для уменьшения количества копий страниц с дублирующим контентом: Удаление дублей из отображаемых в таблицах данных действуют также и на .

Выгрузка всех дубликатов в формате CSV

Все полные дубликаты и частичные копии страниц от 82%, а также информацию о пагинациях можно выгрузить через на главной странице парсера. В выгрузке предоставляется исключительно подробная информация для работы с дублирующим контентом и дальнейшей оптимизации сайта вне интерфейса программы:
  • TITLE-заголовки и URL-адреса страниц;
  • Насколько подходит на роль канонической;
  • URL уже канонический для;
  • URL канонической страницы (с отметкой, если признана эвристически, то есть без canonical);
  • Эвристической пагинации главная;
  • URL недействительного canonical (если отменен алгоритмом);
  • Дубликатов на грани у URL (цифровое значение или ←←←← указывающие на ячейку с URL-адресом признанной эвристически канонической страницы);
  • УВ (кликов от главной);
  • Статический вес страницы (если не приклеена к другой);
  • Входящих ссылок (передающих вес), включая приклеенные;
  • Слов (на странице);
  • Качество акцента;
  • Сколько раз уже встречалась выше как вторичная (помогает быстрее ориентироваться, если таблица еще не сортировалась);
  • Есть неучтенные дубликаты (фильтры или ограничения, например, удалены в ручную или превышены пределы на общее количество дубликатов для выгрузки).
К каждой странице, для которой есть дубликаты «на грани», в дополнение к общим полям, для всех её дубликатов расписаны:
Несколько важных моментов при выгрузке:
  • Ручные фильтры дубликатов действуют и на выгрузку;
  • Если сделать выгрузку не дождавшись окончания процесса визуализации различий в процессе постобработки (описано в отдельном разделе), значение поля будет отображено как NOT_LOAD. Если для строки с NOT_LOAD процент соответствия от 97% и более, он также не был уточнен и может быть от 97 до 100%.
  • Кодировка файла «Юникод UTF-8». В старых версиях MS Excel могут возникнуть проблемы с кодировкой. В этом случае удобнее всего открывать файл в OpenOffice Calc или поменять кодировку на «Windows-1251» с потерей символов вне латинского и кириллического диапазонов.

Важные моменты относительно поиска дубликатов, которые не вошли в разделы выше:

  1. На данный момент алгоритм рассчитан на работу с сайтами до 100 000 страниц (от 10 000 страниц необходима опция Выводить↓ не более 1000 строк каждого раздела в текущей сортировке). Для ускорения поисков на сайтах от 20 000 более страниц рекомендуется вручную исключать шаблонные элементы из поисков с помощью методов описанных в разделе «Исключение блоков макета страницы из поисков»;
  2. Скорость поиска дубликатов: в среднем 20 000 страниц в час и зависит от количества контента и мощности ядер процессора;
  3. Мультидоменный парсинг по списку: указание нескольких адресов позволяет искать не только внутренние дубли страниц, но и сравнивать документы из списка с любых доменов. Однако необходимо помнить, что для уменьшения влияния шаблонных элементов нужно не менее 15-ти страниц с каждого домена.
  4. Алгоритм осуществляет поиск неявных дубликатов только на тех страницах, на который смог попасть краулер согласно правилам для выбранного в настройках поискового бота. Отрабатывается JavaScript и подгружается контент, который активизирует первый видовой экран (прокрутка не осуществляется). Если страница исключена из индекса директивами (noindex, nofollow; none; Disallow) или рекомендациями, такими как Clean-param и canonical, а также если на страницу ведут только nofollow ссылки, контент такой страницы не обрабатывается;
  5. LinksTamed индексирует не более 1 048 576 символов или 64 967 слов на документ;
  6. Помимо текста и анкоров ссылок, при сравнении страниц учитывается TITLE-заголовок страницы, description и описание изображений в атрибуте ALT тега IMG;
  7. LinksTamed сохраняет для каждой страницы до 200 найденных на сайте дублей, но если в сумме будет найдено более 1 500 000, то не более 10-ти для каждой последующей страницы с дублями. Эти пределы могут быть меньше, так как удаление страниц с работоспособным canonical происходит позже. Если для страницы есть несобранные из-за превышений дубликаты, число в соответствующем столбце будет оранжевым;
  8. Если на сайте менее 50 страниц с нормальным контентом, возможны неточности из-за недостаточного для обучения алгоритма количества страниц. Алгоритм обладает двумя уровнями устранения влияния шаблонных элементов: если на сайте менее 15-ти страниц с одним шаблоном, не сработает автоматическое снижение ценности шаблонных элементов, а если на сайте менее 80-ти страниц с одинаковыми фрагментами, то они не могут быть удалены полностью (будет лишь снижена их ценность, если таких шаблонных элементов не менее 15-ти);
  9. Вы можете проводить сравнение страниц по спискам, в том числе и с разных сайтов, однако следует учитывать, что снижение влияния шаблонных элеметнов на итоговый % соответствия возможно только если вы предоставили не менее 15-ти страниц с одинаковым шаблоном. При 80-ти страницах с одинаковым шаблоном сработает фильтр уже более полного удаления шаблонных фрагментов, которые есть на всех этих страницах;
  10. Обратите внимание, что в списке дублей могут быть страница с гораздо большим количеством контента - это значит, что она не является дубликатом в классическом понимании этого слова, а содержит почти весь набор текущей страницы, вследствие чего может быть признана канонической, а текущая страница будет к ней приклеена;
  11. Список страниц с идентичными TITLE-заголовками страницы отображается отдельно в аудите;
  12. Функционал модуля ориентирован не на работу с отдельными фрагментами текста, а на поиск страниц и визуализация различий, которые могут оказать влияние на позиции сайта: вылиться в виде низких позиций в ПС из-за большого количества «мусорных» документов, привести к исключению страниц из индекса или склеиванию нескольких страниц алгоритмом поисковой системы — всё о чём действительно стоит беспокоиться SEO-специалистам, Web-мастерам и владельцам сайтов.

Исключение блоков макета страницы вручную

Модуль Web scraping в составе LinksTamed позволяет находить и производить действия с тегами и их содержимым на странице.
За счет исключения шаблонных элементов в макете страницы по вашим правилам, Вы можете повысить чувствительность поиска дублей, например, чтобы минимизировать влияние шаблонных элементов на разных сайтах, и увеличить скорость анализа больших сайтах. Более того, исключив все ненужные области, можно анализировать определенный блок контента.

Парсер поддерживает два метода, которые позволяют не учитывать элементы макета на странице при оценке дубликатов:

  1. Метод ==nottext== удаляет только текст и анкоры, оставляя при этом сами ссылки, чтобы краулер мог находить новые URL-адреса в этом блоке для их последующего обхода, что обеспечит правильный расчёт статического веса страниц.
  2. Метод ==ignore==  заставляет полностью игнорировать участок макета, включая ссылки, и может значительно ускорить парсинг на всех его этапах. Метод вполне безопасно применять для подвалов или если вы хотите исключить некоторые блоки с хаотически изменяемым контентом (например, облака ссылок) из расчётов статического веса. Стоит отметить, что модуль веб-скрейпинга имеет другие способы размечать ссылки для дальнейших манипуляций с ними, включая исключение из расчётов с возможностью их повторного восстановления для перерасчётов.
Правила необходимо указать до начала парсинга, поэтому рекомендуется использовать инструмент тестирования, который позволит визуализировать правила на 1-10 страницах прямо в окне браузера.
Исчерпывающую информацию о данных методах исключения блоков макета, а также примеры для быстрого создания и тестирования правил, читайте на странице с описанием функций Веб-скрейпинга.
Также обратите внимание, что на странице ПАРАМЕТРЫ можно заблокировать внешние ресурсы по домену, в том числе и скрипты с рекламной в виде текста.

Эвристические консолидации

В столбце Эвристические консолидации итоговой таблицы отображаются автоматически склеенные страницы двух типов:

  1. Эвристические дубликаты

    Страница является дубликатом, дублирование контента в которой превысило порог эвристического склеивания (от 97.5% и выше) и поэтому данный документ объединен с канонической страницей автоматически самим парсером на основе схожести контента, даже если отсутствует canonical. Вам остается лишь указать для таких страниц canonical на самом сайте или запретить их индексацию для устранения эффекта каннибализации в выдаче, а также снижения рисков для поискового трафика и уменьшения трат краулингового бюджета. Также, напротив, вы можете провести работы по уникализации данных, если страницы имеют самостоятельную ценность и потенциал для их уникализации. Консолидация этого типа будет иметь метку (Дубликат) перед URL-адресом в столбце Эвристические консолидации. В случае, если производился поиск частичных дубликатов (включен по ум.), значение в столбце ⚙Дубли на грани, будет указывать на эту ссылку с помощью  ←, так как алгоритм определил, что наиболее оптимальная страница уже выбрана и не имеет смысла рассматривать для неё дублирующий контент с участием пользователя. В любом случае в строке самой канонической страницы можно посмотреть её дубликаты и кто ещё к ней был приклеен.
    Как склеиваются схожие страницы сайта и почему это может отличаться от результатов в поисковой системе.
    Из нескольких похожих страниц алгоритм выбирает канонической ту, что обладает лучшим набором метрик качества, таких как входящие сигналы с других проанализированных парсером страниц сайта или, например, количества текста, а если страницы идентичны, приоритеты определяются порядком, в котором краулер просканировал страницу.
    Найденные алгоритмом дубликаты могут быть не склеены в поисковых системах по разным причинам, например, одной из страниц нет в индексе или она проиндексирована не достаточно давно. LinksTamed также не учитывает сигналы с внешних сайтов и не анализирует уникальность изображений с помощью компьютерного зрения, лишь сравнивая их описание в атрибуте ALT. В остальном поиск дубликатов в LinksTamed производит академически верные расчёты и работает деликатнее алгоритмов поисковых систем, которые испытывают проблемы с созданием полной коллекции практически идентичных документов и выбора из них оптимального, особенно если дубликаты появляются в разное время. В результате не самые лучшие документы по текстовым и иным метрикам могут быть основными в выдаче, поэтому результаты могут разниться, однако в целом по распределению и показаниям статического веса в таблице, получается очень близкая картина, потому что при большом количестве дубликатов, получается реалистичное распределение статических весов по разделам.
    В любом случае страницы для которых могут быть замечены неточности, имеют серьезные проблемы и требуют работ по их дедубликации, запрету индексации или объединения через указание canonical.

    Канонические страницы могут также отличаться при повторных краулингах идентичного сайта:

    1. количество страниц или текста, включая мелкие фрагменты, изменилось, а вместе с ним изменилась и ценность слов, что играет роль при низких процентах соответствия;
    2. недостаточные таймауты привели к недогрузке на случайных страницах важного при оценке контента;
    3. Практически идентичные страницы просканированы в разной очерёдности, что играет роль в некоторых случаях.
    4. Если на сайте есть страницы почти без контента, они будут похожи практически на все страницы сайта. Для таких страниц собирается рационально оправданное количество претендентов на более детальную проверку, где при прочих равных играет роль, в том числе, и порядок сканирования страниц, который может отличаться из-за многопоточности.
    Как отключить эвристическое склеивание дубликатов страниц: в раскрываемом разделе Фильтры расчётов статического веса, разметка ссылок и извлечение значений (web scraping) на главной странице LinksTamed в подразделе Другие фильтры поставить галочку в опции Не склеивать эвристически дубликаты…. Если сканирование сайта уже завершено, необходимо провести пострасчёты повторно (пересканирование сайта не требуется). Все страницы, которые имеют рекомендацию canonical всё равно будут склеены по правилам.
  2. Эвристические страницы пагинаций

    Новая версия LinksTamed больше не руководствуется при склейке пагинаций и многостраничных материалов указаниями prev\previous\next и перешла на эвристический поиск. Рекомендации служат теперь лишь для целей аудита и проверки эвристической склейки. Консолидация этого типа будет иметь метку (Пагинация) перед URL-адресом в столбце Эвристические консолидации.
    Чтобы страницы были правильно приклеены к первой странице пагинации, они должны отвечать следующим правилам:
    1. Обладать одинаковым TITLE-заголовоком в основной его части, а также:
      • Все последующие страницы структуры должны иметь различия в хвосте тайтла в виде признаков постраничного разбиения, такие как цифры и признак в виде слова страница, часть, part, page, сторінка, частина. Разрешается также дополнение в виде из и of с количеством страниц в данном многостраничном материале. Таким образом, поддерживаются русский, английский, украинский и белорусский языки;
      • Если страницы имеют одинаковые тайтлы страницы без признаков постраничного разбиения, последующие страницы структуры должны иметь признаки в URL-адресе, такие как: page(s)=n или page(s)/n, при этом в аудите всё равно будет предупреждение об одинаковых заголовках документов (правило действует с v. 2.0.0.1).
      1. Первая страница структуры может не иметь дополнительных признаков;
      2. Если проводились работы по уникализации TITLE-заголовков пагинаций (сортировок, фильтров), такие страницы не могут быть склеены между собой, однако возможны комбинации с canonical и, например, страницей «показать все»
    2. Иметь взаимные ссылочные взаимосвязи в пределах структуры-кандидата на склейку и ссылки на главную страницу пагинации со всех последующих страниц структуры;
    3. 1-я страница пагинации должна быть наиболее сильной и не может быть большего уровня вложенности чем последующие;
    Ошибочное склеивание страниц означает, что на сайте имеются проблемы с идентичными заголовками, которые необходимо решать.
    Эвристические канонические рекомендации имеют больший приоритет, при этом LinksTamed способен справится со сложными сочетаниями пагинаций и канонических рекомендаций, объединяя их в единую структуру.

    В отличие от дублей, страницы пагинации продолжают показываться в выдаче по запросам, где они продолжают быть релевантными, консолидируются только общие характеристики, поэтому так сложно обнаружить, что они существуют и консолидируются.

    Как отключить эвристический поиск и склеивание страниц пагинаций:
    в подразделе Этапы работы парсера снять галочку в разделе Эвристическая склейка пагинаций.

Проверка и склейка явно указанных canonical и Clean-param

  1. Обработка canonical

    LinksTamed проверяет и обрабатывает все канонические ссылки на сайте. Любая страница с указанным в HTML-коде атрибутом rel="canonical" в теге link или canonical в X-Robots-Tag инфо, проходит проверку на схожесть контента, и в случае, если эта рекомендация признана алгоритмом LinksTamed действительной, сигналы неканонической страницы будут объедены с указанной в canonical основной версией страницы. Если поиск дубликатов по контенту отключен, будет произведена лишь техническая оценка работоспособности канонических рекомендаций. Кросс-доменные канонические ссылки работают только при парсинге по правилам googlebot и для них проверяется только HTTP-код ответа, без анализа контента. Недействительные рекомендации не отображаются в столбце Canonical итоговой таблицы, а причины их отсутствия будут указаны в аудите. Какие изменения произойдут в отображаемых данных и расчётах читайте в разделе «В чём проявляется в интерфейсе склейка...»
  2. Обработка Clean-param

    LinksTamed единственный в мире общедоступный SEO-софт, способный проверять директиву Clean-param из robots.txt, правилами которой руководствуется yandexbot (и некоторые другие боты) для удаления из индекса страниц с не влияющими на контент GET-параметрами. Функционально она похожа на рекомендацию canonical, предлагая между тем более интересные возможности для массовой фильтрации. Несмотря на то, что Clean-param называется директивой, она является рекомендацией для алгоритмов ПС, причем с более низким приоритетом, нежели canonical. LinksTamed склеивает подпадающие под рекомендацию страницы, объединяя сигналы и сводя их на одной странице. Какие именно изменения произойдут в отображаемых данных и расчётах читайте в разделе «В чём проявляется эффект склейки...»
    Поскольку алгоритмы Google не учитывают Clean-param компании Яндекс, в парсере она оказывает влияние только при работе по правилам для yandexbot, однако аудит производится в любом случае. Проблемные указания попадают в аудит, а в соответствующем столбце итоговой таблицы указываются только признанные валидными канонические страницы.
    Чтобы включить склеивание страниц с помощью Clean-param для парсинга по правилам googlebot (этот бот установлен по умолчанию), поставьте галочку в опции использовать для googlebot Clean-param расположенной под кнопкой . Это может дать более точные результаты склейки страниц, особенно если отключен поиск дублей «на грани», так как высоковероятно, такие страницы будут признаны дубликатами в обоих ПС.
    Если для сайта использовался инструмент Google Search Console → Параметры URL с целью удаления GET-параметров, Вы также можете использовать Clean-param для парсинга по правилам для googlebot с целью эмуляции удаляемых там в консоли параметров, хотя, по-хорошему, оба способа должны повторять друг друга, так как выполняют одинаковые задачи. В любом случае LinksTamed найдет все технические дубликаты страниц на сайте, однако именно Clean-param подскажет, что для них не требуется действий по дедубликации.
Приоритет явно указанных рекомендаций выше эвристических консолидаций описанных выше на этой странице. В случае конфликтов, алгоритм попытается адаптировать эвристические консолидации и в любом случае укажет в аудите на проблемы.

Перерасчёты и время на повторный поиск дублей

Поскольку LinksTamed эвристически находит и склеивает дубликаты, а также отменяет недействительные канонические рекомендации, при любых перерасчётах с фильтрами рекомендуется осуществлять поиск дубликатов и пагинаций повторно.
Однако на больших сайтах процесс поиска дубликатов может занимать несколько часов. Если планируется работа с фильтрами после основного парсинга тогда, чтобы без искажений при перерасчётах отключать эвристический поиск дубликатов, необходимо выбрать одну из стратегий:
  • Изначально искать дубликаты, но включить опцию Не склеивать эвристически дубликаты… в разделе Фильтры…, а после первого парсинга отключить перерасчёты (найденные дубли на грани будут стерты при таком перерасчёте, но текстовые метрики, которые собираются вместе с дубликатами, удалены не будут). Дубликаты продолжат склеиваться без учета контента.
  • Изначально отключить сканирование в подразделе Эвристический анализ неявных дублей, качество акцента, возможные опечатки. Будут проводиться проверки канонических рекомендаций без учета контента. качество акцента и % слов без повторов также не будут рассчитаны, как и не будет произведен поиск вероятных опечаток в виде уникальных словоформ. После работы с фильтрами можно включить поиск дубликатов и эвристическое склеивание, сделав перерасчёт с учетом отключенных метрик.
  • Если поиск дубликатов уже производился и есть эвристически склеенные или признанные недействительными из-за различий в контенте канонические рекомендации (отображаются в аудите), а поиск дубликатов занял значимое для Вас время, то:
    • Оценить, способны ли эвристические дубликаты и отмененные из-за различий в контенте канонические рекомендации оказать существенное влияние. Если они незначительны, просто отключить поиск дубликатов перед перерасчётами;
    • Отключить поиск дубликатов и произвести перерасчёты без фильтров, затем уже относительно этих значений делать перерасчёты.

В чём проявляется в интерфейсе склейка
эвристических дублей, пагинаций, Canonical и Clean-param

Исходящие ссылки страниц, признанных не основными, переезжают на главную страницу данной структуры (консолидации). Количество исходящих ссылок для таких не основных страниц изменяется на ноль, а цвет становится оранжевым.
Главная страница структуры получит ссылки приклеиваемых к ней страниц, однако это верно только для пагинаций или парсинга по правилам yandexbot: в случае парсинга под googlebot неканонические страницы не передают никаких исходящих с них ссылок, однако все дубликаты проводят статический вес входящих на них самих ссылок.
В итоге мы получим главную страницу консолидации, которая собрала в себе входящие сигналы и статический вес других страниц структуры.
В отличие от исходящих, нормальные входящие ссылки остаются для удобства даже на неканонических страницах, однако количество может измениться и стать также оранжевым, если входящие ссылки перемещены из-за этой или других консолидаций, а также в следствие ручных фильтров.
При вызове окна с деталями, входящие на такую страницу ссылки будут в подразделе, который будет показывать из-за чего удалена или перемещена входящая ссылка. У неё не будет показателей входящего веса. Главная страница консолидации пришлет ответ, если статический вес теперь идёт через неё и будет показывать, сколько этого веса было передано.
Вот так может выглядеть окно при нажатии на цифровое значение столбца входящих ссылок:

Эвристические дубликаты сайта и входящие на страницу ссылки

На иллюстрации также видно, что при наведении на строку, появляется всплывающее окно с анкором ссылки. Анкоры также показываются в отдельном столбце при выгрузках входящих ссылок в CSV.
Во всех случаях статический вес входящих ссылок перетекает на каноническую страницу или главную страницу пагинации. Не основные страницы структур собственного веса больше не имеют и не задерживают. Ссылки при склейке не дублируются: учитывается одна исходящая ссылка в пределах структуры при расчёте статического веса. Ссылки между страницами консолидации (перекрёстные ссылки внутри структуры) также перестают существовать. Значения с количеством ссылок в таблице кликабельны и там можно увидеть с разделением на подразделы приклеенные, удаленные или перемещенные ссылки данной страницы. К названиям многих подразделов в окнах с деталями есть всплывающие подсказки.
Автор статьи:
Алексеев Святослав facebook.com/dux.viator
SEO-специалист, Web-программист,
разработчик SEO-софта и
Browser Extensions
К основной статье с описанием парсера LinksTamed

LinksTamed SEO Tool
в интернет‑магазине Chrome


ЯДРО-СЕРВИС 2015, 2016, 2017, 2018, 2019, 2020, 2021…
ВСЕ ПРАВА ЗАЩИЩЕНЫ.
Страница сгенерирована за 0.002256 сек.