SEO-СОФТ И СЕРВИСЫ

БЛОГ

К основной статье с описанием краулера LinksTamed
Дата обновления: 19.11.2021

Метрики оценки качества текста на сайте

Показатель «Качество акцента» для оценки текста

Оцените, насколько эффективно дополняют аспекты текста страницы общий смысл сайта, то есть каким количеством дополненной ценности обладает каждый документ. Алгоритм в составе парсера LinksTamed извлекает суть из текста каждой страницы и назначает им баллы, позволяя увидеть страницы, у которых есть неоспоримые проблемы с качеством контента.
Оценка отражает концентрацию дополненного смысла в тексте, потенциальные злоупотребления нивелируются, при этом длина текста практически не влияет на метрику. Так получается «Качество акцента», которое не является метрикой поисковых систем напрямую, но крайне полезно для быстрого поиска проблем с качеством тестов внутри сайта, способных вызвать наложение Thin Content подобных фильтров. Оценка качества текста метрикой «Качество акцента»
Запустите обычный парсинг в LinksTamed и после окончания расчетов просто изучите страницы с наиболее низким показателем в столбце качество акцента итоговой таблицы. Это бесплатно. Если тема раскрыта поверхностно, показатель будет низким. В любом случае стоит обратить внимание на 10% документов с самым низким баллом из общего числа документов, где тексты с малым количеством слов и низкой оценкой требуют дописания текста, а самые длинные тексты с низкой оценкой требуют работ по их улучшению (устранения так называемой «воды»). Также стоит изучить несколько страниц с самым высоким баллом, желательно не категорий, а статей, на предмет рациональности раскрытия контекстов. В остальных случаях высокие показатели не несут важной информации. Вы можете вычислить интересующие вас показатели с помощью формул и сортировки после выгрузки данных в файл CSV.
Наиболее важные моменты для работы с метрикой оценки качества акцента текста:
  • Показатель не подлежит сравнениям с другими сайтами и после больших изменений на сайте, возможно только относительное сравнение в пределах одного парсинга с документами с одинаковым шаблоном;
  • На практике встречаются значения от 8 до 98. Значения, которые можно считать нормальными, могут отличаться на сайтах в разы;
  • Точность оценки будет зависеть от количества страниц с текстом на сайте, их должно быть не менее 50-ти для сравнений с приемлимой точностью;
  • Качество +-2 балла не говорит об очевидном преимуществе одной из страниц;
  • В отличие от эвристического поиска дубликатов, ценность шаблонных фрагментов, которые есть на 15-79 страницах не снижается, удаляются лишь фрагменты, которые есть хотя бы на 80-ти страницах. Обратите внимание, что ручное удаление блоков на стадии парсинга с помощью методов ==ignore== или ==nottext== модуля Web Scraping может помочь повысить чувствительность алгоритма к оставшемуся контенту нужным вам образом;
  • Слишком высокий показатель может указывать на инородность контента, отсутствие шаблона, перечисление каких-то редких наименований. Косвенно такие страницы могут требовать чуть большего усиления, так как на сайте может недоставать релевантных страниц для усиления сигналов этого документа;
  • Большое количество слов в анкорах относительно слов в простом тексте может снизить оценку на 1-2 балла;
  • Не пытайтесь улучшить оценку, вставляя не уместные для интента пользователя редкие слова, так как им нужен обстоятельный контекст, а в таком случае отступления, не подпадающие под интент, не пойдут ранжированю документа в ПС на пользу. Про насыщение текста просто ключевыми словами можно вообще не говорить. Вы должны понимать, что качество акцента никоим образом не защищено от искусственных манипуляций и лишь указывает на проблемы, требующие увереного подхода к их устранению.

Принцип работы метрики «Качество акцента»

Алгоритм призван ответить современным вызовам в области технологий оценки качества текстов, помогая определить один из основополагающих спутников его смысловой ценности — насколько насыщен деталями текст и дополняет ли выделенная из его акцента суть ценность сайта в целом.

Чтобы извлечь из метрики максимальную выгоду, важно знать, как она работает:
LinksTamed анализирует каждую словоформу на сайте и считает на скольких страницах упомянуто каждая из них. Учитывается общее количество текстового контента на странице, включая некоторые мета-теги (но уже без минус-слов, удаленных по спискам на странице Настройки). После парсинга создаётся индекс рейтинга, где каждому слову назначается его локальный (внутренний) вес на основе частоты употребления на сайте: слова, которые встречаются редко, получают большую ценность, а популярные — меньшую, при этом вес редких слов преуменьшается по экспоненте. Самые лёгкие минус-слова в языке из списка в настройках просто игнорируются по настраиваемым на странице Настройки спискам для английского, русского и украинского языков.

Влияние на оценку текста частотности и веса словоформ
Пик графика показывает, что наиболее влияние оказывают редко встречаемые слова на сайте, при этом, если они употребляются на странице мало или, наоборот, чрезмерное количество раз - их влияние на итоговую оценку снижается. Ступенька в конце графика показывает отсутствие влияния на вклад удалённых минус-слов, которые чаще встречаются среди именно часто употребляемых на странице словоформ.
Далее для каждой страницы считается сумма весов: LinksTamed высчитывает средние показатели частотности словоформ в пределах документа, сортирует их по частоте и частично обесценивает самые популярные и редкие словоформы, выделяя таким образом суть текста. Это опирается на стойкую закономерность распределения частот для естественного языка (закон Ципфа) с рационально выверенной силой коррекции злоупотреблений, которая близка по пропорциям к стойкой закономерности по принципу Парето, дополнительно обработанную локальными весами слов сайта.
Таким образом, частично нивелируются попытки автора акцентировать внимание на ключевых словах, снижается влияние синонимов, опечаток и тому подобного, позволяя выделить эссенцию смысла документа. Всё это делится на общее количество индексируемых словоформ в теле документа. Так мы получили показатель качества уникального акцента не привязанного к количеству слов на странице. Однако, количество оригинального контента всё же влияет — чем меньше оригинального текста, тем больше доля некоторых неудаленных алгоритмом шаблонных элементов и их влияние в сторону снижения балла (пусть они и влияют мало, потому что часто встречаются на сайте).

Более точное использование метрики качества текста

Теперь можно заметить, что более точной методикой является поиск страницы с самым низким показателем среди страниц какого-то раздела, так как чем больше страниц в какой-то категории, тем меньший рейтинг они могут иметь в виду того, что их общая семантика будет употребляться чаще в пределах этого семантического кокона. И наоборот, если в другом разделе меньше карточек — вес их общего отличия будет больше. В любом случае крайние показатели в таблице всегда обратят Ваше внимание на проблемные страницы, но для более точного поиска плохих страниц определённой категории следует сделать сортировку по URL, производя поиск страниц с самыми плохими показателями в пределах радела или общего пути. Для удобства этой практики сделайте выгрузку в CSV через кнопку , а затем отсортируйте значения в вашей программе для таблиц, такой как Excel или OpenOffice Calc.

Релевантность заголовкам

Описанный в данном разделе функционал касается будущей версии и ещё не доступен!
Узнайте, имеются ли в текстовом контенте документа ценные слова из заголовков страницы и ключевых атрибутов,
а также оцените их повторяемость по бальной системе от 0 до 10.
Функционал будет полезен SEO-специалистам, Веб-мастерам и владельцам сайтов для быстрой оценки всех страниц сайта.

Наличие текста из TITLE, H1 и Description

Релевантность текста заголовкам, ALT тегу TITLE - проверка в таблице
Описанный в данном разделе функционал касается будущей версии и ещё не доступен!
После краулинга производится проверка на наличие слов в тексте, которые есть в следующих тегах и атрибутах:
  1. TITLE-заголовка страницы;
  2. Meta Description;
  3. Первого заголовка H1 на странице;
  4. Слов из TITLE-заголовка в описательных атрибутах ALT изображений (описывается в отдельном подразделе).
Данные выводятся в 4 столбца в итоговой таблице на главной странице краулера LinksTamed и скрыты по умолчанию. Сделать видимыми их можно нажав кнопку  Релевантность   в шапке итоговой таблицы.
    Ключевые детали работы алгоритма:
  • При анализе учитываются слова в тексте ВНЕ вышеуказанных в списке тегов и атрибутов;
  • Для H1 поиск начинается только в тексте после этого заголовка, то есть далее по HTML-коду (а точнее DOM-дереву);
  • Последующие после первого H1 заголовки считаются текстом;
  • Оценка будет выше при повторных упоминаниях в точной или другой словоформе. При этом поиск другой словоформы осуществляется только по правилам русского, украинского и английских языков. Для слов других языков, не подпадающих под правила, производится поиск второго упоминания только в точной словоформе;
  • Сравнение идет только по ценным словам, которые выявляет алгоритм, минус-слова со страницы Настройки игнорируются;
  • Посмотреть какие слова избрал алгоритм нельзя, обычно это половина содержимого тега или атрибута, но не более 5-ти слов;
  • Можно исключать шаблонные зоны документов из анализа используются методы ==nottext== или ==ignore== модуля Web scraping, которые исключают текст при парсинге;
  • Обратите внимание, что пустые значения (анализ для документа не производился) при прямой и обратной сортировке всегда в конце итоговой таблицы или её раздела\кластера.

Баллы релевантности текста

Описанный в данном разделе функционал касается будущей версии и ещё не доступен!
БаллыЗа что присваиваются
3хотя бы одно слово в точной словоформе есть в текстевне TITLE-заголовка,
Meta Description
и первого
H1 на странице
+
3все слова в точной словоформе есть в тексте хотя бы по разу
+
2хотя бы одно слово встречается еще раз в точной или же в другой словоформе
или
только в другой словформе, тогда без +3
+
2все слова встречаются в другой словоформе или в той же хотя бы еще раз
или
только в другой словоформе, тогда без +3
Итого 0—10 баллов
  • Обратите внимание, что если после балла стоит символ * — какое-либо из найденных слов, включая все его словоформы встречается только в ссылках индексируемого типа a href, что не всегда плохо, но нужно уточнить на странице;
  • Словоформы определяются только для слов русского и украинского языка, для других языков все слова являются отдельными (если не аналогичны по написанию со словами упомянутумых языков), а оценка за повторные совпадения считается только для той же словоформы.

Готовая таблица баллов начисляемых за нахождение того или иного текста:
пустоанализ для страницы не производился
 0балловизбранные алгоритмом ценные слова ни разу не встречаются в текстевне TITLE-заголовка,
Meta Description
и первого
H1 на странице
2баллаесть лишь часть слов в другой словоформе и встречаются они только по разу
3баллаесть одно или несколько слов в точной словоформе, но не все
4баллавсе слова встречаются в тексте, но лишь в других словоформах
5балловчасть слов есть в точной словоформе и некоторые или все из них (этих "не всех") встречаются ещё раз в той же или другой словоформе (слова в другой словоформе могут быть все)
6балловвсе слова есть в точной словоформе по разу
8балловвсе слова есть в точной словоформе и хотя бы одно из них встречается еще раз в тексте в точной или любой другой словоформе
10балловвсе слова есть в точной словоформе и все из них встречаются еще раз в тексте в точной или любой другой словоформе
n*
(число со звездочкой)
все словоформы какого-то слова (или всех) встречается только в ссылках.
Если значение в столбце подсекции релевантности H1 имеет это примечание, значит ссылка где-то после него, а если оценка меньше чем у значения в подсекции релевантности TITLE, значит все эти упоминания "выше по коду" и скорее всего в каком-то меню

Проверка релевантности атрибута ALT изображений TITLE-заголовку

Описанный в данном разделе функционал касается будущей версии и ещё не доступен!
LinksTamed также оценивает наличие слов из TITLE-заголовка в описательных атрибутах ALT изображений в теге IMG. Оценка рассчитываются по тем же правилам, за исключением того, что баллы за повторное нахождение слов начисляется только если они в разных ALT, а за соответствие всем словам баллы начисляются только если они были в пределах одного атрибута ALT.
    Важные моменты:
  • При обнаружении низких баллов, проверяйте все изображения, например если это каталог, иначе если устранить проблемы для первого изображения, проблемы с релевантностью последующих изображений не отразятся в оценке;
  • Если оценка релевантности ALT изобажения 10 баллов, это может значить, что изображения могут иметь одинаковый набор ценных слов в описании, что не всегда плохо, но лучше проверить хотя бы одну страницу данного типа шаблона (каталог, карточка, статья) с этой оценкой.

Как работает оценка релевантности текста заголовкам

Описанный в данном разделе функционал касается будущей версии и ещё не доступен!
Чтобы оценить релевантность текста TITLE-заголовку страницы, первому H1 и Meta Description, а также получить оценку лучшего описания в атрибуте ALT тега IMG, алгоритм должен отсечь те слова, которые выроятнее всего не имеют ценности, и поэтому на практике имеют право не встречаться в тексте страницы.
В рамках исследуемого заголовка или Meta Decription LinksTamed берет из него слово, которое встречается реже всего на сайте и то, что встречается на сайте чаще всего. Минус-слова со страницы настроек игнорируются. Далее, если слов больше двух, берется следующее по редкости слово и оценивается, к чему оно ближе по встречаемости - к редкому или самому частовстречаемому. Если ближе к редкому, это слово также будет проверяться на наличие в тексте, иначе набор ценных слов прекращается. Каждое новое слово несколько увеличивает планку и сравнение повторяется до тех пор, пока новые слова подпадают под установленную планку.
После этого производится поиск этих слов в тексте, как в точной словоформе, так и в любой другой словоформе и данному типу данных назначаются баллы.
Иногда слова, которые кажутся достаточно распространенными в рамках интернета и не удалены через список на странице Настройки, встречаются на сайте редко в сравнении с другими, поэтому попадают на анализ как ценные слова и это верно, так как осознанно или нет, возникает акцентирование внимания на них.

Как убрать из выгрузки или отключить анализ релевантности

Описанный в данном разделе функционал касается будущей версии и ещё не доступен!
Нажать кнопку  Релевантность   - как видим итоговую таблицу в интерфейсе программы, так она и попадет в выгрузку.
Этот вид расчетов не занимает много времени, но если вы ходите их отключить, в таблице Этапы работы парсера нужно снять галочку в заголовке этапа Эвристический поиск неявных дублей, углубленный анализ текста , при этом будут отключены зависимые виды анализа. Возможно включить перерасчеты без повторного парсинга, поставив галочку обратно и нажать на кнопку в раскрываемой секции Фильтры расчетов…

Количество заголовков H2

Описанный в данном разделе функционал касается будущей версии и ещё не доступен!
Парсер подсчитывает количество подзаголовков H2 на страницах и выводит их количество рядом со столбцом Всего слов. Многие специалисты считают это полезной метрикой, которая позволяет массово оценивать насыщенность текста разметкой.

К основной статье с описанием парсера LinksTamed

LinksTamed SEO Tool в интернет‑магазине Chrome


ЯДРО-СЕРВИС 2015, 2016, 2017, 2018, 2019, 2020, 2021…
ВСЕ ПРАВА ЗАЩИЩЕНЫ.
Страница сгенерирована за 0.003725 сек.