SEO-СОФТ И СЕРВИСЫ

БЛОГ

К основной статье с описанием краулера LinksTamed
Дата обновления: 02.03.2021

Качество страницы — дополненная ценность текста

Оцените, насколько эффективно дополняют аспекты текста страницы общий смысл сайта, то есть каким количеством дополненной ценности обладает каждый документ. Алгоритм в составе парсера LinksTamed извлекает суть из текста каждой страницы и назначает им баллы, позволяя увидеть страницы, у которых есть неоспоримые проблемы с качеством контента.

Показатель «Качество акцента» для оценки текста

Оценка отражает концентрацию дополненного смысла в тексте, потенциальные злоупотребления нивелируются, при этом длина текста практически не влияет на метрику. Так получается «Качество акцента», которое не является метрикой поисковых систем напрямую, но крайне полезно для быстрого поиска проблем с качеством тестов внутри сайта, способных вызвать наложение Thin Content подобных фильтров. Оценка качества текста метрикой «Качество акцента»
Запустите обычный парсинг в LinksTamed и после окончания расчетов просто изучите страницы с наиболее низким показателем в столбце качество акцента итоговой таблицы. Это бесплатно. Если тема раскрыта поверхностно, показатель будет низким. В любом случае стоит обратить внимание на 10% документов с самым низким баллом из общего числа документов, где тексты с малым количеством слов и низкой оценкой требуют дописания текста, а самые длинные тексты с низкой оценкой требуют работ по их улучшению (устранения так называемой «воды»). Также стоит изучить несколько страниц с самым высоким баллом, желательно не категорий, а статей, на предмет рациональности раскрытия контекстов. В остальных случаях высокие показатели не несут важной информации. Вы можете вычислить интересующие вас показатели с помощью формул и сортировки после выгрузки данных в файл CSV.
Наиболее важные моменты для работы с метрикой оценки качества акцента текста:
  • Показатель не подлежит сравнениям с другими сайтами и после больших изменений на сайте, возможно только относительное сравнение в пределах одного парсинга с документами с одинаковым шаблоном;
  • На практике встречаются значения от 8 до 98. Значения, которые можно считать нормальными, могут отличаться на сайтах в разы;
  • Точность оценки будет зависеть от количества страниц с текстом на сайте, их должно быть не менее 50-ти для сравнений с приемлимой точностью;
  • Качество +-2 балла не говорит об очевидном преимуществе одной из страниц;
  • В отличие от эвристического поиска дубликатов, ценность шаблонных фрагментов, которые есть на 15-79 страницах не снижается, удаляются лишь фрагменты, которые есть хотя бы на 80-ти страницах. Обратите внимание, что ручное удаление блоков на стадии парсинга с помощью методов ==ignore== или ==nottext== модуля Web Scraping может помочь поысить чувствительность алгоритма к оставшемуся контенту нужным вам образом;
  • Слишком высокий показатель может указывать на инородность контента, отсутствие шаблона, перечисление каких-то редких наименований;
  • Большое количество слов в анкорах относительно слов в простом тексте может снизить оценку на 1-2 балла;
  • Не пытайтесь улучшить оценку, вставляя не уместные для интента пользователя редкие слова, так как им нужен обстоятельный контекст, а в таком случае отступления, не подпадающие под интент, не пойдут ранжированю документа в ПС на пользу. Про насыщение текста просто ключевыми словами можно вообще не говорить. Вы должны понимать, что качество акцента никоим образом не защищено от искусственных манипуляций и лишь указывает на проблемы, требующие увереного подхода к их устранению.

Принцип работы метрики «Качество акцента»

Алгоритм призван ответить современным вызовам в области технологий оценки качества текстов, помогая определить один из основополагающих спутников его смысловой ценности — насколько насыщен деталями текст и дополняет ли выделенная из его акцента суть ценность сайта в целом.

Чтобы извлечь из метрики максимальную выгоду, важно знать, как она работает:
LinksTamed анализирует каждую словоформу на сайте и считает на скольких страницах упомянуто каждая из них. Учитывается общее количество текстового контента на странице, включая некоторые мета-теги (но уже без минус-слов, удаленных на странице Настройки). После парсинга создаётся индекс рейтинга, где каждому слову назначается его локальный (внутренний) вес на основе частоты употребления на сайте: слова, которые встречаются редко, получают большую ценность, а популярные — меньшую, при этом вес редких слов преуменьшается по экспоненте. Самые лёгкие минус-слова в языке из списка в настройках просто игнорируются по настраиваемым на странице Настройки спискам для английского, русского и украинского языков.

Влияние на оценку текста частотности и веса словоформ
Пик графика показывает, что наиболее влияние оказывают редко встречаемые слова на сайте, при этом, если они употребляются на странице мало или, наоборот, чрезмерное количество раз - их влияние на итоговую оценку снижается. Ступенька в конце графика показывает отсутствие влияния на вклад удалённых минус-слов, которые чаще встречаются среди именно часто употребляемых на странице словоформ.
Далее для каждой страницы считается сумма весов: LinksTamed высчитывает средние показатели частотности словоформ в пределах документа, сортирует их по частоте и частично обесценивает самые популярные и редкие словоформы, выделяя таким образом суть текста. Это опирается на стойкую закономерность распределения частот для естественного языка (закон Ципфа) с рационально выверенной силой коррекции злоупотреблений, которая близка по пропорциям к стойкой закономерности по принципу Парето, дополнительно обработанную локальными весами слов сайта.
Таким образом, частично нивелируются попытки автора акцентировать внимание на ключевых словах, снижается влияние синонимов, опечаток и тому подобного, позволяя выделить эссенцию смысла документа. Всё это делится на общее количество индексируемых словоформ в теле документа. Так мы получили показатель качества уникального акцента не привязанного к количеству слов на странице. Однако, количество оригинального контента всё же влияет — чем меньше оригинального текста, тем больше доля некоторых неудаленных алгоритмом шаблонных элементов и их влияние в сторону снижения балла (пусть они и влияют мало, потому что часто встречаются на сайте).

Более точное использование метрики качества текста

Теперь можно заметить, что более точной методикой является поиск страницы с самым низким показателем среди страниц какого-то раздела, так как чем больше страниц в какой-то категории, тем меньший рейтинг они могут иметь в виду того, что их общая семантика будет употребляться чаще в пределах этого семантического кокона. И наоборот, если в другом разделе меньше карточек — вес их общего отличия будет больше. В любом случае крайние показатели в таблице всегда обратят Ваше внимание на проблемные страницы, но для более точного поиска плохих страниц определённой категории следует сделать сортировку по URL, производя поиск страниц с самыми плохими показателями в пределах радела или общего пути. Для удобства этой практики сделайте выгрузку в CSV через кнопку , а затем отсортируйте значения в вашей программе для таблиц, такой как Excel или OpenOffice Calc.

К основной статье с описанием парсера LinksTamed

LinksTamed SEO Tool в интернет‑магазине Chrome


ЯДРО-СЕРВИС 2015, 2016, 2017, 2018, 2019, 2020, 2021…
ВСЕ ПРАВА ЗАЩИЩЕНЫ.
Страница сгенерирована за 0.000816 сек.