SEO-СОФТ И СЕРВИСЫ |
Бесплатно оцените, насколько эффективно дополняют аспекты текста страницы общий смысл сайта, т.е. каким количеством дополненной ценности обладает каждый документ. Алгоритм в составе парсера LinksTamed извлекает суть из текста каждой страницы и назначает им баллы, позволяя увидеть страницы, у которых есть неоспоримые проблемы с качеством контента. |
Всё что остается сделать с документом имеющим низкий балл — оценить возможность насытить его текст, описание к картинкам и заголовки терминами и словами-спутниками темы, возможно, слов из уточняющих поисковых запросов. Эти слова будут свойственны документам с других сайтов в выдаче поисковой системы по запросам, на которые должна отвечать данная страница и отражать её УТП (уникальное торговое предложение/отличие). Однако, если семантика конкурентов не проработана, нужно более детально смотреть в сторону уточняющих поисковых запросов и гипонимов в тезаурусе. В некоторых случаях могут помочь с деталями чаты нейронных сетей. При этом, разумеется, слова должны иметь дополненную ценность для пользователя и отвечать интенту его запроса, а потенциальные участки текста, которые могут попасть в сниппет поисковой системы по основному или уточняющему запросу, должны положительно сказываться на целевом действии. Акцентируя внимание именно на запросе (так называемом ключе или ключах) страницы Вы увеличите долю слов, которые встречаются на как можно меньшем количестве не связанных с темой страницы документах (или в меньшем количестве, т.е. с меньшим акцентом). Упрощая, именно это улучшит балл, однако применение редких терминов должно быть типичным для данного запроса, поэтому суещственное влияние на метрику оказывают также термины, которые свойственны не одной этой странице, а той или иной небольшой группе проанализирированных документов, а не просто встречаются только на одной этой странице. Таким образом, метрика отражает закономерности в оценке текста из более сложных алгоритмов, которые используют поисковые системы, что и определяет её ценность.
Как работать с метрикой «Качество акцента»
Запустите обычный парсинг в LinksTamed и после окончания расчетов просто изучите страницы с наиболее низким показателем в столбце качество акцента итоговой таблицы. Это БЕСПЛАТНО. Если тема раскрыта поверхностно, показатель будет низким. В любом случае стоит обратить внимание на 10% документов с самым низким баллом из общего числа документов, где тексты с малым количеством слов и низкой оценкой требуют дописания текста, а самые длинные тексты с низкой оценкой требуют работ по их улучшению (устранения так называемой «воды»). Также стоит изучить несколько страниц с самым высоким баллом, желательно не категорий, а статей, на предмет рациональности раскрытия контекстов. В остальных случаях высокие показатели не несут важной информации. Вы можете вычислить интересующие вас показатели с помощью формул и сортировки после выгрузки данных в файл CSV.
==ignore==
или ==nottext==
модуля Web Scraping может помочь повысить чувствительность алгоритма к оставшемуся контенту нужным вам образом;
Чтобы извлечь из метрики максимальную выгоду, важно знать, как она работает:
LinksTamed анализирует каждую словоформу на сайте и считает на скольких страницах упомянуто каждая из них. Учитывается общее количество текстового контента на странице, включая некоторые мета-теги (но уже без минус-слов, удаленных по спискам на странице ПАРАМЕТРЫ). После парсинга создаётся индекс рейтинга, где каждому слову назначается его локальный (внутренний) вес на основе частоты употребления на сайте: слова, которые встречаются редко, получают большую ценность, а популярные — меньшую, при этом вес редких слов преуменьшается по экспоненте. Самые лёгкие минус-слова в языке из списка в настройках просто игнорируются по настраиваемым на странице ПАРАМЕТРЫ спискам для английского, русского и украинского языков. Для этих же языков некоторые слова имеют особый пониженный вес по словарям (увидеть в интерфейсе и изменить их нельзя).
Далее для каждой страницы считается сумма весов: LinksTamed высчитывает средние показатели частотности словоформ в пределах документа, сортирует их по частоте и частично обесценивает самые популярные и редкие словоформы, выделяя таким образом суть текста. Это опирается на стойкую закономерность распределения частот для естественного языка (закон Ципфа) с рационально выверенной силой коррекции злоупотреблений, которая близка по пропорциям к стойкой закономерности по принципу Парето, дополнительно обработанную локальными весами слов сайта.
Таким образом, частично нивелируются попытки автора акцентировать внимание на ключевых словах, снижается влияние синонимов, опечаток и тому подобного, позволяя выделить эссенцию смысла документа. Всё это делится на общее количество индексируемых словоформ в теле документа. Так мы получили показатель качества уникального акцента не привязанного к количеству слов на странице. Однако, количество оригинального контента всё же влияет — чем меньше оригинального текста, тем больше доля некоторых не удаленных алгоритмом шаблонных элементов и их влияние в сторону снижения балла (пусть они и влияют мало, потому что часто встречаются на сайте).
Узнайте, имеются ли в текстовом контенте документа ценные слова из заголовков страницы и ключевых атрибутов, а также оцените их повторяемость по бальной системе от 0 до 10. Проверка релевантности будет полезна SEO-специалистам, Веб-мастерам и владельцам сайтов для быстрой оценки грубых недочетов в семантике на всех страниц сайта. |
TITLE
-заголовка страницы;
Meta
Description
;
H1
на странице;
TITLE
-заголовка в описательных атрибутах ALT
изображений (уточнения в отдельном подразделе).
Сделать видимыми столбцы можно нажав кнопку Релевантность ▶ в шапке итоговой таблицы.
TITLE
-заголовка, Meta
Description
(кроме проверки релевантности для TITLE-заголовка
) и первого H1
на странице;
H1
поиск начинается только в тексте после этого заголовка, т.е. далее по HTML-коду (а точнее DOM-дереву);
H1
заголовки считаются текстом;
==nottext==
или ==ignore==
модуля Web scraping, которые исключают текст при парсинге;
пусто | анализ для страницы не производился | ||
0 | баллов | избранные алгоритмом ценные слова ни разу не встречаются в тексте или в теге нет ценных слов | учитывается текст только вне TITLE -заголовка,Meta Description (кроме проверки релевантности для TITLE-заголовка )и первого H1 на странице (ALT тега IMG учитывается только в рамках своей проверки). Часть текста может быть удалена как шаблонная ссылка или её околоссылочное
|
2 | балла | части слов нет, остальные (не все) лишь в другой словоформе (один и более раз, одной или множества словоформ) | |
3 | балла | части слов нет, но есть одно слово или несколько в точной словоформе по разу, т.е. без повторов в точной или другой словоформе | |
4 | балла | все слова встречаются в тексте, но лишь в других словоформах (один и более раз) | |
5 | баллов | часть слов есть в точной словоформе и некоторые или все из них (этих "не всех") встречаются ещё раз в той же или другой словоформе, однако есть слова, которых нет | |
6 | баллов | все слова есть, но лишь часть слов в точной словоформе, остальные в других словоформах c повторами и без | |
7 | баллов | все слова есть в точной словоформе по разу | |
8 | баллов | все слова есть в точной словоформе и хотя бы одно из них встречается еще раз в тексте в точной или любой другой словоформе | |
9 | баллов | не бывает | |
10 | баллов | все слова есть в точной словоформе и все из них встречаются еще раз в тексте в точной или любой другой словоформе | |
n* (число со звездочкой) | все словоформы какого-то слова (или всех) встречается только в ссылках. При этом шаблонные ссылки и их шаблонный околоссылочный текст, которые встречаются на 80-ти и более страницах, не учитываются. Если значение в столбце подсекции релевантности H1 имеет это примечание, значит ссылка где-то после него, а если оценка меньше чем у значения в подсекции релевантности TITLE, значит все эти упоминания "выше по коду" и скорее всего в каком-то меню |
кол‑во | ✔️ | слово | слово найдено указанное кол‑во раз в тексте именно в той точной словоформе, в которой она была избрана из тега, относительно которого идет поиск |
кол‑во | ✔️* | слово | то же самое, но внутри анкора, не удаленного автоматическим алгоритмом исключения шаблонных анокоров с их шаблонным околоссылочным текстом |
кол‑во | 😐 | слово | лексема найдена в другой словоформе отличной от той, в которой она была извлечена из тега. Это может быть одна словоформа или множество разных - все повторы будут засчитаны слева от этого значка в кол‑во. Узнать какие другие словоформы были найдены из таблицы нельзя - избранное слово указывается только в том виде, в котором оно было взято из соответствующего тега |
кол‑во | 😐* | слово | то же самое, но внутри анкора не удаленного автоматическим алгоритмом исключения шаблонных анокоров с их шаблонным околоссылочным текстом |
⛔️ | слово | не найдена ни одна словоформа лексемы в тексте и не удаленных автоматическим алгоритмом исключения шаблонных анокоров с их шаблонным околоссылочным текстом |
TITLE
-заголовка в описательных атрибутах ALT
изображений в теге IMG
.
Оценка рассчитываются по тем же правилам что и для текста, за исключением того, что баллы за повторное нахождение слов начисляется только если они в разных ALT
, а за соответствие всем словам баллы начисляются только если они в пределах одного атрибута ALT
. Таким образом, 7 баллов для одной картинки - это нормально, как и 10 - это значит что два изображения имеют данный набор, но для шаблонных случаев стоит проверить, не одинаковые ли у них по сути альты. Оценка в 7 баллов может вызвать вопросы, когда содержит повторы избранных слов свойственные оценке 8 баллов, нужно понимать, что это повторы из другого изображения имеющего оценку ниже 7-ми. 10 баллов могут быть назначены только если два изображения имеют от 7 и более баллов.
H1
и Meta
Description
, а также получить оценку лучшего описания в атрибуте ALT
тега IMG
вне удаленных алгоритмом шаблонных анкоров (включая ссылки-картинки) и их околоссылочных, алгоритм должен отсечь те слова, которые вероятнее всего не имеют ценности, и поэтому на практике имеют право не встречаться в тексте страницы.
Meta
Description
LinksTamed берет из него слово, которое встречается реже всего на сайте и то, что встречается на сайте чаще всего. Минус-слова со страницы настроек и исключенных вручную для целей оценки релевантности (функционал описан в следующем разделе) игнорируются. После самого редкого слова берется следующее по редкости слово и оценивается, к чему оно ближе по встречаемости - к редкому или самому часто встречаемому. Если ближе к редкому, это слово также будет проверяться на наличие в тексте, иначе набор ценных слов прекращается. Каждое новое слово несколько увеличивает планку и сравнение повторяется до тех пор, пока новые слова подпадают под установленную планку. Далее специальные фильтры проверяют, действительно ли является это слово ценным или его стоит показывать только если с ним проблемы. В итоге в каждом поле Иногда алгоритм может избрать слова для анализа релевантности, которые не лучшим образом отражают тематику страницы. И хотя некоторые типичные случаи учитываются анализатором, могут понадобиться ручные меры. Причины могут быть разными: от попытки расширить семантику в заголовках словами, которые по идеи должны быть на каждой странице до наоборот упоминания слов характеризующих тему документа слов практически на каждой странице. В обоих случаях возникает проблема с весами слов в алгоритме - не избираются или попадают в избранные не те слова. В этом случае и просто в целях более детального анализа можно исключать слова (будет действовать на все проекты), при этом на место удаленного попадет следующее слово, если оно отвечает критериям.
==nottext==
модуля Web Scraping. Это также повысит чувствительность алгоритма поиска дубликатов.
Где найти: текстовое поле для указания слов находится в раскрываемой секции Фильтры расчетов… в разделе Игнорирование слов при оценке релевантности.
Нажать кнопку Релевантность ▶ - как видим итоговую таблицу в интерфейсе программы, так она и попадет в выгрузку.H2
на страницах и выводит их количество рядом со столбцом Всего слов. Многие специалисты считают это полезной метрикой, которая позволяет массово оценивать насыщенность текста разметкой.
Читайте также: Работа с языками сайта: атрибут LANG и его аудит, языковые коды, их расшифровки,
а также автоматическое определение языка страницы.