СЕРВИСЫ БЛОГ
Дата: 30.05.2016, обновлено: 06.12.2017
Описание и инструкции
к анализатору анкор листов, заголовков и строк из прочих тегов
    Оглавление
  1. Общая информация
  2. Конфиденциальность
  3. Принцип работы сервиса
  4. Интерпретация значений
  5. Вьювер словоформ
  6. Дополнительные значения
    для данных с URL
  7. Дополнительные поля для выгрузки Sape.ru (арендные ссылки)
  8. Анализ полноценных текстов,
    работа с HTML кодом
  9. Считать число в конце строки отделенное Tab количеством строк
  10. Группировщик - переколдовщик слов
  11. Другие опции
  12. Реакция оптимизатора на значения в таблице
  13. Что нового?
НАЧАТЬ РАБОТУ В АНАЛИЗАТОРЕ
Общая информация
Анализатор (далее - сервис) раскладывает поданный пользователем список строк во всех возможных последовательностях и составах, показывая информацию о количестве этих фрагментов строк, а также о том, на каких они страницах, какие слова рядом и других характеристиках, позволяя провести детальный анализ семантики таких списков данных, как: Ключевая особенность сервиса состоит в том, что он показывает не просто частоту слов, а делает это на уровне шинглов для поданной на анализ коллекции, что обеспечивает поиск разнообразных стойких словосочетаний и слов-спутников, которые учитывает ПС по средствам латентно-семантического анализа (LSI). Алгоритм анализатора более близкок к тому, что используют для анализа текстов все поисковые системы и позволяет получить более подробную информацию, нежели классическая частотность по словам (плотность слов), однако в отличии от LSI адаптирована под человека, что задает качественно новый уровень анализа текстовых данных.

За счет сгенерированных на основе вашей выгрузки данных можно:

Конфиденциальность
Данный бесплатный онлайн сервис работает на основе технологий HTML 5 API и не отправляет информации о ваших выгрузках на сервер т.к. обработка информации и сохранение настроек происходит прямо в браузере.
Принцип работы сервиса
Каждая фраза, представляющая собой пассаж текста, анкор или содержимое другого тега раскладывается на слова, у этих слов удаляются (стеммируются) алгоритмом Портера окончания и выводятся в столбик по частоте упоминания, затем, в следующую колонку записываются все слова из фраз, содержащие это слово во всех словоформах из предыдущей колонки. При этом каждое слово фразы подставляется в первую колонку, а в последующих колонках во всех возможных последовательностях записываются другие слова этого шингла (набора слов без учета расстояния и последовательности слов). Иначе говоря, в каждом следующем столбце добавляется новое слово из исконных текстовых данных. Это позволяет, выбрав интересующую ветвь, полностью исследовать ее семантический состав не пропустив не одного слова и его словоформы.

Упрощенный пример (без значений) для фразы «лучшие сайты мира»:

Иллюстрация с разложенной на слова фразой

Генератор плодит очень много вариаций, поэтому можно активировать функцию «Оставить один ряд для уникальных наборов слов» (далее в примерах включена), тогда, если какую-либо ветвь создала одна уникальная фраза и фрагментов других фраз в колонке нет, начиная со второго уровня, ветви таких фраз обрезаются по первой строке, не плодя вариаций с перетасовкой, что уменьшает таблицы, в среднем, на 30 и более процентов. Вот так это выглядит для предыдущего примера:

Иллюстрация о том, как генератор удалил малополезные вариации
Интерпретация значений
Иллюстрация о том, как выглядят значения для стеммированного анкора или другой строки Рассмотрим пример с иллюстрацией для списка фраз: На изображении с примером приоткрыты только две колонки (тип выгрузки пока что без адресов страниц).

Расшифровка:

  1. Под полем раздела «∑» (сумма по выгрузке) и полем стеммированного слова находится строка «а:» (анкор), первые два значения - это количество фраз (строк=пассажей=шинглов) с данным стеммированным набором слов в виде процента (по отношению к количеству фраз в данной колонке) и точном количестве. Эти цифры позволяют просмотреть соотношение слов в анкор-листе в целом для сайта и на каждом этапе разбиения фразы. Цифра с количеством строк «а:» в колонке раздела кликабельна и позволяет просмотреть кол-во оригинальных пассажей в целом для раздела. Кроме того, в первой колонке, при наведении, также доступна всплывающая подсказка с общим количеством слов в разделе и (кроме выгрузки sape) длиной текста с и без пробелов (теги и двойные пробелы не считаются).
    Значение кол-ва в столбце со стеммированным словом, начиная со второго столбца таблицы, может быть выделено жирным, это означает, что есть повторы слов текущего набора в пределах фразы (при наведении курсора можно узнать их кол-во и словоформы, они также доступны в их ячейках на следующих подуровнях таблицы). Эти повторы не учитываются в видимом значении, т.к. это повтор внутри фразы, а не количество фраз с данным стеммированнием слова, что следует учитывать при оценке частотности слов в первом столбике со стеммами, которая без прибавления данных повторов, является частотой пассажей с вхождением. Для четвертого подуровня повторов нет, т.к. там выдается весь остаток слов и не остается слов вне набора.
  2. Далее в строке «а:» идет значение в скобках, показывающее среднюю длину анкора/фразы округленных до ближайшего целого. Информация о длине анкора в последующих колонках таблицы дана только для подпадающих под нее фраз, таким образом, для каждой фразы, в любом месте таблицы, можно узнать уровень ее разбавления. Кроме того, нажав на показатель можно просмотреть таблицу с точным отображением количества фраз с определенной длиной (без учета стоп-слов пустышек из опционального текстового поля «Удаляемые при анализе служебные части речи»).
  3. Как уже было написано выше, все фразы лишаются окончаний в процессе выделения основы слов стеммингом. Поэтому, по следующему за скобками значению можно узнать сколько словоформ скрывается за общей стеммированной основой. Более подробную и разнообразную информацию о словоформах можно получить нажав на показатель и вызвав окно вьювера, который описывается далее в соответствующем разделе.
    При наличии повторов слов в строке в уникальной словоформе значение количества словоформ в подуровнях 1-3 будет выделено жирным, а число этих повторов и плодимых ими вариаций словоформ прибавлено к значению, т.к. в отличии от повторов слов, которые не учитываются в ячейке в его видимом значении, уникальные словоформы (уникальные сочетания слов) из повтора прибавляются к видимому значению являясь альтернативным набором. Количество этих повторов можно посмотреть во всплывающей подсказке, а сами повторы при нажатии на значение - в окне вьювера.
  4. Дополнительным значением после кол-ва словоформ может быть вспомогательный символ средней точки «·», означающий, что одна из словоформ идентична стемму.
  5. Для изучения оставшихся значений откроем нажатиями на символ все уровни для стеммированного значения «лучш»:
    Важно заметить, что фразы раскладываются во всех возможных комбинациях и последовательностях на фрагменты до трех слов, остальные слова для данной ветви показываются в виде остатка в последнем столбце таблицы, но, так или иначе, все слова из остатка присутствуют в предыдущих колонках.
    Примечание: если включена опция «Обрезать N подуровень таблицы» остаток набора слов в последней колонке не показывается, поэтому, чтобы увидеть состав уникальной фразы осмотром последней колонки, необходимо отключить в настройках опцию «Оставить один ряд для уникальных фраз».
    Обратите внимание, что в подуровнях 2-3 перед показателем количества словоформ может быть символ кавычки «"», означающий, что какое-то количество словоформ данного словосочетания не просто в одном шингле, а находятся рядом. Точное количество можно узнать в окне вьювера.
    Следующие за показателем количества словоформ – показатели красного цвета - это количество фраз, которые больше не имеют дополнительных слов, т.е. точно соответствуют текущему для колонки набору стеммированных слов. Значение выводится в фактическом и процентном соотношении и позволяет оценить уровень разбавления фразы на текущем этапе. Блок показывается только при наличии точных совпадений, кроме того, в выгрузке с арендными ссылками Sape.ru, цифры могут быть также голубого цвета, что означает что данная строка является ссылкой с анкором из списка «Учет околоссылочного текста для ссылок в виде:» у которого учитывается околоссылочный вес и в последующих за ним значениях идет уже не часть текста ссылки, а значения околоссылочного текста (подробнее в дополнительном описании для Sape.ru).
    Важный момент: поскольку фразы раскладываются во всех возможных комбинациях, узнать сколько фраз на уровне (в данной колонке) можно из ячейки родителя в предыдущем столбце минус точное совпадение (красное значение) в данном же родителе! Это красное значение также отнимает свой процент в подсчете процента в последующем столбике (являясь как бы равноправным вариантом фразы, но без продолжения). Все это отчетливо видно на предыдущей иллюстрации. Информация о количестве фраз той или иной длины (начиная с текущего уровня) доступна также во всплывающем окне «длины анкоров».
Таким образом, заглянув в таблицу, можно узнать, какие слова, в каком количестве и какой длины содержатся на каждом этапе разбиения фразы.
Вьювер словоформ
Как уже было упомянуто в предыдущем разделе, в основной таблице мы видим стеммированную основы слов, а также количество этих словоформ встречающихся на любом расстоянии в пределах строки (шингла), сами же словоформы можно посмотреть нажав на цифру показывающую кол-во словоформ, тем самым вызвав вьювер словоформ, который покажет текущий набор слов (слов из этой ячейки и из предыдущих колонок).
Иллюстрация:
просмотр набора словоформ строки
! Последовательность слов сброшена в целях группировки идентичных по составу фраз (впрочем, как и везде в данных) и совпадает лишь случайно.
! Обратите внимание, что верхний угол вьювера всегда указывает на показатель по которому производился клик.

Под списком информации о словоформах в окне вьювера также находится таблица с результатами глобального поиска словоформ по вашей выгрузке.

Это очень полезный инструмент, который помогает разрешить непонятные ситуации, например, когда обнаруживаются какие-то слова в основной таблице там, где их не должно быть и нужно посмотреть список оригинальных фраз с вхождениями текущего набора словоформ чтобы прояснить ситуацию.


! В глобальном поиске выводятся все совпадения наборов, независимо от исследуемой страницы или сайта (если их несколько в выгрузке).

! Слова строк совпавших по набору словоформ подсвечены в глобальном поиске салатовым цветом.

Для дополнительной подсветки в вьювере можно использовать стандартное средство поиска в браузере: выделите интересующую словоформу и используйте комбинацию клавиш Ctrl+C, Ctrl+F и Сtrl+V для быстрого копирования и вставки текста.
При увеличении масштаба страницы более чем на 10%, вьювер может выйти за боковые границы окна. Уменьшите масштаб в случае возникновения данной проблемы.
Дополнительные значения для данных с URL
Если выбран тип выгрузки с указанием адресов страниц исследуемого сайта-акцептора, а именно: ...то в этом случае появляются дополнительные значения: Особенности показа страниц с анкорами
Дополнительные поля для выгрузки Sape.ru (арендные ссылки)
Для выгрузок на основе синтаксиса арендных ссылок Sape.ru, на ряду со значениями URL, дополнительно доступны расчеты по части анкоров у которых поисковыми системами учитывается околоссылочный текст (тут, здесь и тому подобные). Список этих анкоров представлен в текстовом поле сервиса «Учет околоссылочного текста для ссылок в виде:» (текст строки за пределами #a#...#/a# для иных анкоров не будет учтен).
Околоссылочный текст для слов из списка по сути такой же анкор, но он может быть как левым «л:» по отношению к анкору, так и правым «п:». Какая именно сторона будет взята (если околоссылочный текст слева и справа) установить сложно, поэтому данные строки присоединяются к ячейкам в виде строк «л:» и/или «п:», а сортировка по количеству в основной таблице идет за счет прибавления максимального числа повторов одного из них. Также информация об околоссылочном тексте доступна после анкора (у которого, как уже было написано выше – точное вхождение голубого цвета).
! В строке «а:» подсчитаны также и сами безанкорные «анкоры».
Пример того, как выглядет околоссылочный текст в таблице сервиса
Строки «л:» и «п:» аналогичны по составу и функционалу со строкой «а:».
При работе с Sape.ru не забывайте, что нужно выгружать ссылки только в статусе «OK».
Анализ полноценных текстов,
работа с HTML кодом.
По умолчанию сервис разделяет данные на пассажи по строкам/границам ячеек, однако можно указать дополнительные разделители шинглов (слова разделяются автоматически) и условия для очистки данных от мусора на основе метода replace (JavaScript) c условиями в виде регулярных выражений RegExp. Соответствующие поля уже заполнены стандартными вариантами, их активация и редактирование доступны при выборе вкладки с типом данных "пользовательский CSV", "данные в текстовых файлах" и "текстовое поле".
Всего доступно три поля для ввода регулярных выражений, каждый из которых по умолчанию выполняет свои функции: раскрыть
Считать число в конце строки отделенное Tab количеством строк
Данная опция доступна во вкладке "Данные в текстовых файлах" и "Текстовое поле для быстрой вставки строк", она позволяет подать на анализ список строк с количеством упоминаний каждой из них, которое указанно в конце соответствующей строки и отделено от текста Tab (длинным пробелом). Чаще всего такими данными являются данные Wordstat и других метрик, включая запросы из сервиса Яндекс.Метрика. Однако наиболее ценным преимуществом, дорогу к которому открывает данная возможность - это исследование семантики поисковых фраз с максимальным количеством отказов. С помощью указания количества можно без искажений узнать количество упоминаний тех или иных слов и словосочетаний, а также их спутников, обеспечивая наиболее четкое соотношение для просмотра таблицы LSI.
Обратите внимание, что строки без Tab c нулем или без числа будут преобразованы в 1. Числа с пробелами будут учтены. При любом количестве Tab в строке - первый участок берется как текст, фрагмент после последнего Tab – как количество (если число) или игнорируются. Все значения между - игнорируются, что особо удобно при копировании из таблиц с промежуточными значениями. Все числа преобразуются в целые, с отсечением дробной части.
Группировщик - переколдовщик слов
В новой версии сервиса появилась возможность присваивать различным словам и фрагментам фраз общее значение в таблице. Это может быть нужно, чтобы разделить стеммированные алгоритмом Портера в одну ячейку разные слова или наоборот, переколдовать различные понятия, характеризующие какие-то качества, в одно значение с подсчетом показателей в ячеке, как если бы оно было одним словом.

Слова и фразы группируются по правилам макроса, заданного в опциональном текстовом поле «Группировщик - переколдовщик слов»: раскрыть

Другие опции
Реакция оптимизатора на значения в таблице
Дальнейшие действия seo-оптимизаторов и линк-менеджеров, в частности, в плане изменения соотношения и степени разбавления анкоров, их длины и распределения по сайту, диктуются исключительно личным опытом и актуальными знаниями, которые можно найти на сайтах SEO тематики.
При работе с анализатором не стоит перегружать себя: обычно достаточно осмотреть важные области таблицы и сделать пару заметок по критически важным направлениям, не пытаясь охватить всю семантику сразу.
Что нового
Дата: 06.12.2017
v.2.2
  • Для вкладок "Данные в текстовых файлах" и "Текстовое поле для быстрой вставки строк" добавлена опция "Считать число в конце строки отделенное Tab количеством строк" и описание к ней;
  • расширен словарь группировщика-переколдовщика слов.
Дата: 28.03.2017
v.2.1
  • Появились настройки для обработки полноценных текстов и HTML кода с разбивкой на пассажи при помощи RegExp условий для произвольных входных данных;
  • также теперь можно увидеть длину текста в словах и символах с пробелом и без;
  • прямо в таблице теперь можно увидеть в уровнях 2-4 что эти слова рядом, а не только в пределах пассажа;
  • добавлена возможность отключать не только 4-й подуровень таблицы, но и третий, для еще большей экономии памяти.
Дата: 07.07.2016
v.2.0
    Большой пакет обновлений:
  • В одном файле выгрузки теперь может быть несколько сайтов, данные различных доменов будут показываться в отдельных таблицах, сортированных по количеству строк;
  • добавлена возможность сохранения настроек в браузере по технологии localStorage;
  • добавлен опциональное текстовое поле со списком слов, которые не будут стеммироваться;
  • добавлен группировщик - переколдовщик слов - поле макросов для объединения различных слов в одно групповое значение или наоборот разделения склеенных в одну ячейку алгоритмом Портера разных слов, также реализована возможность замены (переколдовки) словосочетаний;
  • для группировщика - переколдовщика слов создан удалятор ударений, повторов и прочего мусора из списков словоформ взятых из внешних словарей;
  • вместо простого просмотра словоформ по подсказке добавлен всплывающий вьювер с показом списка словоформ, повторов внутри фраз, а для подуровней 2 и 3 - количество слов, которые рядом;
  • к вьюверу словоформ добавлен глобальный просмотр оригинальных строк с подсветкой совпадений.
  • теперь при показе кол-ва словоформ учитываются словоформы повторов внутри фраз если они уникальны;
  • добавлена опция отсечения 4-го подуровня в таблице.
  • множество мелких дополнений (касаемые видимых данных - добавлены в инструкцию).
Дата: 30.05.2016
v.1.0
  • Beta версия в эфире.
НАЧАТЬ РАБОТУ В АНАЛИЗАТОРЕ

ЯДРО-СЕРВИС 2015, 2016, 2017...
ВСЕ ПРАВА ЗАЩИЩЕНЫ.
Страница сгенерирована за 0.005570 сек.