В парсере LinksTamed доступен расширенный поиск по значениям в таблицах, включая поиск с использованием регулярных выражений и древовидных условий и . Результаты могут быть подсвечены цветом на выбор.
Инструкция содержит описание всех функций, которые понадобятся при поиске в таблице с результатами парсинга.
Формы для поиска
Поиск доступен в основной и всплывающих таблицах. При клике по значку 🔎 в левой части шапки таблицы откроется форма поиска:
Для основной таблицы также возможен вызов и закрытие через сочетание клавиш Ctrl+F или ⌘+F. Условия сохраняются для всех последующих проектов, отдельно для каждого типа окон (главная таблица, тип таблицы под входящие и исходящие ссылки различных типов, таблица для дубликатов). Включить и отключить те или иные правила можно сняв или поставив галочку в начале строки условия.
Типы данных, доступных для поиска
▼
Колонка с данными в различных таблицах
тип искомого значения
TITLE-заголовок страницы
строка
1-й H1-заголовок страницы
Meta Description
URL-адреса:
URL-адрес страницы
строка
URL-адрес редиректа
URL-адрес действительного* Canonical
*Алгоритм парсера проверяет рекомендательную директиву Canonical из тега LINK или HTTP-заголовка X-Robots-Tag и может отменять не отвечающие технически или по схожести контента указания
*Алгоритм может определить последующие страницы страниц пагинации (категорий с товарами, разрезанные на страницы статьи и тому подобные) с навигационными цепочками и склеить их в одну страницу
Разное
Директивы Meta nofollow, noindex, none; Disallow
Сontent-type документа
Серьезные проблемы
Приведшие к невозможности доступа к контенту
HTTP-код ответа сервера
число
УВ (Уровень Вложенности документа)
nosnippet, max-snippet
Отображаемое количество ссылок:
Отображаемое — т.е. часть ссылок может быть признана алгоритмом парсера не значащими, тогда указывающее на кол-во ссылок значение в ячейке таблицы станет оранжевого цвета, а детали доступны по клику во всплывающем окне
Нормальных исходящих/входящих ссылок
число
Исходящих/входящих ссылок с атрибутами nofollow, sponsored, ugc
(на внешние и внутренние адреса, которые являются висячими узлами)
Утечки веса внутри
В пределах поданного на парсинг поддомена
SaveRank
PowerRank
Колонки для оценки релевантности:
Алгоритм выявляет ценные слова в ключевых тегах (TITLE-заголовок страницы, Meta Description, первый H1 страницы) и показывает, сколько раз они встречаются в тексте и не шаблонных ссылках в точной и иных словоформах. Доступны значения в виде баллов и расшифровки по словам. Также доступны показатели для описательных атрибутов ALT изображений IMG относительно TITLE-заголовка документа.
Пoдробнее о метриках оценки релевантности
Поиск страниц, содержащих ссылки на указанный URL-адрес:
Позволяет найти страницы, которые имеют исходящие ссылки на указанный документ или группу документов по указанному паттерну. Игнорирует промежуточные редиректы, находя изначальный документ со ссылкой. Мощный инструмент в сочетании с регулярными выражениями RegExp.
Передающие сюда статический вес после всех проверок, перемещений, ручных исключений
Этот тип поиска НЕ содержит следующие виды ссылок:
Ссылки с действительных неканонических страниц (X-Robots-Tag и rel=canonical, Clean-param, обнаруженных эвристически дубликатов страниц) переезжают на главную страницы данной консолидации;
Ссылки на документы (напр. файлы), которые не принимают статический вес;
Ссылки со вторичных страниц эвристически скленных пагинаций;
Исключенные вручную ссылки указанные в текстовом поле в раскрываемой секции Фильтры расчетов… в разделе Исключение ссылок из расчетов и количеств в таблице.
Этот тип поиска СОДЕРЖИТ прикленные с других страниц ссылки:
Ссылки с действительных неканонических страниц (X-Robots-Tag и rel=canonical, Clean-param, обнаруженных эвристически дубликатов страниц).
Если на действительной неканонической странице будет найдена ссылка, будет показана страница канонической страницы, но только если на странице ПАРАМЕТРЫ для Обработка name для meta content и X-Robots-Tag выбрано значение yandex (при выборе googlebot (по умолчанию), такие ссылки не будут найдены, т.к. игнорируются);
Ссылки на документы (напр. файлы), которые не принимают статический вес;
Если на последующей странице склееной пагинации будут найдены ссылки, будет показана страница главной страницы пагинации;
Примечание: в Этапы работы парсера можно отключить сложные операции склейки дубликатов и пагинаций, но если метрики статического веса не важны, проще использовать поиск по оригинальным ссылкам (пункты далее)
строка
Оригинальные ссылки до вычислений и перемещений (кроме nofollow, ugc, sponsored и исключенных вручную)
Оригигинальные ссылки nofollow, ugc, sponsored (кроме исключенных вручную)
Примечание: Парсер не делает различий для данных трех атрибутов
Примечание: Если на странице содержится нормальная ссылка и ссылка с nofollow, ugc, sponsored, то ссылка с таким атрибутом будет проигнорирована везде, кроме аудита, т.к. такая ссылка не выполняет свою функцию.
Насколько страница подходит на роль канонической среди прочих похожих чтобы приклеить их к себе с помощью canonical
Различия в ценных* словах
*Алгоритм парсера выявляет наиболее ценные слова из тех, которыми отличаются два сравниваемых документа
строка
Особые поля всплывающих окон с деталями:
Вес ссылки (включая утечки — синие числа)
Его также называют дельтой (delta PageRank)
число
Утечка веса по ссылке (синие числа)
Т.е. когда эта дельта ведет на документ, который приводит к утечке статического веса, так как он является висячим узлом или ссылкой на другой сайт.
nofollow, sponsored или ugc
Если ссылка является одним из этих типов (разница не учитывается) в соответствующем столбце таблицы будет стоять галочка
Размеченный признак ссылки
Для всех ссылок можно указать признак по расположению внутри контейнера (тега) в макете страницы с помощью на основе функционала Web Scraping. По умолчанию размечаются ссылки внутри структурных тегов HEADER, ASIDE, NAV и FOOTER
строка
▼
Наборы условий для полей типа строка
В любом месте ячейки
Точное значение (может быть пустым)
Начало ячейки — конец любой
Конец ячейки — начало любое
Целое слово
Начало слова — конец любой
ДЛИНА текстового значения ячейки
Длина значения в ячейке более, символов
Длина 1-го предложения (до .!?) в ячейке более, символов
Длина значения ячейки в виде строки более, px
Вы можете найти крайние значения, которые при просмотре Вами поисковой выдачи уже не помещаются в сниппет.
Длина 1-го предложения (.!?) ячейки в виде строки более, px
Сниппет в выдаче поисковой системы может быть составным или с пропущенными участками, поэтому стоит посмотреть, помещается ли первое предложение из Meta Description
Кол-во слов и цифр точное
Кол-во слов и цифр менее
Кол-во слов и цифр более
Регулярное выражение RegExp (регистронезависимое)
Числа в строках:
Из строки извлекается число, позволяя проверить его на соответствие условия
Важные моменты:
Не цифровые символы кроме . и , между чисел заменяются пробелом;
Все числа преобразуются в правильные числа, то есть при попытке найти или ввести 00.00 будут найдены также 0, 0.0 и так далее, т.е. идет математическое сравнение чисел! Для более поиска чисел как строк используйте другие методы, например RegExp;
Так как тире преобразуется в пробел, найти отрицательные числа можно только другими методами.
1-е совпавшее слово с цифрами: РАВНО, БОЛЬШЕ, МЕНЬШЕ
Отдельное число или в слове (тогда берется первое цельное число в буквенно-цифровых сочетаниях)
Последнее совпавшее слово с цифрами: РАВНО, БОЛЬШЕ, МЕНЬШЕ
Отдельное число или в слове (тогда берется первое цельное число в буквенно-цифровых сочетаниях)
Последнее совпавшее слово начинающееся на $ и далее цифр(ы): РАВНО, БОЛЬШЕ, МЕНЬШЕ
Последнее совпавшее слово представляющее из себя слово в виде цифр(ы) и далее каких-то символов: РАВНО, БОЛЬШЕ, МЕНЬШЕ
Примечания для типов данных строка:
Все виды поиска являются регистронезависимыми;
Для URL-адресов недоступны подсчет слов и поиск чисел в строке;
Везде, кроме URL-aдресов, условия RegExp и поиска для типа колонки число, знаки препинания, различные виды тире и пробелов преобразуются в пробелы. Пробелы по краям также удаляются (кроме условий «в любом месте строки», «начало слова - конец любой» и RegExp). Только тире внутри слов будут учтены;
LinksTamed декодирует управляющие последовательности, например вместо x=%D0%BF%D0%B0%D1%80%D1%81%D0%B5%D1%80 в таблице будет отображаться x=парсер. Если искомого значения нет в отображаемом URL-адресе, но оно будет найдено в оригинальном закодированном, тогда будет выделена вся ячейка;
Экспортировать или импортировать сами правила поиска на данный момент нельзя, но они останутся в браузере где установлен LinksTamed даже после удаления результатов парсинга.
▼
Наборы условий для полей типа число
Равно (может быть пустым)
Числа с плавающей запятой (она же точка), вне зависимости от указанного количества цифр после запятой или точки обрезаются до тысячной (до трех знаков после запятой)
Целая часть числа равна
Равно с точностью до одного знака после запятой или точки
Больше (не покажет пустые)
Больше или равно (не покажет пустые)
Меньше или пусто или не число
Меньше, но не пустое
Примечания для типов данных число:
Не имеет значения, указана точка или запятая в качестве десятичного разделителя.
Как работать с условиями «И» и «ИЛИ»
Практически для любого условия можно добавить дополнительные логические условия «И» или «ИЛИ», создав составное правило из множества условий:
«ИЛИ» существует двух видов:
Когда Вы добавляете строку через кнопку из левой части формы поиска, оно добавится в тот же ряд и с тем же отступом, что и предыдущее «ИЛИ» того же уровня. Это значит, что если сработает любое из правил этого уровня дерева условий, его результат будет зачтен, так как один из «ИЛИ» был найден;
Второй вариант добавления «ИЛИ» через кнопку справа от строки условий. У вас уже есть одна строка-условие, теперь можно создать для него подуровень: строка где нажата кнопка и добавленная этой кнопкой новая строка чистого условия будут помещены в подуровень. В этом случае «ИЛИ» нового подуровня продолжат работать также, как и другие «ИЛИ» этого уровня добавленные кнопкой слева, но теперь появится возможность указать отдельное «И» для этого уровня и всех его «ИЛИ».
«И» означает, что результат должен отвечать обоим условиям, а не любому из них, как было бы при «ИЛИ». Правило уровня «И» в свою очередь может иметь «ИЛИ» и так далее.
Существует два вида «И»:
«И» выбранное через кнопку выбранное слева от строки условий добавляет «И» для текущего уровня «ИЛИ»;
нажатое справа от строки правила, приведет к тому, что для этой строки будет создано отдельное условие «И»;
«И» действует на этот уровень дерева и все его подуровни. Кнопка недоступна для непосредственного уровня дерева .
Отключая единственное «ИЛИ» снятием галочки, зависимые «И» будут также отключены, так как не могут существовать без правил уровня . Тоже касается удаления правила - удаляя последнее «ИЛИ» - зависимые строки уровня «И» будут также удалены. Для обоих случаев будет предварительно подсвечен затрагиваемый участок дерева.
Отрицание
Активация кнопки (восклицательный знак станет красным ) позволяет найти значения, которые не отвечают условию. Например, так можно найти все не пустые значения (в этом случае нужно выбрать «точное значение» во втором раскрывающемся списке).
Удаление правил
Можно удалить все правила из формы для данного типа таблицы с помощью кнопки или только одно правило, используя крестики в строках. Нажав на кнопку, подпадающее под запрос на удаление значение начнет краснеть и только через секунду, когда кнопка станет желтой, можно удалить правило. Подсветка необходима, так как любое поддерево или того же уровня не могут существовать без родительского условия уровня , поэтому Вы должны увидеть, что будет удалено в итоге.
Цвета маркеров с результатами поиска
Можно выбрать 4 цвета выделения для подсветки результатов в таблице, а также прозрачный цвет, который можно применить для вспомогательных условий, которые не нужно нигде показывать, в том числе в количестве результатов, но оно необходимо, чтобы получить более точную выборку за счёт уточнений:
Текущее значение поиска на основе обхода кнопками навигации по результатам выделяется маркером оранжевого цвета. Чтобы увидеть цвет правила, который указан в форме поиска, просто наведите на него указатель или проследуйте к следующему элементу через кнопки навигации (если этот соседний результат в поле зрения). В полосе прокрутки также отображаются результаты поиска, однако они всегда оранжевого цвета.
Если несколько условий затрагивают один участок текста — его фон будет поделен на горизонтальные полоски в цветах, отвечающих условиям правил:
Другие важные моменты:
Доступно 99 999 результатов поиска;
Когда появились результаты поиска, при клике по таблице будет вычисляться ближайшая ячейка с результатом поиска, её порядковый номер появится справа от стрелок навигации по результатам поиска. При клике на эту кнопку будет осуществлен переход к этой ячейке, а на место старого значения в кнопке появится бывший номер текущего результата поиска, который был оранжевым до этого или к номеру 1. Таким образом, можно не только запомнить и перейти к ближайшему, но и переходить туда‑сюда.
Поскольку экспорт таблиц осуществляется в формате .CSV, отметить результаты в выгрузке нельзя, поэтому нужно использовать оставить только строки с найденным;
Во всплывающем окне детального просмотра дубликатов страницы выборе в форме поиска опции оставить только строки с найденным зависимые расшифровки могут быть скрыты только с одной из родительских страниц. Зависимые страницы также не поддаются скрытию, только вместе с основным URL для которого расшифровка;
Поиск или наличие в строке символов Юникода за пределами Basic Multilingual Plane (BMP) enru (65520 базовых символов) может вызвать сдвиг цветовой разметки с результатами внутри ячейки, а также появление.