Есть ли какая-то консольная утилита в Linux, способная сравнить два HTML-файла по степени похожести?

Автор вопроса: Xintrea

Есть два HTML-кода. В одном - статья на одном сайте, в другом - копия этой статьи на другом сайте, прошедшая некие html/xml преобразования. То есть, до и после текста статьи - все в коде разное (header/bottom), да и сам текст статьи на разных сайтах отформатирован разными тегами. И еще текст статьи тоже может немного отличаться.

Так вот, есть ли какая-то консольная утилита, которая покажет некую метрику, через которую можно (хотя бы с некоторой долей вероятности) понять, что эти два HTML-кода содержат одинаковую статью? Или что один HTML-код содержит часть статьи (достаточно крупную) с другой страницы?

Чтобы в утилите была какая-то реализация string kernels или косинусного подобия или чего-то такого.

Источник

БЛОГ НА HUSL

Есть ли какая-то консольная утилита в Linux, способная сравнить два HTML-файла по степени похожести?

Ответы (0 шт):