
Всем знакомо разочарование от перехода по ссылке на интересный веб-сайт только для того, чтобы обнаружить, что целевой страницы больше нет, и получить страницу с ошибкой. Однако еще более неприятно и с более широкими последствиями для науки, здравоохранения, промышленности и других областей, когда машины обмениваются данными и ожидают найти определенные ресурсы, которые оказываются отсутствующими или перемещенными по их идентификатору.
Это может вызвать проблемы, когда компьютер обрабатывает большие объемы данных в финансовом или научном анализе, например. Если ресурс все еще находится на серверах, его следует извлечь, учитывая достаточно эффективный алгоритм, который может воссоздать недостающие ссылки.
Инженеры по вычислительной технике Мохаммад Поурзаферани и Мохаммад Али Нематбахш из Университета Исфахана объясняют, что предыдущие усилия по решению проблемы неработающих ссылок в сети данных были сосредоточены на точке назначения.
У этого подхода есть два неотъемлемых ограничения. Во-первых, он находится в единой точке отказа, тогда как в базе данных могут быть более широкие проблемы. Во-вторых, он полагается на знание источника данных назначения.
Теперь команда представила метод исправления неработающих ссылок, основанный на исходной точке ссылок, и способ обнаружения нового адреса цифрового объекта, который стал отсоединенным. Их метод создает превосходный и подчиненный набор данных, который позволяет им создавать эксклюзивный граф данных, который можно отслеживать с течением времени, чтобы идентифицировать изменения и улавливать недостающие ссылки по мере отсоединения ресурсов.
«Предлагаемый алгоритм использует тот факт, что сущности сохраняют свою структуру событие после перемещения в другое место. Следовательно, алгоритм создает эксклюзивную структуру графа для каждой сущности », — объясняет Пурзаферани.
Этот граф состоит из двух типов сущностей, называемых «высший» и «низший». Какие объекты указывают на отделенный объект и указывают на него, соответственно.
Когда обнаруживается неработающая ссылка, алгоритм начинает свою задачу по поиску нового местоположения для отдельного объекта или лучшего аналогичного кандидата для него. С этой целью модуль контроллера искателя ищет вышестоящие объекты каждого объекта в нижнем наборе данных, и наоборот. После нескольких шагов область поиска сужается и выбирается лучший кандидат."
Исследователи протестировали алгоритм на двух снимках DBpedia, в которых содержится почти 300 000 физических лиц. Их алгоритм идентифицировал почти 5000 объектов, которые изменились между первым и вторым снимком, записанным через некоторое время.
Алгоритм продемонстрировал свое мастерство в перемещении 9 из 10 неработающих ссылок.
