Однако независимый анализ таких записей показывает, что обработка данных ALA и GBIF также приводит к потере данных и неоправданным изменениям научных названий.Исследование было проведено доктором Робертом Месибовым, австралийским специалистом по многоножкам, который также работает аудитором данных. Доктор Месибов проверил около 800 000 записей, извлеченных из Австралийского музея, Музея Виктории и коллекции новозеландских членистоногих. Его результаты опубликованы в журнале с открытым доступом ZooKeys, а также заархивированы в общедоступном хранилище данных.
«Меня в основном интересовали изменения, внесенные агрегаторами в названия родов и видов в записях», — сказал д-р Месибов.«Я обнаружил, что имена в 1 из 5 записей были изменены, часто потому, что агрегатор не мог найти имя в таблице поиска, которую он использовал».
Другой тревожный результат касался типовых образцов — эталонных образцов, на которых основаны научные названия. В ряде случаев было обнаружено, что агрегаторы заменяли имя образца типа именем, привязанным к образцу совершенно другого типа.
Самым большим сюрпризом, по словам доктора Месибова, стали серьезные разногласия по именам между агрегаторами.«Было очень мало согласия», — пояснил он. «Один агрегатор изменит имя, а другой — нет или изменит его по-другому».
Кроме того, даты, имена и информация о местонахождении иногда терялись из записей, в основном из-за ошибок программирования в программном обеспечении, используемом агрегаторами для проверки элементов данных. В некоторых полях данных потери достигли 100%, при этом исходные элементы данных не сохранились после обработки.
«Урок этого аудита заключается в том, что агрегирование данных о биоразнообразии небезопасно», — сказал д-р Месибов. «Он может потерять и спутать совершенно хорошие данные».«Пользователи агрегированных данных всегда должны загружать как исходные, так и обработанные элементы данных, а также должны проверять отсутствие или изменение данных, а также замену имен», — заключил он.
