{"title":"МЕТОД ВИЯВЛЕННЯ ПОДІБНОСТІ НАЗВ ВИДАВНИЦТВ, СТІЙКИЙ ДО РІЗНИХ ВИДІВ СКОРОЧЕНЬ","authors":"Петро Таланчук, Максим Петренко","doi":"10.36994/2788-5518-2021-02-02-16","DOIUrl":null,"url":null,"abstract":"Стаття присвячена вдосконаленню методів інтеграції гетерогенних бібліографічних даних на основі скоординованого використання полів «ISBN» та «Видавництво». Вдосконалення стосується частини порівняння назв видавництв та має на меті усунути виявлені на реальних даних слабкі місця. \nІнтеграція бібліографічних даних з різних джерел використовується з метою отримання узгоджених бібліографічних ресурсів на їх основі та для підвищення загальної якості даних. Такі процеси актуальні як в Україні, так і в світі. Сьогодні в Україні є запит на цифрову трансформації бібліотек та створення зведених електронних каталогів. \nВ ході дослідження розглянуті методи інтеграції у вигляді, в якому вони зараз застосовуються в передових світових дослідженнях. Проаналізована можливість їх застосування до бібліографічних даних публічних бібліотек м. Києва (141-а бібліотека) та проблеми, які можуть виникнути. \nВ ході розгляду було помічено, що в значеннях поля «Видавництво» у великій кількості присутні різні види скорочень. Цей факт заважає ефективному застосуванню методів нечіткого порівняння текстових даних, які використовуються в методах інтеграції бібліографічних даних (відстань редагування Левенштейна, метод Яро-Вінклера, метод 3-грам). \nВ результаті аналізу бібліографічних даних було розроблено рекурентний метод визначення того, що два рядки можуть бути варіантами написання назви одного видавництва, з врахуванням можливості використання скорочень. Метод описано у вигляді блок-схем. \nНа основі пропонованого методу та згаданих вище методів нечіткого порівняння текстових даних розроблено програмне забезпечення, яке протестоване на даних публічних бібліотек Києва. Доведено, що пропонований метод розширює можливості розпізнавання варіантів назв видавництв чим може підвищити ефективність інтеграції даних. Запропоновані шляхи використання авторського методу разом з іншими, а також напрямки його розвитку.","PeriodicalId":165726,"journal":{"name":"Інфокомунікаційні та комп’ютерні технології","volume":"64 2","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-01-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Інфокомунікаційні та комп’ютерні технології","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36994/2788-5518-2021-02-02-16","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Стаття присвячена вдосконаленню методів інтеграції гетерогенних бібліографічних даних на основі скоординованого використання полів «ISBN» та «Видавництво». Вдосконалення стосується частини порівняння назв видавництв та має на меті усунути виявлені на реальних даних слабкі місця.
Інтеграція бібліографічних даних з різних джерел використовується з метою отримання узгоджених бібліографічних ресурсів на їх основі та для підвищення загальної якості даних. Такі процеси актуальні як в Україні, так і в світі. Сьогодні в Україні є запит на цифрову трансформації бібліотек та створення зведених електронних каталогів.
В ході дослідження розглянуті методи інтеграції у вигляді, в якому вони зараз застосовуються в передових світових дослідженнях. Проаналізована можливість їх застосування до бібліографічних даних публічних бібліотек м. Києва (141-а бібліотека) та проблеми, які можуть виникнути.
В ході розгляду було помічено, що в значеннях поля «Видавництво» у великій кількості присутні різні види скорочень. Цей факт заважає ефективному застосуванню методів нечіткого порівняння текстових даних, які використовуються в методах інтеграції бібліографічних даних (відстань редагування Левенштейна, метод Яро-Вінклера, метод 3-грам).
В результаті аналізу бібліографічних даних було розроблено рекурентний метод визначення того, що два рядки можуть бути варіантами написання назви одного видавництва, з врахуванням можливості використання скорочень. Метод описано у вигляді блок-схем.
На основі пропонованого методу та згаданих вище методів нечіткого порівняння текстових даних розроблено програмне забезпечення, яке протестоване на даних публічних бібліотек Києва. Доведено, що пропонований метод розширює можливості розпізнавання варіантів назв видавництв чим може підвищити ефективність інтеграції даних. Запропоновані шляхи використання авторського методу разом з іншими, а також напрямки його розвитку.