{"title":"利用机器学习在数字图书馆中创建图像数据集的辅助软件","authors":"Filip Jebavý","doi":"10.5817/proin2023-36869","DOIUrl":null,"url":null,"abstract":"Účel – Tento odborný článek popisuje možnosti využití pomocného softwaru za účelem efektivní tvorby obrazových datových sad z dokumentů digitální knihovny. Popisovaný software, kromě běžných způsobů práce s daty, využívá prvky strojového učení, které mají potenciál jak práci anotátorů usnadnit, tak také změnit anotační praktiky. Zároveň je kladen důraz na jednoduchost a otevřenost celého procesu. Cílem je na tyto prvky upozornit pomocí praktických ukázek. Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score. Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti. Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.","PeriodicalId":476835,"journal":{"name":"ProInflow","volume":"3 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-10-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Pomocný software na tvorbu obrazových datových sad v digitální knihovně s využitím strojového učení\",\"authors\":\"Filip Jebavý\",\"doi\":\"10.5817/proin2023-36869\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Účel – Tento odborný článek popisuje možnosti využití pomocného softwaru za účelem efektivní tvorby obrazových datových sad z dokumentů digitální knihovny. Popisovaný software, kromě běžných způsobů práce s daty, využívá prvky strojového učení, které mají potenciál jak práci anotátorů usnadnit, tak také změnit anotační praktiky. Zároveň je kladen důraz na jednoduchost a otevřenost celého procesu. Cílem je na tyto prvky upozornit pomocí praktických ukázek. Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score. Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti. Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.\",\"PeriodicalId\":476835,\"journal\":{\"name\":\"ProInflow\",\"volume\":\"3 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-10-31\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"ProInflow\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5817/proin2023-36869\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"ProInflow","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5817/proin2023-36869","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
目的--本技术论文介绍了使用辅助软件从数字图书馆文档中高效创建图像数据集的可能性。除传统的数据处理方式外,本文介绍的软件还使用了机器学习功能,这些功能既有可能促进注释者的工作,也有可能改变注释实践。与此同时,软件还强调了整个过程的简单性和开放性。目的是通过实际例子来突出这些要素。设计/方法/途径 - 在导言部分之后,介绍了从数字图书馆文档中选择和分离数据的可能性。同时,也指出了这些方法的局限性。在此基础上,探讨了克服这些局限性的可行方法和辅助软件的使用。根据软件在标注过程中的实际使用情况,对这些方法进行了描述。除其他外,还使用了可视化技术 "类激活映射 "和 F 分数指标对机器学习特征进行验证。结果--事实证明,所述方法和使用具有机器学习功能的辅助软件非常有益。该软件不仅简化了注释者的工作,而且大大提高了速度和准确性。经测试的机器学习模型的多功能性可被视为一个巨大的积极因素,它允许将注释过程扩展到最初假设的用途之外,从而为这一领域的进一步研究提供了空间。独创性/价值--该技术论文强调了使用辅助软件的可行方法,以方便为数字图书馆等标识符数量有限的文件创建图像数据集,而无需使用商业工具。它还举例说明了如何利用机器学习提高这些流程的效率。此外,还提供了如何普遍使用这些流程的实例。
Pomocný software na tvorbu obrazových datových sad v digitální knihovně s využitím strojového učení
Účel – Tento odborný článek popisuje možnosti využití pomocného softwaru za účelem efektivní tvorby obrazových datových sad z dokumentů digitální knihovny. Popisovaný software, kromě běžných způsobů práce s daty, využívá prvky strojového učení, které mají potenciál jak práci anotátorů usnadnit, tak také změnit anotační praktiky. Zároveň je kladen důraz na jednoduchost a otevřenost celého procesu. Cílem je na tyto prvky upozornit pomocí praktických ukázek. Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score. Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti. Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.