ОГЛЯД ІНСТРУМЕНТІВ OCR ДЛЯ ЗАВДАННЯ РОЗПІЗНАВАННЯ ТАБЛИЦЬ І ГРАФІКІВ У ДОКУМЕНТАХ

Олександра Ярошенко
{"title":"ОГЛЯД ІНСТРУМЕНТІВ OCR ДЛЯ ЗАВДАННЯ РОЗПІЗНАВАННЯ ТАБЛИЦЬ І ГРАФІКІВ У ДОКУМЕНТАХ","authors":"Олександра Ярошенко","doi":"10.20535/2708-4930.3.2022.265200","DOIUrl":null,"url":null,"abstract":"У цьому дослідженні представлено огляд інструментів OCR для розпізнавання таблиць документів і графіків. Оцифрування паперових документів має багато переваг як для фізичних осіб, так і для компаній. Для оцифрування потрібно використовувати програмне забезпечення OCR (оптичне розпізнавання символів). Таке програмне забезпечення сканує документи, щоб зробити текст зрозумілим для комп’ютера. Їх можна конвертувати у формати, які підтримуються Microsoft Word або Google Docs. Програмне забезпечення OCR стає радше необхідністю, ніж утилітою для розваг. OCR створює текст із можливістю пошуку та редагування з друкованих документів, а також із відсканованих фотографій або книг і PDF-файлів.\nЗараз спостерігається активна тенденція до цифровізації документів. Існує великий попит на рішення, які можуть ефективно автоматизувати обробку великого масиву документів з високою точністю. Окремим випадком є обробка PDF-файлів, таких як відскановані документи або створені програмними редакторами. Рішення OCR спрямовані на підвищення ефективності обробки та аналізу цифрових документів за допомогою штучного інтелекту. Цими рішеннями можуть користуватися як державні установи, так і підприємства. Розроблені системи можуть стати цінним доповненням до CRM-систем і можуть бути інтегровані замість існуючих модулів обробки документів або використовуватися як окреме рішення.\nХоча існуючі рішення OCR можуть ефективно розпізнавати текст, розпізнавання графічних елементів, таких як діаграми та таблиці, все ще знаходиться на стадії розробки. Рішення, які можуть підвищити точність розпізнавання візуальних даних, можуть бути цінними для обробки технічних документів, таких як наукові, фінансові та інші аналітичні документи.\nКлючові слова: OCR, файли PDF, FastText, виявлення, розпізнавання, глибоке навчання, технічні документи.","PeriodicalId":411692,"journal":{"name":"Information, Computing and Intelligent systems","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-12-23","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Information, Computing and Intelligent systems","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.20535/2708-4930.3.2022.265200","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

У цьому дослідженні представлено огляд інструментів OCR для розпізнавання таблиць документів і графіків. Оцифрування паперових документів має багато переваг як для фізичних осіб, так і для компаній. Для оцифрування потрібно використовувати програмне забезпечення OCR (оптичне розпізнавання символів). Таке програмне забезпечення сканує документи, щоб зробити текст зрозумілим для комп’ютера. Їх можна конвертувати у формати, які підтримуються Microsoft Word або Google Docs. Програмне забезпечення OCR стає радше необхідністю, ніж утилітою для розваг. OCR створює текст із можливістю пошуку та редагування з друкованих документів, а також із відсканованих фотографій або книг і PDF-файлів. Зараз спостерігається активна тенденція до цифровізації документів. Існує великий попит на рішення, які можуть ефективно автоматизувати обробку великого масиву документів з високою точністю. Окремим випадком є обробка PDF-файлів, таких як відскановані документи або створені програмними редакторами. Рішення OCR спрямовані на підвищення ефективності обробки та аналізу цифрових документів за допомогою штучного інтелекту. Цими рішеннями можуть користуватися як державні установи, так і підприємства. Розроблені системи можуть стати цінним доповненням до CRM-систем і можуть бути інтегровані замість існуючих модулів обробки документів або використовуватися як окреме рішення. Хоча існуючі рішення OCR можуть ефективно розпізнавати текст, розпізнавання графічних елементів, таких як діаграми та таблиці, все ще знаходиться на стадії розробки. Рішення, які можуть підвищити точність розпізнавання візуальних даних, можуть бути цінними для обробки технічних документів, таких як наукові, фінансові та інші аналітичні документи. Ключові слова: OCR, файли PDF, FastText, виявлення, розпізнавання, глибоке навчання, технічні документи.
本研究概述了用于识别文档表格和图形的 OCR 工具。纸质文件数字化对个人和企业都有很多好处。数字化需要使用 OCR(光学字符识别)软件。该软件可扫描文档,使计算机能够理解其中的文字。它们可以转换成微软 Word 或谷歌文档支持的格式。OCR 软件正在成为一种必需品,而不是一种有趣的工具。OCR 可以从打印文件、扫描照片或书籍以及 PDF 文件中创建可搜索和可编辑的文本。目前,文件数字化是大势所趋,人们对能够高效、自动、高精度处理大量文件的解决方案需求量很大。一个特殊的案例是 PDF 文件的处理,如扫描文件或软件编辑器创建的文件。OCR 解决方案旨在利用人工智能提高处理和分析数字文档的效率。政府机构和企业都可以使用这些解决方案。虽然现有的 OCR 解决方案可以有效识别文本,但对图表和表格等图形元素的识别仍在开发之中。虽然现有的 OCR 解决方案可以有效识别文本,但对图表和表格等图形元素的识别仍处于开发阶段。能够提高视觉数据识别准确性的解决方案对于处理科学、金融和其他分析文件等技术文档非常有价值:OCR、PDF 文件、FastText、检测、识别、深度学习、技术文档。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信