您的位置:中国传媒网>新闻>国内>正文

iText推出了功能强大的iText pdfOCR:一款可在扫描文档中识别文本并转换为可编辑PDF文件的开源产品

2020/7/2 13:33:24 来源:中国传媒网

英国伦敦 - Media OutReach - 2020年7月2日 - 全球公认的PDF库和解决方案的思想领导者和创新者iText Group NV今天宣布推出iText pdfOCR。这是其屡获殊荣的软件系列的最新产品。

iText pdfOCR是知名iText 7 PDF软件开发工具包的一部分,提供光学字符识别(OCR)功能,可以将扫描文档和图像中的打印文本转换为可全文搜索的PDF/a-3u兼容格式(PDF 1.7版本),让用户使能够更加轻松快捷地访问这些文本。如果没有机器识别文本,则无法对打印或扫描的文档进行搜索、索引或解释。识别文本后,用户可以顺理成章地在后续操作中通过iText pdf2Data提取数据,使用iText pdfSweep进行安全内容修订,或者运用iText pdfCalligraph重新创建多语言文档。用户也能以低代码文档生成器iTextDITO®来重新为数据定位,可谓锦上添花。

iText pdfOCR附加模块是基于Tesseract OCR引擎技术构建的。Tesseract支持100多种语言,最初由Hewlett-Packard(‘85)开发,并于2005年根据Apache开源许可证发布。自2006年以来,Tesseract开发项目一直获谷歌赞助。

“随着COVID-19迫使企业加快数字转型项目,企业被迫探索新方法以访问和管理其现有数据和新数据。作为数字文档领域的领导者,我们很高兴能站在这个新时代的前沿。因此,我非常自豪地宣布,我们为当今新世界带来我们PDF库的最新产品。得益于iText pdfOCR的OCR功能,我们将为希望最大限度地发挥其数据潜力的用户和企业开启许多新机遇。”iText Group NV首席执行官Yeonsu Kim表示。

“我们恪守开源传统,因此我们决定在开源Tesseract OCR引擎上构建iText pdfOCR。我们希望通过此举再次巩固我们作为一家开源公司的定位,这种价值理念得到了我们数百万用户和客户的赞赏。”

“通过我们PDF库的这一新增功能,开发人员现在可以利用锁定在文档中的数据,这些数据此前都无法直接提取。我们的最新产品使开发人员能够通过访问隐藏在扫描文件中的数据,扩展其数字工作流程能力,并将其部署到他们或最终用户展望的任何操作或用途上。”iText Group NV产品与营销副总裁兼比利时iText软件公司总经理Tony Van den Zegel说。

iText pdfOCR的应用涵盖多种形式,例如:历史文件的归档、法律文件的翻译、处理各种实际申请或索赔时的自动数据输入,以及对其他不可编辑的打印或扫描文档进行排序。

请收看2020年7月9日的现场演示。更多信息请参阅此处