扫描文件漏字错字怎么办?合合信息版面分析技术“还原”有方

2023-06-17 14:30:45 来源:百度新闻


(资料图片仅供参考)

人们因工作、学习需要而在将文件材料扫描成电子文档的过程中,时常会出现漏字、错位等现象,如何破解这个常见的技术难题?在日前由中国人工智能学会、中国图象图形学学会主办的2023年度视觉与学习青年学者研讨会上,合合信息公司技术代表介绍、演示的智能文档处理技术成果,有效地解决了这一困扰众人的问题。

据合合信息技术人员介绍,随着ocr技术应用面的持续拓宽,复杂多变的版面、多样化的文本内容给文档的识别和还原带来了新的挑战。文档中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。

t版面分析的任务目标被分为物理版面分析和逻辑版面分析两类,前者主要解决区域分割问题,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。

如果无法提升版面分析的精准度,文件材料在被拍照、扫描成电子文档的过程中便可能出现漏字、错位的现象,图片转word、图片转excel等“可编辑”性的需求将无法被满足。因此,“版面分析与文档还原”技术对提升文档图像电子化的视觉效果、信息提取精准度非常关键。

t合合信息最新研发的版面分析与文档还原技术,通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息,让电子文档电获得“所见即所得”的处理效果。

上观号作者:上海静安

标签:

为您推荐

新闻快讯