动态模版抽取器

新增一个动态智能抽取器

在星原Studio图形化界面中,点击增加一个“自定义模型”

image.png

在弹出的选择窗口中选择“动态摸板抽取器”并点击下一步

image.png

自定义输入一个抽取器的名称(建议按照需要抽取的样本或抽取的信息命名,便于后期管理使用)

image.png

系统将会自动完成配置,等待几秒钟,完成后点击下一步,并点击完成即可

image.png

完成以上步骤后,将进入动态模版抽取器初始化界面,在该界面,我们可以看到动态模版抽取器的使用文档,此时,点击最上边“开始”章节的“上传一个PDF文件或者图片”。

image.png

使用模版抽取结构化数据

1. 创建需要抽取的区域

创建一个抽取区域

1.gif

2. 对区域进行配置,让区域可以适配各种具有相同排版的信息抽取任务

模版是通过排版之间的相似性进行抽取,这就需要我们手动定义锚点,锚点是用于定位第一步创建的区域。 同时,锚点是基于OCR结果进行定位的,因此,选取特征性好、OCR置信度高的文字是模版质量的重要指标。下面是模版相关的操作

  • 创建锚点

2-1.gif

  • 配置锚点

默认创建的区域是基于外层元素算出的区域,配置区域时可以看见四条黑色虚线表示。然而该方案并不能 很好的解决问题(因为各种文件虽然可能具备相似的排版,但是文件的长宽比例很可能不同),将抽取区域 关联到一个锚点便可以解决这一问题。换句话说,从锚点出发去找抽取区域是一个很可靠且通用的过程。

2-2.gif

  • 删除锚点 删除所有与该锚点有关的连接后右键该锚点删除。

2-3.gif

  • 调整区域 调整区域可以通过点击抽取区域的上下左右四个点进行输入调整,也可以拖拽边线进行调整。需要注意的是, 输入调整不会对所有已有的连接进行重新计算。观察下图便可知道区别。

2-4.gif

3. 保存到服务器即可用于进行OCR提取数据

Last Updated: 2021/12/7 18:25:07