动态模版抽取器
新增一个动态智能抽取器
在星原Studio图形化界面中,点击增加一个“自定义模型”
在弹出的选择窗口中选择“动态摸板抽取器”并点击下一步
自定义输入一个抽取器的名称(建议按照需要抽取的样本或抽取的信息命名,便于后期管理使用)
系统将会自动完成配置,等待几秒钟,完成后点击下一步,并点击完成即可
完成以上步骤后,将进入动态模版抽取器初始化界面,在该界面,我们可以看到动态模版抽取器的使用文档,此时,点击最上边“开始”章节的“上传一个PDF文件或者图片”。
使用模版抽取结构化数据
1. 创建需要抽取的区域
创建一个抽取区域
2. 对区域进行配置,让区域可以适配各种具有相同排版的信息抽取任务
模版是通过排版之间的相似性进行抽取,这就需要我们手动定义锚点,锚点是用于定位第一步创建的区域。 同时,锚点是基于OCR结果进行定位的,因此,选取特征性好、OCR置信度高的文字是模版质量的重要指标。下面是模版相关的操作
- 创建锚点
- 配置锚点
默认创建的区域是基于外层元素算出的区域,配置区域时可以看见四条黑色虚线表示。然而该方案并不能 很好的解决问题(因为各种文件虽然可能具备相似的排版,但是文件的长宽比例很可能不同),将抽取区域 关联到一个锚点便可以解决这一问题。换句话说,从锚点出发去找抽取区域是一个很可靠且通用的过程。
- 删除锚点 删除所有与该锚点有关的连接后右键该锚点删除。
- 调整区域 调整区域可以通过点击抽取区域的上下左右四个点进行输入调整,也可以拖拽边线进行调整。需要注意的是, 输入调整不会对所有已有的连接进行重新计算。观察下图便可知道区别。