X-Model
简介
星原X-model是星原平台上强大的感知和认知训练平台,通过X-model,完成“标注——训练——使用”流程,即可获取完全由用户自定义的人工智能模型。X-model综合拥有KV结构信息读取、表格信息读取、文档图片分拣等功能,可以完美处理各类情况下的读取需求,实现各类场景下的数据读取需求。
创建一个X-model
在Studio内,创建一个空白工作区,并在模型仓库栏目,点击“自定义模型”,找到最后一个“OCR训练平台”并点击下一步创建
点击“下一步”后,我们将看到X-Model的主界面,如下:
首先点击界面左上角的“+”号,开始配置训练流程,配置流程界面如下:
X-Model支持用户自定义配置训练流程,目前支持的模块分为:
KV结构信息抽取:适用于大多数证照、表单类文件,拥有明显的“K-V结构”,如身份证、营业执照等;
表格信息抽取:适用于各类表格或类表格文档,如:财务报表、箱单、发票等;
用户可以根据自身样本的情况,单独选择一个,或两个都选择来训练。
注意:无论流程如何配置,最后训练完成的都将是一个模型。
完成流程配置后,点击保存即可,此时,可以点击左上角的“上传样本”按钮,上传需要提取的文档样本
注意:
X-model是一个“标注,训练,测试”的流程,上传文件实际上是上传训练文件,【添加字段】【添加表格】是添加标签的过程,在一个模型内,所有上传的文件共享同一套标签。
动态KV抽取器是支持多个文件上传的,在一个文件上传成功后,可以再上传一个文件
切换模型流程
当用户设置了两个流程的综合X-Model后,在标注界面,可以一直看到右上角的"+"号,点击“+”号,在流程中可以实现切换
KV结构信息抽取
上传成功文件后,界面显示如下:
标注界面左侧为图片标注区域,右侧为标签区域,首次进入后,系统将自动帮我们创建一个空白的标签
注意:
【抽取字段】是指,最终需要抽取出来的字段,【不抽取字段】是指不需要抽取去的字段
理论上,不需要标注【不抽取字段】,当只设置了【抽取字段】后,生成的模型抽取结果不好,可以尝试添加【不抽取字段】训练,对模型精度提示是有正面效果的。
一个标注中的三个名称分别代表以下意义:
字段1:此处是这个标签的名称,当用户标注了【key】后,会变为【key】标注的文字
key:是必标项目,点击“圈注”即可开始标注
value:是提取的字段值,点击“圈注”即可开始标注
例如:用户希望抽取一个营业执照的公司名称部分,如下标注
此时模型最后抽取的结果如下:
可以看到,最终Json字段是:
“名称”:“星原低代码平台”
如果希望看到的结果如下:
“公司名称”:“星原低代码平台”
可以修改字段名称,改为“公司名称”
此时的模型提取结果如下:
通过上述例子,我们可以看到,一个标注里面,所有的字段意义代表如下:
显示在结果中的“名称”
不会再最终结果内体现,但却是最终的标注,是必标项。
最终在结果中的“值”
特别的,多个样本的标注说明
用户可以上传多个样本标注,用于丰富样本,提高模型适用性,如下:
注意:
- 所有的样本都是共享一套标注,只有所有的标注都圈注好了,才可以进行下一步
表格信息抽取
上传表格样本到X-model中,如下
在此界面中,可以点击右边栏下侧的“添加表格”,点击后,框选样本中需要提取表格的部分
注意
此处框选的部分,主要用于X-model判断用户需要提取的表格在样本的什么位置,无需按照表格线精确框选,大致划定范围即可
完成后,可以看到右侧边栏内出现一个表格框,此时点击“添加表体区域(值)”按钮,完成表体标注
注意
表体是指,一个表格内除了表头外的内容
表体标注必须在框定的表格范围内,无法标注表格范围外的表体
表体区域请尽量贴合样本中的表体线
对于简单的实线表格,此时已经可以进行训练,点击保存标注后即可,但如果用户的样本表格较为复杂,提取效果不好,可以进一步标注更多信息,帮助X-Model更好的训练模型
完成表体标注后,在右侧的标签区域,出现:
添加表头信息
添加行
点击添加表头信息后,就可以开始标注表头信息
注意
标注表头信息,是标注表头的文字信息而非单元格;
用户可以在右侧的标签区域实现标注信息的增删改;
点击添加行后,可以开始对表格的行进行标注
注意
添加行信息是添加表体内的行,只需要框选整个行即可
请尽量贴合原图表格线框选
一般情况下,无需标注行信息,主要用于同一个表格,出现不同单元格划分情况的行时需要标注
完成所有标注后即可保存训练,模型将按照训练的样本学习用户需要提取的样本,并对后续需要提取的样本提取表格信息,返还一段json结构数据还原表格内的数据信息。
跨页表格合并
测试样式:跨页表格测试样本.pdf
使用简介
X-model支持在表格读取中,对跨页表格自动合并,只需要在使用前增加“跨页表格”功能,上传样本后训练即可
第一步:新建X-model并配置功能
在星原Studio中的“自定义模块”中找到X-model并新建,在弹出的X-model新建配置选项中拖拽“跨页表格“功能模块放置在平台的训练流程中
点击保存后,即可完成配置并进入样本标注界面
第二步:上传样本并标注训练
点击上传按钮,上传需要标注的样本
注意:跨页表格合并标注中,只支持PDF格式文件
第三步:标注并训练
1,跨页表格标注时,需要先标注页眉页脚,以帮助模型排除页眉页脚的干扰
2,完成页眉页脚标注后,点击“添加表格”,“添加一个新表格”来划定表格区域,并标注表体、表头内容(与表格提取标注相同)
3,完成后记得添加一个“表格类型”,点击“添加表格类型”添加后,在表格标注中选择类型
4,完成第一页标注后,在右边选择第二页,标注页眉页脚,此时点击“添加表格”,选择“从现有表格创建”,并在弹出的框中选择刚刚第一页创建的“表格1”(如果有多个表格,选择此时标注的表体需要合并的上一页表格即可
完成后标注表格区域与表体,可以发现表头内容已经同步,此时只需要标注表体即可
5,同理完成其他需要合并的表格的标注,完成后点击“保存标注”并“训练模型”
6,训练完成后,我们可以在X-model中测试效果,点击“测试模型”,上传一个同类型的跨页表格样本,可以看到所有需要合并的跨页表格,已经完成合并
此时,该模型就可以在星原Studio中使用了