X-Model

简介

星原X-model是星原平台上强大的感知和认知训练平台,通过X-model,完成“标注——训练——使用”流程,即可获取完全由用户自定义的人工智能模型。X-model综合拥有KV结构信息读取、表格信息读取、文档图片分拣等功能,可以完美处理各类情况下的读取需求,实现各类场景下的数据读取需求。

创建一个X-model

在Studio内,创建一个空白工作区,并在模型仓库栏目,点击“自定义模型”,找到最后一个“OCR训练平台”并点击下一步创建

image.png

点击“下一步”后,我们将看到X-Model的主界面,如下:

image.png

首先点击界面左上角的“+”号,开始配置训练流程,配置流程界面如下:

image.png

X-Model支持用户自定义配置训练流程,目前支持的模块分为:

KV结构信息抽取:适用于大多数证照、表单类文件,拥有明显的“K-V结构”,如身份证、营业执照等;

表格信息抽取:适用于各类表格或类表格文档,如:财务报表、箱单、发票等;

用户可以根据自身样本的情况,单独选择一个,或两个都选择来训练。

注意:无论流程如何配置,最后训练完成的都将是一个模型。

完成流程配置后,点击保存即可,此时,可以点击左上角的“上传样本”按钮,上传需要提取的文档样本

image.png

注意:

  1. X-model是一个“标注,训练,测试”的流程,上传文件实际上是上传训练文件,【添加字段】【添加表格】是添加标签的过程,在一个模型内,所有上传的文件共享同一套标签。

  2. 动态KV抽取器是支持多个文件上传的,在一个文件上传成功后,可以再上传一个文件

切换模型流程

当用户设置了两个流程的综合X-Model后,在标注界面,可以一直看到右上角的"+"号,点击“+”号,在流程中可以实现切换

image.png

KV结构信息抽取

上传成功文件后,界面显示如下:

image.png

标注界面左侧为图片标注区域,右侧为标签区域,首次进入后,系统将自动帮我们创建一个空白的标签

image.png

注意:

  1. 【抽取字段】是指,最终需要抽取出来的字段,【不抽取字段】是指不需要抽取去的字段

  2. 理论上,不需要标注【不抽取字段】,当只设置了【抽取字段】后,生成的模型抽取结果不好,可以尝试添加【不抽取字段】训练,对模型精度提示是有正面效果的。

  3. 一个标注中的三个名称分别代表以下意义:

    字段1:此处是这个标签的名称,当用户标注了【key】后,会变为【key】标注的文字

    key:是必标项目,点击“圈注”即可开始标注

    value:是提取的字段值,点击“圈注”即可开始标注

例如:用户希望抽取一个营业执照的公司名称部分,如下标注

image.png

此时模型最后抽取的结果如下:

image.png

可以看到,最终Json字段是:

“名称”:“星原低代码平台”

如果希望看到的结果如下:

“公司名称”:“星原低代码平台”

可以修改字段名称,改为“公司名称”

image.png

image.png

此时的模型提取结果如下:

image.png

通过上述例子,我们可以看到,一个标注里面,所有的字段意义代表如下: image.png

  1. 显示在结果中的“名称”

  2. 不会再最终结果内体现,但却是最终的标注,是必标项。

  3. 最终在结果中的“值”

特别的,多个样本的标注说明

用户可以上传多个样本标注,用于丰富样本,提高模型适用性,如下:

image.png

注意:

  • 所有的样本都是共享一套标注,只有所有的标注都圈注好了,才可以进行下一步

表格信息抽取

上传表格样本到X-model中,如下

image.png

在此界面中,可以点击右边栏下侧的“添加表格”,点击后,框选样本中需要提取表格的部分

注意

此处框选的部分,主要用于X-model判断用户需要提取的表格在样本的什么位置,无需按照表格线精确框选,大致划定范围即可

image.png

完成后,可以看到右侧边栏内出现一个表格框,此时点击“添加表体区域(值)”按钮,完成表体标注

注意

  1. 表体是指,一个表格内除了表头外的内容

  2. 表体标注必须在框定的表格范围内,无法标注表格范围外的表体

  3. 表体区域请尽量贴合样本中的表体线

image.png

对于简单的实线表格,此时已经可以进行训练,点击保存标注后即可,但如果用户的样本表格较为复杂,提取效果不好,可以进一步标注更多信息,帮助X-Model更好的训练模型

完成表体标注后,在右侧的标签区域,出现:

  • 添加表头信息

  • 添加行

点击添加表头信息后,就可以开始标注表头信息

注意

  1. 标注表头信息,是标注表头的文字信息而非单元格;

  2. 用户可以在右侧的标签区域实现标注信息的增删改;

image.png

点击添加行后,可以开始对表格的行进行标注

注意

  1. 添加行信息是添加表体内的行,只需要框选整个行即可

  2. 请尽量贴合原图表格线框选

  3. 一般情况下,无需标注行信息,主要用于同一个表格,出现不同单元格划分情况的行时需要标注

image.png

完成所有标注后即可保存训练,模型将按照训练的样本学习用户需要提取的样本,并对后续需要提取的样本提取表格信息,返还一段json结构数据还原表格内的数据信息。

跨页表格合并

测试样式:跨页表格测试样本.pdf

使用简介

X-model支持在表格读取中,对跨页表格自动合并,只需要在使用前增加“跨页表格”功能,上传样本后训练即可

第一步:新建X-model并配置功能

在星原Studio中的“自定义模块”中找到X-model并新建,在弹出的X-model新建配置选项中拖拽“跨页表格“功能模块放置在平台的训练流程中

image.png

image.png

点击保存后,即可完成配置并进入样本标注界面

第二步:上传样本并标注训练

点击上传按钮,上传需要标注的样本

注意:跨页表格合并标注中,只支持PDF格式文件

image.png

第三步:标注并训练

1,跨页表格标注时,需要先标注页眉页脚,以帮助模型排除页眉页脚的干扰

image.png

2,完成页眉页脚标注后,点击“添加表格”,“添加一个新表格”来划定表格区域,并标注表体、表头内容(与表格提取标注相同)

image.png

3,完成后记得添加一个“表格类型”,点击“添加表格类型”添加后,在表格标注中选择类型

image.png

image.png

4,完成第一页标注后,在右边选择第二页,标注页眉页脚,此时点击“添加表格”,选择“从现有表格创建”,并在弹出的框中选择刚刚第一页创建的“表格1”(如果有多个表格,选择此时标注的表体需要合并的上一页表格即可

image.png

image.png

完成后标注表格区域与表体,可以发现表头内容已经同步,此时只需要标注表体即可

image.png

5,同理完成其他需要合并的表格的标注,完成后点击“保存标注”并“训练模型”

image.png

6,训练完成后,我们可以在X-model中测试效果,点击“测试模型”,上传一个同类型的跨页表格样本,可以看到所有需要合并的跨页表格,已经完成合并

image.png

此时,该模型就可以在星原Studio中使用了

Last Updated: 2022/3/31 17:35:52