准备 Document AI 模型构建

本主题介绍如何准备 Document AI 模型构建。

您在 Snowsight 内创建和管理 Document AI 模型构建。您可以将 Document AI 模型构建视为表示单一类型的文档;例如,用于从发票文档中提取信息的模型构建。Document AI 模型构建包括模型、要提取的数据值以及上传的用于测试和训练模型的文档。

Document AI 模型构建是 DOCUMENT_INTELLIGENCE 类的实例。例如,Snowflake 在 SNOWFLAKE.ML 架构中提供了 DOCUMENT_INTELLIGENCE 类。有关类的更多信息,请参阅 Snowflake 类

在 Snowsight 中,Document AI 模型构建视图被划分至以下选项卡:

  • Build Details:使您能够查看有关模型构建的信息,例如文档数、要提取的数据值数、模型准确度和提取查询。

  • Documents:使您能够查看上传的用于测试和训练模型的文档列表。

  • Values:使您能够查看要提取的数据值的列表。

要访问 Snowsight 中的 Document AI 模型构建,请执行以下操作:

  1. 登录 Snowsight,使用被授予 SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR 角色的账户角色。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

有关 Document AI 角色和权限的更多信息,请参阅 设置 Document AI

创建 Document AI 模型构建

要创建 Document AI 模型构建,请执行以下操作:

  1. 登录 Snowsight,使用被授予 SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR 角色的账户角色。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 选择 + Build

  5. 在显示的对话框中,输入模型构建的名称,选择模型位置(数据库和架构),然后选择 Create

    模型构建已创建。

删除 Document AI 模型构建

您可以删除 Document AI 模型构建。

注意

当您删除 Document AI 模型构建时,请删除模型以及用于训练该模型的所有已上传文档。在删除模型构建之前,请确保不要将其用作文档处理管道的一部分。如果删除文档处理管道中使用的模型构建,则管道将失效。

Snowflake 不保留任何模型构建数据,因此已删除的模型构建和训练数据无法恢复;必须重新创建它们。

要删除 Document AI 模型构建,包括上传到模型构建的文档,请执行以下操作:

  1. 登录 Snowsight。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 选择 ... more 菜单 » Delete

  5. 要确认删除,请在 Delete Build 对话框中,选择 Delete

将文档上传到 Document AI 模型构建

要测试和训练 Document AI 模型,请手动将文档添加到 Snowsight 中的模型构建。

备注

在将文档上传到模型构建之前,请确保文档满足要求。请参阅 为 Document AI 准备文档

要将文档上传到现有的 Document AI 模型构建,请执行以下操作:

  1. 登录 Snowsight。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 选择模型构建的名称。

  5. 选择 Build Details 选项卡。

  6. 选择 Upload documents

  7. 选择 Browse 或拖动文档。

  8. 选择 Upload

定义 Document AI 模型构建的值

数据值是您希望从文档中提取的信息。值由值名称和使用自然语言提出的问题组成。有关模型优化问题的更多信息,请参阅 使用 Document AI 提取信息的问题优化

要定义 Document AI 模型构建的值,请执行以下操作:

  1. 登录 Snowsight。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 选择模型构建的名称。

  5. 选择 Build Details 选项卡。

  6. 选择 Define values

    会显示 Documents review 视图。

  7. 选择 + Value

  8. 对于每个值,输入值名称和问题。

作为此过程的结果,模型会提供问题的答案和置信度分数。置信度分数描述模型对答案是否正确的置信度。例如,置信度分数为 0.9 意味着有 90% 的置信度认为答案是正确的。

查看答案并评估结果

在使用 Document AI 模型提取信息,或决定通过微调来训练模型之前,您需要查看模型提供的答案。

查看答案时,您可能会遇到以下情况:

  • Document AI 模型给出了正确的答案。要确认答案,请选择复选标记。仅确认完全正确的答案。

  • Document AI 模型提供了错误的答案。您必须手动输入正确的值。若要在手动更改值后查看模型提供的值,请选择向下箭头。

  • Document AI 模型提供答案列表;例如,当您询问发票文件上的项目清单时。要从列表中移除答案或添加更多答案,请选择 更多选项

  • Document AI 模型没有提供答案。这意味着模型在文档中没有找到答案。

    • 如果文档包含答案,请手动输入值。

    • 如果文档不包含答案,请通过选择复选标记来确认响应为空。

评估 Document AI 模型

要评估 Document AI 模型(基础模型或微调模型),请分析准确性。准确性用于描述模型提供正确答案的频率。准确度越高,表明模型在提取方面越出色。要查看准确性,请查看所有问题的答案。

要查看准确性,请执行以下操作:

  1. 登录 Snowsight。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 选择模型构建的名称。

  5. 选择 Build Details 选项卡。

  6. 请参阅 Model accuracy

如果 Document AI 模型可靠地回答了您的问题,并且准确度令人满意,请发布模型构建。请参阅 发布 Document AI 模型构建

要改善 Document AI 模型的结果,请训练模型。请参阅 训练 Document AI 模型

小技巧

要在训练后评估 Document AI 模型,请查看新上传的文档。

发布 Document AI 模型构建

要使用 Document AI 模型构建提取信息,请发布模型构建。

如果在训练模型或发布模型构建后添加了新的数据值(提出新问题),则必须再次发布模型生成。

要发布模型构建,请执行以下操作:

  1. 登录 Snowsight。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 选择模型构建的名称。

  5. 选择 Build Details 选项卡。

  6. 请参阅 Model accuracy

  7. 选择 Publish version

  8. 在显示的对话框中,选择 Publish 以确认。

发布模型构建后,您可以看到一个提取查询。

训练 Document AI 模型

如果结果不令人满意,您可以训练 Document AI 模型来改进模型。

Snowflake 建议训练前至少查看 20 份文档。

小技巧

要评估模型的质量,请将文档分成两组。审查一组文档,并在训练后使用未审查的文档来评估模型。

要开始训练模型,请执行以下操作:

  1. 登录 Snowsight。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 选择模型构建的名称。

  5. 选择 Build Details 选项卡。

  6. 请参阅 Model accuracy

  7. 选择 Train model

  8. 在显示的对话框中,选择 Start training 以确认。

训练完成后,将显示一条通知。

您现在可以重新评估您的 Document AI 模型。要在训练后查看微调模型的准确性,请查看其他文档集。请注意,您可以多次微调模型以获得令人满意的结果。

如果您训练了模型,并且在训练后没有添加新的数据值(提出新的问题),则无需发布模型构建。

备注

您可以同时为多个模型构建启动多个训练。请注意,训练是排队进行的,您不能同时运行超过 3 个训练。

训练时间估计

Document AI 模型的训练时间取决于要提取的值数量和文档的页数。

下表说明了一批 20 个文档(训练所需的最小数量)和 10 个值的估计训练时间,具体取决于每个文档中的页数。

每个文档的页数

20 个文档的估计训练时间(小时)

1

1

10

2

25

6

50

12

75

24

100

30

125

36

备注

下表说明了估计训练时间。请注意,训练所需的实际时间可能会有所不同。通常,将值数量或文档数量增加一倍会使训练时间增加一倍。

训练会在 48 小时后失败。

语言: 中文