Document AI¶
什么是 Document AI¶
Document AI 是一项 Snowflake AI 功能,它使用专有的大语言模型 (LLM) Arctic-TILT,从文档中提取数据。Document AI 处理各种格式的文件,并从包含大量文档的段落和图形形式的内容(如徽标、手写文本 [签名] 或复选标记)中提取信息。使用 Document AI,您可以为连续处理特定类型的新文档(如发票或财务报表)准备管道。
Document AI 提供 Zero-Shot 提取和微调功能。Zero-Shot 表示基础模型可以定位和提取特定于文档类型的信息,即使模型以前从未见过文档。正是因为基础模型是基于大量各种文档训练的,所以模型大致了解所处理的文档类型。
此外,您还可以根据特定于用例的文档,对 Snowflake Arctic-TILT 模型进行训练,从而对模型进行微调以改善结果。微调模型(包括使用的训练数据)仅提供给您,不会与其他 Snowflake 客户共享。
何时使用 Document AI¶
Document AI 最适合用于以下情况:
您想将文档中的非结构化数据转换为表中的结构化数据。
您想创建管道,以连续处理特定类型的新文档。
具有领域知识的业务用户准备模型,使用 SQL 的数据工程师准备管道以自动处理新文档。
Document AI 的工作原理¶
使用 Document AI 分为两个阶段:
准备 Document AI 模型构建
您可以将模型构建视为表示单一类型的文档或用例;例如,用于从发票文档中提取信息的模型构建。Document AI 模型构建包括模型、要提取的数据值以及上传的用于测试和训练模型的文档。
您可以通过 Snowsight 的 Document AI 用户界面准备模型构建。通过该界面,您可以创建模型构建、上传文档以测试和训练模型、使用自然语言提问以定义数据值(要提取的信息)、评估模型、发布模型构建或微调模型以改进结果。
有关更多信息,请参阅 准备 Document AI 模型构建。
从文档中提取信息
模型构建完成后,就可以开始通过运行提取查询从文档中提取信息,提取查询使用 <model_build_name>!PREDICT 方法。然后,您可以使用提取查询创建管道,以使用 Streams 和 Tasks 进行连续处理。
有关更多信息,请参阅 使用 Document AI 提取信息。
备注
要使用 <model_build_name>!PREDICT 方法处理的文档必须存储在内部或外部暂存区。
要开始使用 Document AI,请参阅 教程:使用文档 AI 创建文档处理管道。
Document AI 模型版本历史¶
要使用最新版本的 Arctic-TILT 模型,请创建新的 Document AI 模型构建。
模型版本发布日期 |
模型版本改进 |
---|---|
|
|
|
法律声明¶
输入和输出的 Data Classification 如下表所示。
输入 Data Classification |
输出 Data Classification |
名称 |
---|---|---|
Usage Data |
Customer Data |
Covered AI Features [1] |
有关更多信息,请参阅 Snowflake AI 和 ML。