导出 Document AI 模型构建¶
您可以将 Document AI 模型构建导出到内部暂存区。这样会导出文档文件,并生成注释文件。然后,您可以将导出的数据用于多种用途,例如创建 Snowflake 数据集,并使用 AI_EXTRACT 函数提取信息。
先决条件¶
要使用 Document AI,您必须具有所需的权限。有关权限的更多信息,请参阅 设置 Document AI。
要导出 Document AI 模型构建,您必须在目标暂存区上具有 WRITE 权限。
备注
目标暂存区必须是内部暂存区。
导出 Document AI 模型构建¶
登录 Snowsight。
在导航菜单中,选择 AI & ML » Document AI。
选择仓库。
显示现有模型构建的列表。
选择模型构建名称旁边的 ...`(更多)菜单,然后选择 :ui:`Export。
在出现的 Export Build 对话框中,从列表中选择一个目标暂存区,然后选择 Export 进行确认。
当导出过程完成后,通过选择 Close 来关闭对话框。
备注
您可以在导出过程完成之前关闭对话框。关闭对话框不会取消导出过程。
模型构建会被导出到目标暂存区中。这意味着目标暂存区目录现在包含该 Document AI 模型构建最新版本的所有文档,以及
annotations.jsonl文件。
注释文件¶
当您导出 Document AI 模型构建时,annotations.jsonl 文件会在目标暂存区目录中生成。对于每个您导出的文档,该文件包含以下信息:
file:选择使用 时默认使用的角色和仓库。文件名标识符prompt:JSON 架构,用于描述提示内容annotatedResponse:选择使用 时默认使用的角色和仓库。符合该架构格式的用户响应modelResponse:选择使用 时默认使用的角色和仓库。未被用户修改的响应
请参考 annotations.jsonl 文件中的以下示例行:
{
"file": "5d8c22ebe1e9a9b4bc92f611c02a745b_00.pdf",
"prompt": {
"type": "object",
"properties": {
"information": {
"description": "Employee information",
"type": "object",
"properties": {
"name": {
"type": "array",
"items": {
"type": "string"
}
},
"address": {
"type": "array",
"items": {
"type": "string"
}
},
"city": {
"type": "array",
"items": {
"type": "string"
}
}
}
},
"data": {
"description": "",
"type": "object",
"properties": {
"ssid": {
"type": "array",
"items": {
"type": "string"
}
},
"employeeid": {
"type": "array",
"items": {
"type": "string"
}
},
"startdate": {
"type": "array",
"items": {
"type": "string"
}
},
"enddate": {
"type": "array",
"items": {
"type": "string"
}
}
}
},
"deductions": {
"description": "",
"type": "object",
"properties": {
"deductions name": {
"type": "array",
"items": {
"type": "string"
}
},
"current": {
"type": "array",
"items": {
"type": "string"
}
}
}
}
}
},
"annotatedResponse": {
"information": {
"name": [
"John Doe"
],
"address": [
"Dakota Avenue Powder River, WY 82648"
],
"city": [
"Powder River, WY 82648"
]
},
"data": {
"ssid": [
"123-45-6789"
],
"employeeid": [
"34528"
],
"startdate": [
"06/15/2018"
],
"enddate": [
"06/30/2018"
]
},
"deductions": {
"deductions name": [
"Federal Tax",
"Wyoming State Tax",
"SDI",
"Soc Sec / OASDI",
"Health Insurance Tax",
"None"
],
"current": [
"82.50",
"64.08",
"None",
"13.32",
"91.74",
"21.46"
]
}
},
"modelResponse": {}
}
处理导出的数据¶
导出 Document AI 模型构建后,您可以使用导出的数据创建一个表,以便进一步处理:
为注释文件创建文件格式:
CREATE OR REPLACE FILE FORMAT my_json TYPE = 'JSON';
创建表:
CREATE OR REPLACE TABLE exported_data_table AS ( SELECT input_file.$1:file AS file, input_file.$1:prompt AS prompt, input_file.$1:annotatedResponse AS response FROM '@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/annotations.jsonl' (FILE_FORMAT => my_json) input_file WHERE response != '{}' );
现在,您可以将导出的数据转换为数据集以便在 Snowflake 中进一步使用,或使用这些数据运行 AI_EXTRACT 函数:
为导出的数据创建数据集:
CREATE DATASET my_dataset; ALTER DATASET my_dataset ADD VERSION 'v2' FROM ( SELECT CONCAT('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/', file) AS file, prompt, response FROM exported_data_table );
有关数据集的更多信息,请参阅 Snowflake 数据集。
使用导出的数据运行 AI_EXTRACT:
SELECT AI_EXTRACT ( file => TO_FILE('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10', my_table.file), responseFormat => PARSE_JSON('{ "schema": ' || TO_VARIANT(my_table.schema) || '}') ) FROM docai_db.docai_schema.exported_data_table AS my_table;