导出 Document AI 模型构建

您可以将 Document AI 模型构建导出到内部暂存区。这样会导出文档文件,并生成注释文件。然后,您可以将导出的数据用于多种用途,例如创建 Snowflake 数据集,并使用 AI_EXTRACT 函数提取信息。

先决条件

  • 要使用 Document AI,您必须具有所需的权限。有关权限的更多信息,请参阅 设置 Document AI

  • 要导出 Document AI 模型构建,您必须在目标暂存区上具有 WRITE 权限。

    备注

    目标暂存区必须是内部暂存区。

导出 Document AI 模型构建

  1. 登录 Snowsight

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    显示现有模型构建的列表。

  4. 选择模型构建名称旁边的 ...`(更多)菜单,然后选择 :ui:`Export

  5. 在出现的 Export Build 对话框中,从列表中选择一个目标暂存区,然后选择 Export 进行确认。

  6. 当导出过程完成后,通过选择 Close 来关闭对话框。

    备注

    您可以在导出过程完成之前关闭对话框。关闭对话框不会取消导出过程。

    模型构建会被导出到目标暂存区中。这意味着目标暂存区目录现在包含该 Document AI 模型构建最新版本的所有文档,以及 annotations.jsonl 文件。

注释文件

当您导出 Document AI 模型构建时,annotations.jsonl 文件会在目标暂存区目录中生成。对于每个您导出的文档,该文件包含以下信息:

  • file:选择使用 时默认使用的角色和仓库。文件名标识符

  • prompt:JSON 架构,用于描述提示内容

  • annotatedResponse:选择使用 时默认使用的角色和仓库。符合该架构格式的用户响应

  • modelResponse:选择使用 时默认使用的角色和仓库。未被用户修改的响应

请参考 annotations.jsonl 文件中的以下示例行:

{
  "file": "5d8c22ebe1e9a9b4bc92f611c02a745b_00.pdf",
  "prompt": {
    "type": "object",
    "properties": {
      "information": {
        "description": "Employee information",
        "type": "object",
        "properties": {
          "name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "address": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "city": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "data": {
        "description": "",
        "type": "object",
        "properties": {
          "ssid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "employeeid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "startdate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "enddate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "deductions": {
        "description": "",
        "type": "object",
        "properties": {
          "deductions name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "current": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      }
    }
  },
  "annotatedResponse": {
    "information": {
      "name": [
        "John Doe"
      ],
      "address": [
        "Dakota Avenue Powder River, WY 82648"
      ],
      "city": [
        "Powder River, WY 82648"
      ]
    },
    "data": {
      "ssid": [
        "123-45-6789"
      ],
      "employeeid": [
        "34528"
      ],
      "startdate": [
        "06/15/2018"
      ],
      "enddate": [
        "06/30/2018"
      ]
    },
    "deductions": {
      "deductions name": [
        "Federal Tax",
        "Wyoming State Tax",
        "SDI",
        "Soc Sec / OASDI",
        "Health Insurance Tax",
        "None"
      ],
      "current": [
        "82.50",
        "64.08",
        "None",
        "13.32",
        "91.74",
        "21.46"
      ]
    }
  },
  "modelResponse": {}
}

处理导出的数据

导出 Document AI 模型构建后,您可以使用导出的数据创建一个表,以便进一步处理:

  1. 为注释文件创建文件格式:

    CREATE OR REPLACE FILE FORMAT my_json
      TYPE = 'JSON';
    
    Copy
  2. 创建表:

    CREATE OR REPLACE TABLE exported_data_table AS (
       SELECT
          input_file.$1:file AS file,
          input_file.$1:prompt AS prompt,
          input_file.$1:annotatedResponse AS response
       FROM '@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/annotations.jsonl' (FILE_FORMAT => my_json) input_file
       WHERE response != '{}'
    );
    
    Copy

现在,您可以将导出的数据转换为数据集以便在 Snowflake 中进一步使用,或使用这些数据运行 AI_EXTRACT 函数:

  • 为导出的数据创建数据集:

    CREATE DATASET my_dataset;
    
    ALTER DATASET my_dataset
    ADD VERSION 'v2' FROM (
      SELECT
        CONCAT('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/', file) AS file,
        prompt,
        response
      FROM exported_data_table
    );
    
    Copy

    有关数据集的更多信息,请参阅 Snowflake 数据集

  • 使用导出的数据运行 AI_EXTRACT:

    SELECT
    AI_EXTRACT (
      file => TO_FILE('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10', my_table.file),
      responseFormat => PARSE_JSON('{ "schema": ' || TO_VARIANT(my_table.schema) || '}')
      )
    FROM docai_db.docai_schema.exported_data_table AS my_table;
    
    Copy
语言: 中文