Cortex AI 函数:文档

Snowflake 提供由 AI 驱动的高级文档智能功能,作为 Cortex AI 函数。这些函数可帮助您处理、解析、分类和提取各种文档类型的信息,以支持分析、自动化和智能应用,所有操作均使用简单的 SQL。文档函数可帮助您完成以下任务:

  • 解析文档,将非结构化文本和布局转换为结构化、可搜索、可分析的内容。

  • 从文档中 **提取结构化信息**(实体、表或字段)。

  • 对文档类型进行分类,以支持下游工作流程和分析。

Cortex 文档处理函数可以组合使用,以构建检索增强生成 (RAG) 管道、智能搜索与聊天机器人系统,以及大规模文档分析。下图展示了 Cortex 文档处理函数如何形成可组合框架,可混合匹配组件以构建定制化解决方案。

Cortex 文档处理函数的可组合框架

文档函数

核心 Cortex AI 文档处理函数包括:

  • AI_PARSE_DOCUMENT:将数字原生文档或扫描文档转换为富文本,同时保留布局和上下文。(可选)从文档中提取图像。非常适合语义搜索、RAG 管道和摘要工作流程。适用于需要理解整个文档内容的分析。

  • AI_EXTRACT:提供从文档中提取的高质量结构化信息。理解文本、表格、复选框、手写和其他视觉元素。专注于根据架构提取结构化数据。

其他 Cortex AI 函数在文档处理工作流程中非常有用。您可以将文档页面的图像直接传递给这些函数,也可以使用上述主要文档函数之一提取文本,然后使用其中一个函数来处理该文本。

  • AI_COMPLETE:作为最通用的 AI 函数,AI_COMPLETE 根据您提供的提示生成文本补全,因此可用于涉及从文档中提取或转换文本的各种任务。

  • AI_CLASSIFY:将文本内容按您定义的类别(例如发票、合同或报告)进行分类。

以下文本处理 AI 函数可用于进一步分析或转换从文档中提取的文本。

用例

用于文档处理的 Cortex AI 函数旨在协同或单独使用,以解决各种用例,并且非常适合以下两种用例:

为聊天机器人和企业搜索服务构建 RAG 管道

由 AI_PARSE_DOCUMENT 处理的文档可由 Cortex Search 服务编制索引,该服务可充当检索增强生成 (RAG) 引擎,以改进语言模型对用户查询的响应。在这种情况下,您可以使用 Cortex Search Service 查找与查询相关的文档,然后将这些文档作为提示的一部分传递给 AI_COMPLETE,以生成更具上下文相关性的响应。

构建文档处理管道以简化工作流程和分析

Cortex 文档处理 AI 函数可帮助您使用模块化组件构建智能、灵活且可扩展的文档处理管道。此类管道可引入各种格式的文档并将其转换为可操作的数据,从而允许您构建如下工作流程:

  • 基于架构的提取:应用自然语言架构从一组文档中提取实体(从单个实体到复杂的表格数据)

  • 针对文档的问答:使用自然语言就文档进行提问。

  • 文本和布局提取:获取文档文本(带或不带布局)以提取实体、生成摘要并使用其他 AI 函数进行分析。

  • 分类:在引入数据时确定文档类型(例如“发票”、“合同”、“报告”),以便将每种类型路由到相应的处理工作流程。

  • 构建模型注册表以共享自定义提取和分类模型:模型注册表存储针对组织特定自定义用例进行微调的文档提取模型。在团队之间重复使用这些模型可以节省时间和精力。

语言: 中文