Document AI 的成本治理

本主题提供 Document AI 成本治理的最佳实践。

衡量 Document AI 的成本

Document AI 产生成本的方式如下:

AI 服务计算:

Document AI 可以使用 <model_build_name>!PREDICT 方法从文档中提取信息,这会产生计算成本。

虚拟仓库计算:

要在工作表中运行查询(包括使用 <model_build_name>!PREDICT 方法),请选择仓库。此外,Document AI 还会产生与检索工作表中数据有关的其他操作的成本。有关为 Document AI 选择仓库大小的信息,请参阅 确定 Document AI 的最佳仓库规模

存储:

要测试 Document AI 模型,您需要在 Snowsight 的 Document AI 用户界面中上传文档,在其中查看结果,并可以选择通过训练对模型进行微调。这些操作可能会产生存储成本,因为结果存储在您账户内的 Snowflake 类对象中。要使用 SQL 提取信息,您需要将文档上传到内部或外部暂存区,这也可能会产生存储成本。有关查看已产生的存储成本的信息,请参阅 探索存储成本

有关 Snowflake 总体成本的更多信息,请参阅 了解总体费用

AI 服务计算成本

Document AI 运用受 Snowflake 管理的计算资源,Snowflake 会根据每个 Document AI 工作负载的需要自动扩缩这些计算资源。Snowflake 管理的计算结构允许根据实际使用这些资源的时间计算消耗。相比之下,用户管理的虚拟仓库在运行时会消耗 Credit,无论它们是否正在执行任何工作,这可能会导致它们被闲置或过度利用。

Document AI 的 Credit 消耗根据完成作业所使用的计算资源总量计算。使用的计算资源量通过计算类型和花费的时间来衡量,并且以每秒为单位计算工作负载使用的所有资源,四舍五入到最接近的整数秒。

有关 Snowflake 计算成本的详细信息,请参阅 了解计算成本

有关 Credit 消耗的详细信息,请参阅 Snowflake 服务消耗表

估计 Credit 消耗

Document AI 的 Credit 消耗取决于以下方面:

  • 页数(用于由页面组成的文档格式)。

  • 文档数量。

  • 页面密度。

    处理几乎空白的文档(例如发票)所需的时间比处理文本密集型文档(例如研究论文)所需的时间更少,消耗的 Credit 也因此较少。

  • 要提取的数据值的数量。

    提取更多的数据值需要更多时间,从而导致更高的 Credit 消耗。

有关 Document AI 支持的文档格式的信息,请参阅 为 Document AI 准备文档

下表描述了基于不同类型工作负载的 估计 Credit 消耗。

页数

文档数量

页面密度

10 个值的估计 Credit 范围

20 个值的估计 Credit 范围

40 个值的估计 Credit 范围

1,000

10

低,例如发票或幻灯片。

3 到 5 个

4 到 6 个

6 到 8 个

1,000

100

低,例如发票或幻灯片。

5 到 7 个

7 到 10 个

10 到 12 个

1,000

1,000

低,例如发票或幻灯片。

10 到 12 个

11 到 13 个

12 到 14 个

1,000

10

中等,例如商业通信或财务报表。

4 到 6 个

7 到 9 个

12 到 14 个

1,000

100

中等,例如商业通信或财务报表。

7 到 9 个

10 到 12 个

16 到 18 个

1,000

1,000

中等,例如商业通信或财务报表。

10 到 12 个

12 到 14 个

15 到 17 个

1,000

10

高,例如研究论文或法律文件。

5 到 7 个

9 到 11 个

16 到 18 个

1,000

100

高,例如研究论文或法律文件。

8 到 10 个

12 到 14 个

21 到 23 个

1,000

1,000

高,例如研究论文或法律文件。

11 到 13 个

13 到 15 个

17 到 19 个

Document AI 的监控成本

Document AI 的使用情况会显示在 Snowflake Organization Usage 的 METERING_DAILY_HISTORY 视图 中,其中包含服务类型的 AI_SERVICES。

要查看组织中所有账户的 AI 服务的 Credit 消耗,请使用以下查询:

SELECT * FROM SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY
  WHERE service_type ILIKE '%ai_services%';
Copy

备注

SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY 视图可能需要最多四个小时才能更新。

确定 Document AI 的最佳仓库规模

Snowflake 建议使用 X 小、小或中等仓库大小。扩展仓库不会提高查询处理的速度,但可能会导致产生不必要的成本。

如果您要执行其他需要仓库资源的操作,请考虑扩大仓库。

语言: 中文