Document AI 的成本治理¶
本主题提供 Document AI 成本治理的最佳实践。
衡量 Document AI 的成本¶
Document AI 产生成本的方式如下:
- AI 服务计算:
Document AI 可以使用 <model_build_name>!PREDICT 方法从文档中提取信息,这会产生计算成本。
- 虚拟仓库计算:
要在工作表中运行查询(包括使用 <model_build_name>!PREDICT 方法),请选择仓库。此外,Document AI 还会产生与检索工作表中数据有关的其他操作的成本。有关为 Document AI 选择仓库大小的信息,请参阅 确定 Document AI 的最佳仓库规模。
- 存储:
要测试 Document AI 模型,您需要在 Snowsight 的 Document AI 用户界面中上传文档,在其中查看结果,并可以选择通过训练对模型进行微调。这些操作可能会产生存储成本,因为结果存储在您账户内的 Snowflake 类对象中。要使用 SQL 提取信息,您需要将文档上传到内部或外部暂存区,这也可能会产生存储成本。有关查看已产生的存储成本的信息,请参阅 探索存储成本。
有关 Snowflake 总体成本的更多信息,请参阅 了解总体费用。
AI 服务计算成本¶
Document AI 运用受 Snowflake 管理的计算资源,Snowflake 会根据每个 Document AI 工作负载的需要自动扩缩这些计算资源。Snowflake 管理的计算结构允许根据实际使用这些资源的时间计算消耗。相比之下,用户管理的虚拟仓库在运行时会消耗 Credit,无论它们是否正在执行任何工作,这可能会导致它们被闲置或过度利用。
Document AI 的 Credit 消耗根据完成作业所使用的计算资源总量计算。使用的计算资源量通过计算类型和花费的时间来衡量,并且以每秒为单位计算工作负载使用的所有资源,四舍五入到最接近的整数秒。
有关 Snowflake 计算成本的详细信息,请参阅 了解计算成本。
有关 Credit 消耗的详细信息,请参阅 Snowflake 服务消耗表。
估计 Credit 消耗¶
Document AI 的 Credit 消耗取决于以下方面:
页数(用于由页面组成的文档格式)。
文档数量。
页面密度。
处理几乎空白的文档(例如发票)所需的时间比处理文本密集型文档(例如研究论文)所需的时间更少,消耗的 Credit 也因此较少。
要提取的数据值的数量。
提取更多的数据值需要更多时间,从而导致更高的 Credit 消耗。
有关 Document AI 支持的文档格式的信息,请参阅 为 Document AI 准备文档。
下表描述了基于不同类型工作负载的 估计 Credit 消耗。
页数 |
文档数量 |
页面密度 |
10 个值的估计 Credit 范围 |
20 个值的估计 Credit 范围 |
40 个值的估计 Credit 范围 |
---|---|---|---|---|---|
1,000 |
10 |
低,例如发票或幻灯片。 |
3 到 5 个 |
4 到 6 个 |
6 到 8 个 |
1,000 |
100 |
低,例如发票或幻灯片。 |
5 到 7 个 |
7 到 10 个 |
10 到 12 个 |
1,000 |
1,000 |
低,例如发票或幻灯片。 |
10 到 12 个 |
11 到 13 个 |
12 到 14 个 |
1,000 |
10 |
中等,例如商业通信或财务报表。 |
4 到 6 个 |
7 到 9 个 |
12 到 14 个 |
1,000 |
100 |
中等,例如商业通信或财务报表。 |
7 到 9 个 |
10 到 12 个 |
16 到 18 个 |
1,000 |
1,000 |
中等,例如商业通信或财务报表。 |
10 到 12 个 |
12 到 14 个 |
15 到 17 个 |
1,000 |
10 |
高,例如研究论文或法律文件。 |
5 到 7 个 |
9 到 11 个 |
16 到 18 个 |
1,000 |
100 |
高,例如研究论文或法律文件。 |
8 到 10 个 |
12 到 14 个 |
21 到 23 个 |
1,000 |
1,000 |
高,例如研究论文或法律文件。 |
11 到 13 个 |
13 到 15 个 |
17 到 19 个 |
Document AI 的监控成本¶
Document AI 的使用情况会显示在 Snowflake Organization Usage 的 METERING_DAILY_HISTORY 视图 中,其中包含服务类型的 AI_SERVICES。
要查看组织中所有账户的 AI 服务的 Credit 消耗,请使用以下查询:
SELECT * FROM SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY
WHERE service_type ILIKE '%ai_services%';
备注
SNOWFLAKE.ORGANIZATION_USAGE.METERING_DAILY_HISTORY 视图可能需要最多四个小时才能更新。
确定 Document AI 的最佳仓库规模¶
Snowflake 建议使用 X 小、小或中等仓库大小。扩展仓库不会提高查询处理的速度,但可能会导致产生不必要的成本。
如果您要执行其他需要仓库资源的操作,请考虑扩大仓库。