为 Document AI 准备文档¶
本主题介绍如何准备文档以供 Document AI 使用。
使用 Document AI 处理的文档必须符合以下要求:
文档的长度不得超过 125 页。
文档必须采用以下格式之一:
PDF
PNG
DOCX
EML
JPEG、JPG
HTM、HTML
TEXT、TXT
TIF、TIFF
文件的大小必须小于或等于 50 MB。
文档页的尺寸不得超过 1200 x 1200 毫米。
图像必须在 50 x 50 到 10,000 x 10,000 像素之间。
要改进模型训练流程,请确保您上传到 Document AI 的文档代表真实的用例或场景,且数据集包含在布局和数据两方面都多样化的文档。
确保数据集中的信息是不同的。如果所有文档都包含相同的数据(例如,相同的性别或族裔),或者信息总是以相同的形式呈现(例如,特定的日期格式),则模型可能会提供不正确的结果。