为 Document AI 准备文档¶
本主题介绍如何准备文档以供 Document AI 使用。
使用 Document AI 处理的文档必须符合以下要求:
文档的长度不得超过 125 页。
文档必须采用以下格式之一:
JPEG
JPG
PDF
PNG
TIF
TIFF
DOCX
EML
HTM
HTML
TEXT
TXT
文件的大小必须小于或等于 50 MB。
文档页的尺寸不得超过 1200x1200 毫米。
图像大小必须介于 50x50 和 10000x10000 像素之间。
要改进模型训练流程,请确保您上传到 Document AI 的文档代表真实的用例或场景,且数据集包含在布局和数据两方面都多样化的文档。
确保数据集中的信息是不同的。如果所有文件都包含相同的数据(例如,相同的性别或族裔),或者信息总是以相同的形式呈现(例如,特定的日期格式),则模型可能会提供不正确的结果。
重要
在预览期间,必须对在处理文档中找到的任何个人数据进行混淆或合成。