方案介绍
Program introduction
- 在一些大的金融、银行、企事业单位中,OCR识别可以减少人工录入成本,提高输入效率,但是不能对OCR识别能力进行二次开发,面对企业多样化、定制化的识别需求,OCR智能训练平台应运而生,并已从研发端落地实际生产应用,用户可以基于自己的样本文件去训练模型文件,并进行迭代投产使用,仅一个平台就可满足复杂的OCR全识别工作。
功能特点
Features
-
1.功能全面
- 可视化定制:支持可视化定制OCR识别需求,可快速、灵活的满足OCR需求的迭代、更新和扩展。
- 私有化部署:支持私有化部署,可避免数据外泄,保障用户数据的安全性。
- 内置高精度模型:预置成熟的商用高精度基础模型,可满足绝大部分OCR识别场景需求。
-
2.性能优越
- 0门槛低成本:为0基础的开发人员提供开发平台与技术支持,训练流程可视化,过程页面化,低门槛操作,无需关注算法细节,极大降低了AI落地的人力成本。
- 可迭代更新:在客户企业内部可实现数据->模型->应用的可控迭代更新流程,不断提升模型准确度。
- 数据成本低:模型训练中内置数据增强算法,可批量生产虚拟数据,大幅扩充数据集,可对图片做光照,对比度,模糊,旋转,畸变,水印,底纹,噪声等处理,降低样本构建成本。
-
3.场景丰富
- 场景1:通用版式识别服务
- 系统预置成熟的商用高精度基础模型,可构建大部分OCR识别服务,比如通用识别、一般卡证、票据的识别,可直接基于内置模型完成识别任务。
- 场景2:固定卡证类结构化识别
- 对于版面规范的情况(比如户口本、结婚证等),只需标注少量数据即可获得高准确率模型。训练平台“智能标注”支持数据多人同时标注、快速标注关键字段、对数据标注结果查验审核。
- 场景3:非固定多版式结构化识别
- 针对版面复杂、类别繁多的情况(比如营业执照,全国房产证,全国社保卡,财务票据等),可以通过不断标注样本训练,提升模板结构化提取的准确度。
- 场景4:图像文本分类
- 系统内置图像分类器,通过将大量图像类别标注,可将杂乱的证件信息自动OCR识别分类,省去人工分类时间,让工作视图化界面更清晰。
相关技术
Related technology
- 通用文字识别
- NLP文本抽取
- 复杂表格识别
- 图像文本分类