纯新手
详细项目需求:我现在利用影刀RPA实现智慧物流货运平台的订单数据录入。在订单里提取合计这一行最后一位数字,或者净重这一列和合计这一行的交集出的数据复制到剪切板里,然后录入到系统中。就是如何在订单图片中提取我需要的那个数据遇了困难。
我利用云服务平台的OCR提取表单文字信息,再用正则匹配提取出我需要的那个数据,复制到剪切板,影刀RPA填入。全程只有图片识别和提取数据是python代码和调用API实现,其余的点击操作是影刀完成。
目前我难以找到一个免费稳定且识别精度好的OCR,并且很多OCR是通用的,不具备识别那些情况各异的订单图片。订单常常出现像素不清晰、图片翻转不是正的需要手动翻转再识别、表格间距不同导致识别出的结构文本信息导致识别不精确、表单格式样式多样等情况,我已经把多行表格和需要多行填写的情况留给人工做了,但剩下的简单单行或者多行单个数据提取的任务仍然没法用RPA完成。单纯靠位置法感觉匹配代码老是会出错,我也不知道为什么。之前用豆包写过一段调用百度智能云的代码,但是提取成功的准确率只有85%左右,剩下的都
是些不明不白地错误,哪怕表单看着很简单但就是出错,还有一些表单之间很相似,但是机器提取数据时有些正确有些不对,很奇怪。订单不像excel那么标准经常变过去变过来形状不规整是识别精度不足的主要原因。
已经做了好几天,没招了,求求想个办法,怎么高精度提取指定的订单数据?只能自己训练一个分类-目标检测模型专门做这个事情吗?





(数据已做脱敏处理)