0%

使用正则表达式发现中文数据当中的可疑字符

通过OCR得到的文本,有时候会存在一些错误字符,通过正则表达式可以进行快速定位。

思路:采用白名单的方式,排除已知的正常字符,剩余的就是疑似错误的内容,可以在编辑器当中进行查找和高亮。

具体正则方法:

1
[^\u4e00-\u9fa5,、:。\d《》():;;“”【】\s\.•①②③④⑤⑥()%/""—]