使用正则表达式发现中文数据当中的可疑字符 发表于 2022-08-23 通过OCR得到的文本,有时候会存在一些错误字符,通过正则表达式可以进行快速定位。 思路:采用白名单的方式,排除已知的正常字符,剩余的就是疑似错误的内容,可以在编辑器当中进行查找和高亮。 具体正则方法: 1[^\u4e00-\u9fa5,、:。\d《》():;;“”【】\s\.•①②③④⑤⑥()%/""—] 本文作者: zhangminglei 本文链接: https://blog.legalhub.cn/2022/08/23/use-re-find-chinese-error/ 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!