0%

使用正则表达式发现中文数据当中的可疑字符

发表于 2022-08-23

通过OCR得到的文本，有时候会存在一些错误字符，通过正则表达式可以进行快速定位。

思路：采用白名单的方式，排除已知的正常字符，剩余的就是疑似错误的内容，可以在编辑器当中进行查找和高亮。

具体正则方法：

1	[^\u4e00-\u9fa5，、：。\d《》（）:;；“”【】\s\.•①②③④⑤⑥()%/""—]

本文作者： zhangminglei
本文链接： https://blog.legalhub.cn/2022/08/23/use-re-find-chinese-error/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！