python 清理数据,仅保留字母、数字、中文 - Shuang0420/Shuang0420.github.io GitHub Wiki

去除所有半角全角符号,只留字母、数字、中文。

# 去除所有半角全角符号,只留字母、数字、中文。
def remove_punctuation(line):
    rule = re.compile(ur"[^a-zA-Z0-9\u4e00-\u9fa5]")
    line = rule.sub('',line)
    return line

在前面加”ur“,u的意思是表明后面有Unicode字符,汉字的范围为”\u4e00-\u9fa5“,这个是用Unicode表示的,所以前面必须要加”u“;字符”r“的意思是表示忽略后面的转义字符,这样简化了后面正则表达式里每遇到一个转义字符还得挨个转义的麻烦

中文编码表下载

中文编码的知识参考

⚠️ **GitHub.com Fallback** ⚠️