python re操作

如有一文件,需要提取出每行内的汉字,剔除每行的制表符( )、换行符( )及数字后存到一个列表内。

import re
data = []
#打开文件
with open('data_vocab.json','r',encoding='utf-8') as f:

    #for 遍历文件,每行读取出为一个字符串i,如:0   啊哈哈 12345
    for i in f.readlines():

        #方法一:使用正则方法,取消掉0-9数字,取消掉制表符(	),取消掉换行符(
),生成新的字符串new_str
        new_str = re.sub("[0-9	
]", "", i)

        #方法二:属于笨办法,在不使用正则的情况下,把不需要的字符全部替换为"",生成新的字符串new_str
        # new_str =  i.replace('
','').replace('	','').replace('1','').replace('2','').replace('3','').replace('4','')
        #     .replace('5','').replace('6','').replace('7','').replace('8','').replace('9','').replace('0','')

        data.append(new_str)
print(data)

  

原文地址:https://www.cnblogs.com/wuhl-89/p/10137201.html