Pandas处理txt文件（去重复行，过滤行）

待处理的数据是图片的多属性标注，用Pandas库可以非常方便进行各种形式的处理。

1. txt的读取

使用pandas.read_csv函数

'sep' 是分隔符；
'header' 是否第一行作为DataFrame的column
'index_col' 是否把某一列作为DataFrame的Index

2. 去重

pandas.drop_duplicates函数

3. 保存txt

pandas.to_csv函数

整体代码

import  pandas as pd

# 读取txt
train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup', 
                        sep=' ',
                        encoding='utf-8',
                        # index_col=0, 
                        header=None)

# 删除特定行（包含‘打伞’的行）
train_data[train_data[0].apply(lambda x: '打伞' not in x)]

# 去重
train_data.drop_duplicates(inplace=True)

train_data.set_index(0, inplace=True)
# 写入txt
train_data.to_csv('/home/geoffrey/桌面/test1.txt', 
                  sep=' ',
                  encoding='utf-8', 
                  header=None)

Pandas处理txt文件（去重复行， 过滤行）

1. txt的读取

2. 去重

3. 保存txt

整体代码

Pandas处理txt文件（去重复行，过滤行）