python的pandas处理txt文件

一、

1.pandas读取txt数据

import pandas as pd
data = pd.read_csv('F:\python_env\music_rec\taste_profile_subset\mini_triplets.txt', sep=' ', names=['userID', 'musicID', 'Views'])

# data.to_excel('240.xlsx') 将数据保存为excle格式

sep=" "是原始文档间的空格每一个文档可能都不一样，可能有空格，逗号或者是，根据情况选择names用来设置列名，如果不设置的话，则默认使用第一列作为列名。

2　　isin() 筛选：

data[data['views'].isin([1])]

3　　分组（统计汇总）

“group by” 指的是涵盖下列一项或多项步骤的处理流程：

分割：按条件把数据分割成多组；
应用：为每组单独应用函数；
组合：将处理结果组合成一个数据结构

data.groupby('musicID').sum()#按照音乐分组，统计每首歌的总播放量