电商 Python 生意参谋 市场排行 高流量商品 分词处理

原文:
https://www.jianshu.com/p/7ad0cd33005e

前言

数据太多了,懒得一个一个看,想先大致了解这个类目下哪个产品卖的多,哪类产品卖得好些
只是一个简单的分析

环境

在生意参谋的市场行业中,下载类目前300的商品

然后保存商品的表到excel中,然后导出csv文件,把列名改为title,在文本编辑器中,把编码改为utf-8

在cmd控制台安装结巴分词
pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

所用的和生成的文件



python代码

# 导入相关库
import pandas as pd
import jieba

# 读取数据
data = pd.read_csv('meidi_jd.csv', encoding='utf-8')

data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x)))


# 将所有的分词合并
words = []

for content in data['cut']:
    words.extend(content)

# 创建分词数据框
corpus = pd.DataFrame(words, columns=['word'])
corpus['cnt'] = 1

# 分组统计
g = corpus.groupby(['word']).agg({'cnt': 'count'}).sort_values('cnt', ascending=False)

g.to_excel('data1.xls')

原文地址:https://www.cnblogs.com/guxingy/p/14667047.html