Pandas练习(一)

Pandas练习(一)

题目要求:文档链接

# 导入模块
import numpy as np
import pandas as pd
from pandas import DataFrame,Series
# 导入数据
df_tb1=pd.read_csv("data/baby_trade.csv")
df_tb2=pd.read_csv("data/baby_info.csv")
date=df_tb2['birthday'].astype('str')#转换类型
year=df_tb2['birthday'].astype('str').apply(lambda x:x[0:4])#截取前4列
year.astype('int')#转换成int类型
age=year.astype('int').apply(lambda x: 2020-x)#现在时间减去出生日期
df_tb2['age']=age#添加新的一列
df_tb2

image-20201013201851030

# 合并数据  左连接
df_tb2=pd.merge(df_tb2,df_tb1,how='left')
df_tb2

image-20201013201919279

day=df_tb2['day'].astype('str')#转换类型
type(day)#查看类型
day=df_tb2['day'].astype('str').apply(lambda x:x[0:4])
day
day.astype('int')
df_tb2['2013~2015年销售量']=day
df_tb2

image-20201013201945352

df_tb2.groupby('2013~2015年销售量').sum().sort_values(by='2013~2015年销售量', ascending=False).head(3)['buy_mount']#分组求和排序

image-20201013202010862

num=df_tb2['gender'].value_counts().values#对gender分组求和
num=np.unique(num)#删除重复
num=np.append(num,955)#新增一列为总数量
num=DataFrame(num,index=['未知','男','女','总数量'])
num.T#横向输出

image-20201013202029651

ages=df_tb2['age'].value_counts().sort_index().values
ages=np.append(ages,955)
ages=DataFrame(ages,index=['五岁','六岁','七岁','八岁','九岁','十岁','十一岁','十二岁','十三岁','十四岁','十五岁','十六岁','十七岁','十八岁','三十六岁','总数量'])
ages.T

image-20201013202055799

原文地址:https://www.cnblogs.com/James-221/p/13810925.html