2019 廖雪峰 数据分析全栈工程师 课程

廖雪峰 数据分析全栈工程师 百度云 百度网盘下载

1快速入门:认知数据分析

数据分析概念

·数据分析是什么:数据分析概念及应用场景
·数据分析分析什么:分析方法、应用领域

数据分析价值

·通过数据分析发现商机:发现数据之间的关联,预测趋势
·通过数据分析做精准营销:精准营销方案设计
·通过数据分析做用户画像:用户画像、用户行为分析
·通过数据分析生成数据分析报告、提供决策和业务优化支持:决策支持和业务优化

.数据分析前景

·数据分析的成功案例:数据加载、数据清洗、数据展示、数据分析师必备技能
·数据分析的行业发展:数据分析行业人才需求、专门数据分析岗位需求、专门的数据分析机构
·数据分析师的职业发展:传统行业和互联网行业业务流程、专业技能
2材料准备:数据采集与处理
廖雪峰 数据分析全栈工程师 百度云

认识数据

·认识数据表的字段和记录:字段、记录、表
·使用Excel制作数据表、指定常用数据类型:数值型、字符型、一维表、二维表

获取数据

·使用Excel导入网站数据及文本数据:网站数据、定时刷新、自动刷新、文本导入

处理数据

廖雪峰 数据分析全栈工程师

·使用Excel进行数据清洗和筛选:数据导入、数据清理、数据筛选、条件格式、数据透视法
·使用Excel进行数据抽样和计算:数据抽样、AVERAGE函数、SUM函数、MAX函数、MIN函数、IF函数
·使用SQL实现数据操作:基础语法、表连接、普通函数、窗口函数、SQL优化
3工具准备:数据可视化工具

Tableau概述及常用操作

·使用Tableau进行数据加载及操作:Tableau导航、Tableau设计流程、Tableau文件类型、Tableau数据源、Tableau计算、Tableau工作表、Tableau图表

Power BI概述及常用操作

·使用Power BI加载数据源及塑造数据:数据加载、塑造数据
·使用Power BI建模数据及可视化:建模数据、可视化、图标
4案例分析:电子商务数据分析

选择数据分析核心数据

·如何选择核心数据:会员数据、营销数据、行业数据、交易与服务数据

掌握核心指标

·如何掌握核心指标:转化指标、会员指标、流量指标、运营指标、成交转化率指标

掌握核心方法

·常用核心方法:二八法则、排行榜分析方法
全栈数据分析师养成记
1基于python实现自动化数据分析基础

Python语法入门

·使用anaconda搭建Python开发环境:python、anaconda、mac、windows
·使用jupyter notebook 编写Python程序:变量、数据类型、运算符、数据处理和输入、分支和循环、函数

Python数据结构

·使用列表、字典和集合操作数据:列表、字典、集合

Python文件操作

·使用open、write实现文件操作:文件、open 、close、write

Python面向对象

·用Python实现面向对象编程:类、对象、方法、封装、继承、多态
2基于python爬虫实现数据获取和加载

网络爬虫简介

·爬虫原理及基本使用:爬虫协议、HTTP、HTTPS、Requests、Session、Cookie

网页基本组成与结构

·HTML页面组成及结构:HTML、HTML5、CSS、CSS3、JavaScript

常用爬虫库的使用

·使用Requests爬取数据:get、post、响应内容、请求头、响应状态码、重定向与请求历史、Cookie
·使用urllib爬取数据:urlopen、urlretrieve、urlcleanup、quote、urlencode
·使用正则表达式爬取数据:正则表达式

常用解析库的使用及数据存储

·使用XPath解析数据:元素和属性、XML、/、//
·使用BeautifulSoup解析数据:BeautifulSoup的安装、解析库的设置、BS的基本用法、对象的种类、遍历文档树和节点、各种选择器的使用
·使用pyquery解析数据:DOM、attrs、css
·实现txt、JSON、CSV等格式文件存储:json格式、数据类型、json解析、CSV文件

Ajax数据爬取及API解析

·AJax解析数据方法及结果提取:Ajax、Ajax解析方法、API

Scrapy框架的使用

·使用Scrapy爬取数据:Selector、Spider、Downloader Middleware、Item Pipeline用法、Scrapy对接Selenium、Scrapy对接Splash
3基于Python科学计算包实现数据预处理和分析

NumPy创建多维数组对象

·使用NumPy生成ndarray:创建ndarray、ndarray的数据类型、数据结构多维数组对象ndarray

数组的算术运算

·使用NumPy实现数组算术运算:NumPy数组的运算

数组的索引与切片

·使用NumPy对数组进行索引与切片:索引和切片、布尔索引、神奇索引

数组转置和换轴

·使用NumPy对数组进行转置和换轴:T、swapaxes、ufunc通用函数、利用数组进行数据处理、数学和统计方法概览、数组排序、唯一化

数组的文件输入和输出

·使用数组进行面向数组编程:文件的保存与读取、线性代数知识回顾、多维数组对象的内部机理、数组重塑、 数组的合并和拆分、元素的重复操作、花式索引等价函数、广播机制、ufunc高级方法、数组高级排序方法

Pandas数据结构介绍

·使用Pandas创建Series对象:创建Series




·使用Pandas创建DataFrame对象:创建DataFrame

Pandas索引对象

·使用Pandas创建索引对象:行索引和列索引、重建索引

Pandas基本操作

·使用Pandas对数据进行索引、选择和过滤:删除数据项、索引选取过滤、Ioc和iloc进行选取、整数索引

算术和数据对齐

·使用Pandas对数据进行算术和数据对齐:算术运算和数据对齐、DataFrame和Series的运算、函数应用和映射

排序和排名

·使用Pandas对数据进行排序和排: 排序和排名、汇总和描述性统计、相关系数和协方差、分类数据、用分类进行数据、分类方法、创建虚拟变量、 GroupBy高级应用、分组的时间重采样、链式编程、管道方法

数据加载及存储

·使用Pandas进行多种格式数据的读写: 用Pandas读取文本格式的数据。read_rsv、read_table、read_excel、read_json、read_pickle、to_pickle、 逐块读取文本数据、将数据输出到文本数据、处理分隔符

与数据库进行数据加载

·使用Pandas与数据库交互:数据库交互(MySQL、NoSQL)、数据库、数据表

处理缺失值及数据转换

·使用Pandas过滤缺失值




:处理缺失数据、过滤缺失数据
·使用Pandas补全缺失值:填充缺失数据
·使用Pandas删除重复值:去除重复数据
·使用函数或映射进行数据转换:函数转换数据、重命名索引、排列和随机采样
·使用正则表达式对数据进行操作:字符串操作、矢量化字符串函数

分层索引

·使用Pandas进行分层索引的实现

:层次化索引
·使用Pandas进行重排序和层级排序:重排与分级排序、根据级别汇总统计
·使用DataFrame的列进行索引:使用列作为索引

联合和合并数据集

·使用Pandas进行联合和合并数据集:合并数据集。索引合并、轴向连接、合并重叠数据

数据重塑与透视

·使用多层索引进行重塑:重塑和轴向旋转、长格式宽格式转换
4基于绘图库(Matplotlib)实现数据可视化

matplotlib API使用入门

·使用matplotlib绘图、设置颜色、标记和线类型

:Matplotlib API、Figure、Subplot、nrows、ncols、sharex、sharey

常用绘图展示

·使用matplotlib对图标进行刻度、标签、图例设置:注释、子图、图例

常用可视化工具介绍

·使用Pandas和seaborn绘图:折线图、柱状图、直方图、密度图、散点图
5基于聚合分组技术发现数据间的关系及价值

GroupBy机制

·使用字典和Series分组



:GroupBy机制、遍历各分组、函数分组
·使用函数分组:len、sum、min、max
·根据索引层级分组:asix、multiIndex

数据聚合

·使用Pandas实现数据透视表与交叉表:数据聚合、透视表、交叉表
6基于时间序列操作细化数据的时间展示

日期和时间数据类型及工具

·使用datetime实现字符串与时间类型的转换


:时间戳、时间间隔、时区、字符串与datetime互相转换
·时间序列基础

时间序列运算

·时间序列:索引、选择、子集

时区处理

·使用Pandas生成日期范围、频率和移位:频率和日期偏置、时区本地化和转换

时间区间和区间算术

·使用Pandas进行时区处理:时区区间和区间算术、区间频率转换、季度区间频率
7案例分析

电影评分数据分析

·涉及娱乐、金融、农业、互联网等行业真实数据,从业务流程角度进行数据分析,增强业务与技术实战能力: 数据清洗、时间序列、聚合与分组、柱状图、折线图、热力图

美国农业部食品数据分析

金融数据分析

招聘网站岗位及薪资趋势分析报告

大数据分析师晋升记
1数据仓库

HiveQL操作数据

·基础语法、表连接、普通函数: TINYINT 、SMALLINT、 INT 、BIGINT、 FLOAT、 DOUBLE、 BOOLEAN 、STRING、STRUCT、 MAP、 ARRAY、数据表、排序和聚集
·窗口函数、SQL优化: 创建表、创建分区、重命名、增加列、删除列、导入导出数据、数据查询、内连接、左外连接、右外连接、全连接、子查询、视图、内置函数、自定义函数、窗口函数、SQL优化
2数据分析方法

描述统计分析方法

·频数分析、集中趋势、离散程度、数据分布:频数、平均数、中位数、众数、极差、方差、标准差、变异系数、峰值、偏度

回归分析方法

·线性回归、逻辑回归、多项式回归、多元回归:因变量、自变量、回归线、回归系数

多元统计分析方法

·聚类分析、判别分析、主成分分析、因子分析: 聚类分析的思想、相似性度量、类和类的特征、距离判别、贝叶斯判别、逐步判别、主成分、总体成分、因子载荷

时间序列分析方法

·自回归模型、季节模型: 时间序列、时间序列分析、GNAR模型
3数据可视化

可视化工具使用(Excel)

·使用Excel实现数据可视化: 条形图&柱状图、饼图&环形图、单折线&双折线图、散点图&气泡图、箱线图、雷达图、组合图

可视化工具使用(Tableau)

·使用Tableau实现可视化
4高级数据可视化

瀑布图、桑基图、漏斗图、矩形树图、旭日图

·使用Excel、Tableau实现:绘制图表

Excel动态图表

·使用Excel实现:组合框控件、数据源

地图可视化

·使用Tableau实现:地图绘制、地图配色

echarts实现

·使用echarts实现常用图表:构建echarts、数据加载
5高级数据分析师实战

经营分析方法论

·交易分析:如何做好交易日报分析
·流量分析:渠道分析、流量漏斗分析
·用户分析:用户画像、行为分析、留存分析

行业分析方法论

·竞对分析:分析方法、分析内容
·行业动态:行业分布、行业趋势

业务分析方法论

·产品分析:功能迭代分析、转化率分析
·运营分析:活动运营分析、用户运营分析
·销售分析:业绩达成分析、人效分析
原文地址:https://www.cnblogs.com/suibian1/p/10958191.html