Preppin' Data 一个prep提高数据整理能力的网站(每周一挑战)

最近几天,一直练习prep数据整理清洗,越来越感到tableau prep builder的方便,快捷。

今天练习从https://preppindata.blogspot.com/2019/03/2019-week-4.html的案例,也是tableau public上推荐的类似MakeoverMonday的每周一练。 

讲解 的非常详细,适合初中级别的我。

使用正则表达式

prep封装了几个正则表达式函数 , 例如:

 

对提取字段非常方便。

挑战记录 2019-9

https://preppindata.blogspot.com/2019/04/2019-week-9.html

解答:https://preppindata.blogspot.com/2019/04/2019-week-9-solution.html

简介:tweet上针对商家的一款产品的各种评论。老板希望能够收集评论中有价值的词语。于是进行筛选。

⚠️这是英文评论的数据清洗,中文则有中文的特点。

1拆分,原始数据只有1列,因此按照" "拆分成多列。

2转置,把多列,转为1列。以便进行后面的清洗。

3清洗,

  • 去掉无价值的商标词语,
  • 使用REGEXP_REPLACE( [words raw], "[^ws'’-]", " "),把非字母/数字/下划线/空格/-的其他字符转化为空格“ ”。 ⚠️s代表空格,^代表取反,w代表字母/数字/下划。
  • 过滤掉空值。
  • 清洗多余空格。

4拆分,因为上一步使用正则表达式,比如"I'm"会->“I m”,所以要再次使用空格作为分隔符拆分。

  • 滤掉空值

5转置,列转行。

6left-outer join,  把另一个表"常用的250个英文单词"和这个清洗过的表关联。即通过left-outer join, 过滤掉常用词。

挑战记录2019-10

解答:https://preppindata.blogspot.com/2019/04/2019-week-11-solution.html

简介:客户通过订阅/关注某公司发送个给他的邮件来购买其公司的产品。公司记录了客户订阅信息,和客献购买的价值,并分别存放到数据表中。

要求:分析流失客户的购买价值,和订阅/再订阅客户的购买价值。

  • 数据清洗
  • 表连接
  • 聚合分析

原文地址:https://www.cnblogs.com/chentianwei/p/12761730.html