01

Book

数据挖掘概念与技术

模式分析

beautiful data

 

WEKA 有很多挖掘的工具(算法j集成)

KDnuggets 是网站,有很多论文,数据

Big data 大数据的定义: high-volume, high-veiocity and high-variety

应用领域

公共安全领域:挖掘数据, 识别犯罪模式, 在犯罪发生之前, 提前组织. (预测)

医疗保健领域:识别不同客户(病人),采取不同的治疗措施, 而不是照本宣科给同样的药。

城市规划:比较交通数据信息,等然后来规划道路。

Location data:比如走到某个地方,肚子饿了,自动提示附近饭店,或者购物,你去了超市的哪个区域等,知道顾客的轨迹,在货架停留时间等。

零售业:精准销售,比如有100个人是你的潜在客户,但是只有8%左右是真正的客户,传统的方式是每个客户打电话咨询,现在可以先期通过大数据识别潜在客户(Target customer),比如40人,然后在找这40人推销,效率更高。

社交网络:比如商家,我想打广告,那么我可能需要找到有影响力的人,比如有100W粉丝的人,他穿什么鞋子,那可能他的粉丝也会模仿他。

Business Intelligence: 潜在客户识别,公司的发展.

挖掘出的东西: interesting, useful hidden, massive.  不是全自动的过程, 需要人为参与,比如人挑选一些属性,或抛出一个topic.

数据分析流程

ETL 将数据拿到后, 清洗, 然后放到数据仓库.

在数据仓库进行分析,挖掘,展示

 可以看到数据挖掘的过程,还是要先 define problem. 这是要熟悉业务场景的.

越来越多的企业提供了数据挖掘的操作软件,方便企业去做数据挖掘. (其实对我们来说,更重要的是如何用这个软件,而不是研究算法)

分类问题,分切面

 黑颜色的平滑的比较好. 绿颜色的太严格了. 是 Overfitting 的.

聚类

聚类是分成一组一组的。同一个group的数据比较相近.

聚类应该: 比如 market 分割, 图像分割等.

关联规则

比如 {牛奶,面包} -> 黄油, 买了牛奶面包的人可能会买黄油.

线性回归

线性回归指的是 "贝塔" 和 x 之间是线性的. 而不是画出来是直线,回归有可能是曲线的.

回归模型,中间的好,即使有一些误差.

原文地址:https://www.cnblogs.com/moveofgod/p/12326012.html