Atitit 数据挖掘之道 attilax总结艾龙著 1. 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。 1 2. 数据（Data）信息（information）知识（K

为什么所以什么？现在我们不强调这个问题，我们只知道这是相关的，发生A事件之后就发生B事件，但是这两者是什么关系，我们不清楚。把相关事件打在一起，发生A事件之后，B事件点击率会高，但是因果关系不怎么追求了，但是肯定是有关系的。我个人感受非常深的，在今天开放的数据，隐私问题，很多情况是能避免的，越来越多开放的社区出现了。你使用一个产品，你使用微博

第一个就是推荐系统。一个人上来以后，你给他推荐感兴趣的人，他的朋友。一种是基于兴趣，一种是基于关系的。你只有让他形成更强的关系链，就是他的好朋友，形成更好的兴趣，感情，交集圈。推荐系统和广告推荐是很相似的，算法做法是一样的。

第三个叫微热点，真正实现信息关联。微博里面每时每刻都有热点事情发生，用机器发现哪些热点事件能读出来。它要做的事很多，第一发现热点事情，第二把热点事情聚在一起形成热点事件的脉络，第三把热点事件投放到用户面前，是纯自动的形式。每天数亿的数据怎么把它挑选出来。

第五个是微博管家。怎么样把好的东西挑出来，垃圾自动过滤。我们邮箱就有垃圾箱，微博也有人做吗？不这么做有很多原因，一是技术是不是准确，二是商业化的问题。我相信不愿意做的原因就是商业化的问题。商业化的价值怎么做，这是需要我们做的，把垃圾信息过滤掉。

根据前后关系--文本分类

微频道刚才提到了，对优势内容的挑选。单纯从技术角度来考虑这个问题，文本分类是很难的事，因为文本很短，还要分类，不像一些文章，几百个字进行分类，你有充足的理由做这个事，这里面需要很多办法，你不能把精力都放在文本本身，还有用户呢。这个用户老发财经类的内容，他发文章的时候，财经概率很多。利用这种思维，用更多的特征来学习，不要局限在内容本身里面准确会大幅提升。分完类之后还要把差的质量去掉，把好的质量选出来。比如说展示量，各种各样的东西，都是帮助你学习的

对内容质量的判断

包括用户和用户之间的关系，内容和内容之间的关系，用户和内容之间的关系。

paip.论数据挖掘.txt

数据挖掘_百度百科.html

C:\Users\Administrator\Desktop\数据挖掘资料包>dir /b

Atitit 数据挖掘数据提取工具 html版nodejs版.docx

Atitit 数据挖掘之道 attilax总结艾龙著.docx

Atitit 手机图片文档数据挖掘提取策略方法.docx

Atitit 手机图片文档数据挖掘提取策略方法.docx.274779CF1B6139849

Atitit 数据挖掘 nodejs上HTML分析利器.docx

Atitit 数据挖掘与统计热衷于爆炸的地点.docx

atitit 数据挖掘的attilax总结.docx

atitit.数据挖掘回收站文件列表 (2).doc

atitit.数据挖掘回收站文件列表.doc

atitit.数据挖掘的attilax总结好像跟个机器学习差不多啊.docx

Atitit.数据挖掘的原理与理论架构attilax总结 v2 r818.docx

Atitit.数据挖掘的原理与理论架构attilax总结.docx

paip.论数据挖掘.txt

上海城市轨道交通信息中心数据挖掘实施指导建议.doc

数据挖掘资料包.rar

申通地铁数据挖掘需求分析.doc

Atitit 数据挖掘之道 attilax总结 艾龙著 1. 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。 1 2. 数据（Data）信息（information）知识（K

1. 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

2. 数据（Data）-信息（information）-知识（Knowledge）是一个递进的关系。

3. 数据挖掘的步骤一般可以分为：数据提取（ETL）－数据仓库－数据挖掘工具－知识发现。

4. 包含的技术点 与挖掘方法详细 分析方法：

4.1. ETL 相似度分析 模式识别

4.2. 分类、聚类

4.3. 垂直领域分析 比如 图片挖掘 yifu pose等

4.4. 数据转换 方便体积缩小 方便存储

4.5. 结构化 复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

4.6. 、推荐、关联规则

4.7. Tag join groupby分组聚合 统计聚合

4.8. 可视化

4.9. HTML分析

4.10. 来自统计学的抽样、估计和假设检验，

4.11. (2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。

4.12. 最优化、进化计算、信息论、信号处理、可视化和信息检索。一

4.13. 估计（Estimation） · 预测（Prediction）

5. 相关技术 他是统计分析方法学的延伸和扩展。

6. 应用场景

Atitit 数据挖掘之道 attilax总结艾龙著 1. 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。 1 2. 数据（Data）信息（information）知识（K

4. 包含的技术点与挖掘方法详细分析方法：

4.1. ETL 相似度分析模式识别

4.3. 垂直领域分析比如图片挖掘 yifu pose等

4.4. 数据转换方便体积缩小方便存储

4.5. 结构化复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

4.7. Tag join groupby分组聚合统计聚合

5. 相关技术他是统计分析方法学的延伸和扩展。