大数据分析复习笔记

data mining

  • volume
  • veracity
  • variety
  • velocity
  • value

数据挖掘

有效性、可用性、出乎意料、可理解性

Page Rank

spider traps

假设有图:

Alt text

其邻接矩阵 M为:

Alt text

带入公式迭代,结果为: Alt text

最终,rm=1

而 ry=ra=0 。这从漫步者的角度很好理解,在经过一段时间之后,漫步者到达了 m 节点,然而 m 节点只有指向自己的链接,然后就只能一直停留在 m,所以最后的概率一定是1, 而其他两个节点的概率就变成了0 。

解决方案

随机传送 Random Teleports

Google解决这个问题的办法是:到达某个节点后 * 有 β

的概率随机找一个链接过去 * 剩下 1−β 的概率跳到一个随机的页面 * 一般 β 的值在 0.8 到 0.9

之间

这样就使得漫步者在到达m节点之后有一定的概率跳出去! Alt text

Dead Ends

假设有图:

Alt text

其邻接矩阵为:

Alt text

由于m节点没有链接到其他界面,所以m的那一列都等于零。 代入公式迭代,得到结果:

Alt text

漫步者到达m之后发现是死胡同,无路可走了,然而他也不会在m停留,所以最后出现在三个节点的概率都等于0 。

解决方案

依旧是传送

当漫步者到达死胡同时,传送的概率变为 1.0 ,随机传送到任意页面,然后图就变成了如下:

Alt text 邻接矩阵变为:

Alt text

这样问题就解决了,漫步这每次到m之后,发现去所有页面的概率都相同且不为零,相当于随机跳转到一个页面。

SVD

计算流程

分类

贝叶斯定理

计算

ID3算法

信息增益

https://blog.csdn.net/weixin_43216017/article/details/87474045

image-20201104155544284

C4.5算法

改进

https://blog.csdn.net/weixin_43216017/article/details/87609780

ID3算法使用的是信息增益,它偏向于分类较多的变量;
C4.5算法使用的是信息增益比,它偏向于分类较少的变量。

KNN

近朱者赤近墨者黑

聚类

  • 硬聚类
  • 软聚类

k-means

  • 优点:时间效率 O(tkn),t是迭代次数,k集群数,n的对象数

  • 缺点:

    • k给定
    • 难以处理噪声和离群点
    • 无法处理非凸形状
  • 开始:选k个核

  • 结束条件:

    • 中心不变
    • or设置迭代次数

层次聚类

  • 聚合 agglomerative

  • 划分 divisive

  • 距离计算公式

    • complete
    • single
    • centroid
    • average
  • O(n2

推荐系统

content-based

优点

  • 不需要其他用户数据
    • 解决了冷启动和稀疏矩阵问题
  • 为用户独特口味推荐
  • 推荐新的、不热门的商品
  • 提供解释

缺点

  • 有时候难以找到特征
  • 新用户需要建立profile
  • 过于具体,总是推荐喜欢的

CF

相似度度量

  • Jaccard
    • 忽略了分值的作用
  • Cosine
    • 缺失值影响大
  • Pearson

优点

  • 适用于各类商品,不需要管商品特征

缺点

  • 冷启动问题
    • 需要足够的用户
  • 稀疏矩阵
    • 用户评分矩阵稀疏,难以找到共同评分过的相似用户
  • 第一个评分者问题
    • 推荐不出没有被评分过的商品
  • 大众化
    • 难以满足个人独特口味,趋于推荐热门商品

Spark

特点

  • 快速
  • 易用
  • 通用

多种启动方式

  • hadoop
  • mesos

生态圈

NoSQL

类型

  • graph stores
    • neo4j(cypher 查询语言)
  • document stores
    • mongodb
  • key-value stores
  • wide-column stores

社会计算

(重点)六项任务

  • centrality analysis
    • 分析社交网络中节点的重要性 PageRank
  • community detection
    • 聚类
  • classification
    • 分类,有监督的
  • link prediction
    • 给定社交网络,预测节点之间的联系 知识图谱补全
  • viral marketing
    • 病毒营销、outbreak detection
  • network modeling

社团发现

依据什么标准可以称为community?

原文地址:https://www.cnblogs.com/cpaulyz/p/14015617.html