hadoop常见算法(持续更新)

1. 对以下数据进行排序,根据收入减去支出得到最后结余从大到小排序

账号                 收入    支出    日期
zhangsan@163.com    6000    0      2014-02-20
lisi@163.com        2000    0      2014-02-20
lisi@163.com        0       100    2014-02-20
zhangsan@163.com    3000    0      2014-02-20
wangwu@126.com      9000    0      2014-02-20
wangwu@126.com      0       200    2014-02-20

最后结果形式为:

lisi@163.com        2000    100    1900
wangwu@126.com      9000    200    8800
zhangsan@163.com    9000    0      9000

2. 倒排索引、ETL、过滤 (文本查找),解析和校验

3. Partition的使用

4. 双下标排序

5. 利用MapReduce求解海量数据文件中的最大值

6. 计数器

7. k-means聚类算法

8. 计数与求和

References:

[1] hadoop常用算法简单实例

原文地址:https://www.cnblogs.com/tuhooo/p/7905129.html