大数据处理流程

大数据处理流程



大数据处理,大数据需要怎样处理, 处理的方式方法或者函数有哪些

## 大数据的处理流程

采集--导入(预处理) ==>> 统计分析 ==>> 挖掘


数据采集

渠道: 通过Web , App , 传感器等方式.

方式: 通过客户端或者直接调取相关事务的数据

难点: 处理并发.


数据导入:
获取数据之后,进行初步清洗保存到SQL 或者 NoSQL中

方式: 获得想要得到多的数据之后导入到进行分析的分布式数据库库,SQL或者NoSQL

难点: 写入速率.


统计分析:
利用分布式数据库,或分布式计算集群,对数据进行分析或分类汇总.

方式: 根据具体分析方向, 采用合适的模块或函数.

难点: 处理I/O


数据挖掘:

根据现有的数据进行给予各种算法的计算, 从而起到预测的效果,.
方式: 聚类的Kmeans, 统计学习SVM, 分类NaiveBayes.
常用工具Hadoop的Mahout等.
难点: 算法的处理和计算量的分配.

原文地址:https://www.cnblogs.com/jrri/p/11868944.html