atitit .大数据的方法,技术.attilax总结 大数据包含哪些方面 v5 s09..docx 7. 三大核心技术:拿数据,处理转换,算数据 2 8. 大数据有5个部分。数据采集,数据存储,

atitit .大数据的方法,技术.attilax总结 大数据包含哪些方面 v5 s09..docx

 

7. 三大核心技术:拿数据,处理转换,算数据 2

8. 大数据有5个部分。数据采集,数据存储,数据清洗,数据挖掘,数据可视化 2

9. 关联技术 2

10. 数据采集技术 (非常重要) 2

10.1. 数据采集----gui自动化技术 2

10.2. Nui自动化  外接触摸等设备 2

10.3. 数据采集---安卓等设备模拟器技术 2

10.4. 导出 、分享 有些程序自带导出分享功能,方便多了 3

10.5. Ocr技术 面对c端数据采集,可能需要ocr 3

10.6. 破解图片验证码../手机验证码.。。数据采集过程中可能遇到验证码 3

10.7. 前置登录自动化 注册机/登录器/发帖机/   可能需要前置登录采集 3

10.8. 数据导出,可能要使用分享给你,也可能没有分享,只能ocr模式转换 3

10.9. Office word excel pdf文件读写 3

10.10. Html文档读写 3

10.11. Zip rar等压缩文档 3

11. 数据清洗技术 3

11.1. 数据分类 根据分类不同来不同的垃圾文件判断标准 3

11.2. 数据清洗 识别垃圾数据清理 3

11.3. 图像分类技术  图像处理技术 4

11.4. 图像内容识别   人脸识别 4

11.5. 视频截取 4

12. 数据tag标注 分类 内容识别 结构化(重要) 4

12.1. 数据格式转换技术 非结构化转换为部分结构化 比如tag技术 4

12.2. 数据分类技术 多维度分类 4

12.3. 数据tag标注 4

12.4. 图像分类技术  图像处理技术 4

12.5. 图像内容识别   人脸识别 4

13. 大数据存储技术 (重要 4

13.1. 数据压缩技术 数据存储 4

13.2. 压缩存储文档处理(rar zip 5

13.3. Nosql mongodb redis等 5

14. 大数据摘要索引技术 (很重要) 5

14.1. 全文索引(es solr lucence 5

14.2. 压缩文件索引技术 5

14.3. 视频截取索引  ocr 5

15. 可视化(相对不那么重要) 5

16. 其他可能需要的技术 5

16.1. 数据挖掘 5

16.2. 语音识别技术 6

16.3. 手写识别技术 6

16.4. 水军好评差评 6

16.5. 云计算、移动互联网 6

16.6. 物联网. 6

16.7. 非结构化nosql数据库技术 6

17. 参考: 6

 

作者Attilax ,  EMAIL:1466519819@qq.com 
来源:attilax的专栏
地址:http://blog.csdn.net/attilax

 

 

  1. 三大核心技术:拿数据,处理转换,算数据 
  2. 大数据有5个部分。数据采集,数据存储,数据清洗,数据挖掘,数据可视化
  3. 关联技术
  4. 数据采集技术 (非常重要)
    1. 数据采集----gui自动化技术

自动化web操作/浏览器引擎 自动化ui数据采集 可以对常见的sns im软件操作采集数据

刷票器/

    1. Nui自动化  外接触摸等设备
    2. 数据采集---安卓等设备模拟器技术

有些app只能运行在安卓等特定环境需要使用模拟器采集数据

 

    1. 导出 、分享 有些程序自带导出分享功能,方便多了
    2. Ocr技术 面对c端数据采集,可能需要ocr

截屏与ocr技术 方便对屏幕数字化处理为文字

 

    1. 破解图片验证码../手机验证码.。。数据采集过程中可能遇到验证码
    2. 前置登录自动化 注册机/登录器/发帖机/   可能需要前置登录采集

 

    1. 数据导出,可能要使用分享给你,也可能没有分享,只能ocr模式转换
    2. Office word excel pdf文件读写
    3. Html文档读写
    4. Zip rar等压缩文档
  1. 数据清洗技术
    1. 数据分类 根据分类不同来不同的垃圾文件判断标准
    2. 数据清洗 识别垃圾数据清理

 

    1. 图像分类技术  图像处理技术
    2. 图像内容识别   人脸识别
    3. 视频截取
  1. 数据tag标注 分类 内容识别 结构化(重要)

 

    1. 数据格式转换技术 非结构化转换为部分结构化 比如tag技术

 

    1. 数据分类技术 多维度分类
    2. 数据tag标注
    3. 图像分类技术  图像处理技术
    4. 图像内容识别   人脸识别

 

 

  1. 大数据存储技术 (重要
    1. 数据压缩技术 数据存储

 

    1. 压缩存储文档处理(rar zip
    2. Nosql mongodb redis等

 

  1. 大数据摘要索引技术 (很重要)
    1. 全文索引(es solr lucence
    2. 压缩文件索引技术 
    3. 视频截取索引  ocr

 

大数据导入,需要自动化ui技术

 

  1. 可视化(相对不那么重要)
  2. 其他可能需要的技术
    1. 数据挖掘

 

    1. 语音识别技术
    2. 手写识别技术
    3. 水军好评差评
    4. 云计算、移动互联网

技术的发展,使得大量数据的生产和连通变成现实;

    1. 物联网.
    2. 非结构化nosql数据库技术

非结构化数据库技术的发展,使得数据收集的要求大大降低;

  1.  参考:

窥视互联网金融:谈谈大数据

Hadoop并非完美:8个代替 HDFS 的绝佳方案

 

 

 

大数据技术涵盖哪些内容_百度经验.html

原文地址:https://www.cnblogs.com/attilax/p/15197516.html