Big Data Opportunities and Challenges(by周志华)论文要点

  • 大数据环境下的机器学习

三种误解:模型不再重要(大量数据上复杂模型依然提升显著,大数据是的复杂模型充分利用数据且难以过拟合),相关性就足够了(因果关系重要性无法被替代),以前的研究方向不再重要(高性能计算和存储依然重要)

机遇和挑战:只过目一遍数据的学习,高度可解释的模型,低质量样本集上的学习

  • 大数据挖掘和研究

天文信息学的产生,应对数据分布偏移,流式学习,可扩展可迁移的学习,即便略微损失预测精度业界更认可简单模型,集成多种数据统一特征表示的学习,社交行为理解

数据->知识->发现->行动:不仅仅补充根据现有假设的研究而是从数据中发现新现象新设想,众多大企业生产力因数据分析显著收益,卫生领域使用NLP技术分析客户的情感和满意度

机遇和挑战:拥有领域知识的关键性,提出有深度和普遍的问题,考虑新增数据源带来的收益(即使是简单算法),计算平台架构的演进,对数据中问题和局限性的理解

  • 大数据的全局最优化

进化算法

复杂系统的全局最优化:非线性关系的多决策变量、互相冲突的多目标,优化目标过多导致太多Pareto最优解、很难求解,评估解的质量大量消耗算力,实时优化问题,稳定和快速调整解决方案,优化过程中提取知识

机遇和挑战:集成各种学习范式和优化的技术,形式化问题的更好方法,渐进学习、简化优化问题,高维可视化

  • 大数据环境下的产业、政府和社会

分解大数据:隐私和安全问题

分解成子模型:集成大量异质模型(即使小模型对应假设子空间有重叠)

实时在线分析:在线增量学习

极端数据分布-隐私和所有权:Wikileaks,在个人设备上计算,将个体上的计算集成的学习

机遇和挑战:识别有共同行为的群体、个体层次的建模,实时自主学习、为自主目标的学习

原文地址:https://www.cnblogs.com/yaoyaohust/p/9994365.html