徐宗本院士讲座《关于大数据研究下的若干问题》摘记

今天早上屁颠屁颠地跑去听了徐宗本院士的：关于大数据研究的若个问题觉得还不错，由于徐教授横跨数学与管理两方面，所以讲的角度还有深度刚刚好

在我的接受范围内。讲座主要从下面三个方面来讲的：

1 关于大数据的认识

2 大数据研究涉及的科学问题

3 他们团队的探索

（一）关于大数据的认识

大数据炒得很火，但是什么是大数据，跟海量数据有什么区别？徐教授首先从自己的角度给出大数据的定义，主要有四个特点：

a 不能在单个计算机上集中存储，一般需要用到分布式/云计算模式等；

b 难以在可接受的时间内进行分析处理；

c 单个数据可能价值不大，但是数据整体还是有高价值的（比如一个班级大家发的微博可能没有特别大的意义，但是全国高校大学生发的微博就可以反映当代大学生思想理念**）

d 海量的复杂结构的数据集

对于大数据，他觉得不能按什么GB,TB,PB,EB这些量化来死衡量。

大数据这个概念最近炒得很火，主要是从2008年《Science》杂志用了几版做了大数据专题开始。奥巴马在2011年给出的报告《大数据分析》，竞选一般都喜欢对什么人说什么话，其实就是精确化营销。奥巴马的竞选主要得意于背后的数据分析团队，他们收集各个州post出来的微博，进行舆情分析，得出各个州分别最关心的是什么问题，然后在竞选的时候就针对这些问题提出相应的口号和策略。继而欧洲等国也把大数据研究作为重要的发展战略。随之越来越火，企业，个人，现在好像所有人都在谈论大数据。

大数据影响力不仅在自然科学研究中，而且在商业领域，徐教授觉得后面会成为企业核心竞争力（数据规模，活性（有没有用，即是不是活的）与解释力），以及发展与大数据相关的商业模式。这是未来高科技公司必须有的概念。还有在公共政策上，徐教授觉得大数据的火一个很重要的贡献就是给决策者，政策修改者带来的观念上的冲击，即数据资产，主权的概念，现在不仅是海陆空主权了，数据已经渗透到我们每天的日常生活，早在十几年前，美国就能精确摧毁南斯拉夫大使馆，考的就是数据。我们现在用的google GPS，更是精确到一颗沙子，如果不注重数据主权，一个国家的主权也会受到侵犯。从这个角度来讲，google搜索退出中国，百度开始垄断中国搜索引擎市场，其实也是国家对数据主权的觉醒。徐宗本还呼吁大家多多使用百度，呵呵。（想到了斯诺登的事情。腾讯帝国。。）

那么大数据值得热吗？

gartner报告中-—— 2012年，正在或是即将进行大数据的公司为58%，而进入2013年，这一数字变成了64%。对于大多数企业来说，他们最大的问题，就是不明白大数据究竟是什么，以及如何使用大数据。

现在很多企业都在炒大数据，发展了大数据技术，其实本质上来说只是一种口号上的宣传。目前大数据研究还在初始阶段。

总的来说，徐教授觉得大数据还是值得热，

(1 数据概念重视；

2 数据挖掘方法得到普世的重视。（数据挖掘主要方法：聚类分析判别分析回归分析(一个因素如何随着另外一个因素而改变）隐变量分析因果分析时间序列分析）

但是不能一哄而上。他担心中国人做很多事情都很喜欢一哄而上，继而一哄而散。

从数据到价值的产业链管理学院前沿计划：大数据产业管理（产业链，商业模式，公共政策等）

（二）大数据研究涉及的科学问题

a 超高维问题即决策因素随着样本数n呈现更高量级引起的解的不确定性与经典统计推断失效问题。

经典统计：n>>p,高维：p》》n，大数据高维度p=o(exp(n)) n->00

热点研究：稀疏建模（尽管变量很多，但是很多都是0）

比如南海，虽然监控很大，但是舰队只是很小的一部分。基本科学问题：如何补足信息使得数据可解；利用特征相关性发展统计学（变量之间的独立性基本都是不能成立的）

b 大数据的重采样 subsampling

the big data boostrap,kleiner et.al 2012,ICML(大数据下如何求均值，很有创新）

基本问题：

如何重采样以刻画数据整体特征

基于试验设计的重采样

基于目标信息的重采样

联合处理：boosting ,bagging 等现在的高分辨率(p维度大），同时雷达不能携带过多的样本数据，即n小。

c 可解的计算理论

大数据可解与传统数据不同，算法中的可解性是指在有限步内可以用图灵机解决的问题。

大数据下的可解，具体例子（针对具体形式的数据):

流数据（容易是指处理的速度大于数据更新的速度）

分布式数据（容易是指交互的速度大于处理的速度)

d 分布式实时计算

基本问题：

问题的解分解性与解的可组装性

随机优化模型可能成为将来一个趋势。（对于大数据而言，精确解并不太重要，实时性更重要。让我想起3D in the wild重构)

e 非结构化问题

挑战：数据的异构性，不一致性

基本问题：

异构数据的表示与分析（向量-》矩阵-》张量（现在普遍应用））

f 可视分析

基本问题：

1 高维数据的特征提取；

2 特征如何用几何展示

crowdsourcing(讲到现在公司不知道什么方面，向公众征集，再加上一点小奖励，利用群体智慧）

（三）我们的探索

a 超高维的稀疏建模

回归分析（大数据-》均匀抽样（subsampling)-》回归-》联合处理，成功

网络监测（失败，因为处理的速度慢于更新的速度）模拟美国城市的交通监测决策，比如如果处理速度快了，可以加快城市交通监测的更新速度。

b 视觉认知

基于尺度空间的数据建模（聚类）

聚类看上去像5类，有的又说是4类，究竟是几类呢？模拟人脑视觉认知。引入尺度空间的概念，sigma 为尺度，表示物体与视网膜距离或晶状体曲率。在一定的尺度范围内，是5类，过了这个范围，在另一个范围内就是四类。他们的团队引进了生存寿命，生命周期最长的一个类定义为最有价值的类。谈到meanshift

c 全局优化有用吗？ f(x）极小值虽然不一定是全局最优，但是他的吸引域够大就可以了。类比药的结构及药效的稳定性在东南亚，广州。

（粗略的笔记，后面找时间完善）