字王看:大数据观点补充

字王看:大数据观点补充

2015.4.10补充,今天在一个大数据Q群里面和大家沟通,整理了一下:

【黑天鹅才是新常态】

【大数据与足彩】

【大数据与小数据】

【大数据与实盘]

【大数据=哲学+数学】

----------【黑天鹅才是新常态】

"啤酒和尿布有什么关系",这个十年前经典案例, 目前我是作为反面课件来说的

这个是冰岛的一个数据分析结果,至少 在中国  不存在

金融市场 大家都是大数据 会反向干扰态势的现在(2015) 黑天鹅才是新常态

看看:石油价格, 瑞士法郎, 日元升值, 光大砸盘, 黄金狂跌

全部没节操 没下限
2015.4.21补充:《上交所交易量“爆表”》

上海证券交易所周一称因软件设置原因,上交所市场成交金额超过1万亿元人民币后无法及时更新,此非技术故障,交

http://www.solidot.org/story?sid=43769

--------------【大数据与足彩】

关于大数据、高频交易和人工智能,个人的基本观点:凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓。

足彩数据是最透明的数据源,如果足彩不是 就没有更加公平的了博弈模型,

如果 这个都通不过 其他 都是扯蛋

所以说:足彩是最合适的数据源 有历史数据 还有横向对比

其他任何数据源都没有这种 实时的“矩阵”数据源

2014年世界杯 对于大数据 人工智能 是个分水岭 是元年

微软 谷歌 百度 都有相关的项目 胜率<50%

就像我们 可以根据百度世界杯18连胜,可以肯定的说, 百度 的模型,绝对有人工干预、修正不然 ,百度,其他业务可以全停了,只作足彩博弈这块, 就可以 收割全球的资本市场了

因为 ,我们的用采集的数据, 建模,  再回溯测试, 准确率也不过92%

百度100%的准确率, 是无法长期保持的, 无法第三方复制、验证

而第三方自由复制、验证,才是一个成功的算法 模型

-----------------【大数据与小数据】

原本macd,是股市一个不错的指标,大家都macd,互相干扰, macd就成为垃圾数据源, 完全失真

信息, 知识 ,不等于 智慧

没有合适的模型 ,算法,数据越多, 干扰越多

(一个模型,容纳)所有数据是不可能的 ,

你的一个个人微信, QQ 发言,蝴蝶效应, 就有可能影响 大盘,

所以,只能是切片分析,

所有, 是, 实数的概念,实数, 在数学上, 是可以无限分割

::实战测试,数据越多,反而会影响精度。目前个人数据分析的一个重点,就是“小”数据。老子《道德经·第六十三章》有云:天下大事,必做于细。       我在一个blog上面也找到了数学支持,龙格现象,http://zh.wikipedia.org/wiki/龙格现象   ::维度越多,可供单一维度的数据量就也少,反而会影响分析结果.

------------

ps,20158.11 补充,本文发布几个月后,发现也有学者开始强调“小数据”了

《大数据,小数据,哪道才是你的菜?》

http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

看来,zw的大方向,还是正确的 :) 

------------


我们做的一个模型,原来是700多个数据源, 精度反而没有现在34个数据源的高

所以,目前我们对于大数据研究的一个重要课题,就是:小数据,如何过滤掉无效的干扰数据源

干扰越多 , 垃圾数据越多,要求分析的节点越多, 真实数据反而被掩盖

做网络危机公关就是这样操盘的,用大量的, 无关的关键词, 淹没事实真相

-------------

blog发布的第二天,2015.4.11,看到了这段,补充下

一位记者眼中的大数据:

有时候,你的确在嘈杂声中发现新闻,但有时候,你要在无声处发现新闻。学会去聆听寂然无声中的声音,非常重要。人们喜欢谈论各种大数据,各种调查数据。但不要忘了,不只有数字信息才是数据。不要忘了,一句引语也是数据,一个人讲给你的故事也是数据,某个人回答问题是低头看鞋,那也是数据,他抬了一下眉毛,那也是数据。你要收集所有这些数据。

《弗里德曼:你们感受到颠簸,我们看到的是上升 》

http://blog.sina.com.cn/s/blog_4ee8cf410102vul4.html

托马斯·弗里德曼,《世界是平的》作者,美国知名时政评论家

-------------------【大数据与实盘]

Talk is cheap,Show me the code!----Linus(linux 发明人)

大家多动手, code。。。

实盘验证,优化、调整

如此反复几轮后 ,自己的观点,就不会光是书本上的了

看书和自己做是不同的,企业很少直接用大学实验室的东西,为什么?

因为, 实验室的环境太干净, 是没有干扰源的,实战不同的

任何有市场价值的模型, 特别是高频交易, 资本市场,都不会直接出现书本上

反过来说, 任何纸面上的模型, 都是理论型,

任何不是基于一线、实盘的、大数据分析, 都没有实际意义

我们去年和一家高频交易的boss沟通,他们对标的企业,直接就是高盛

想, 高盛可能把自己的模型,算法,卖给第二家企业?多少钱合适? 10亿、100亿?

如果这个算法、软件真心能够在市场上赚100亿,客户才会买。

不过,如果能够,在市场上赚100亿,高盛为什么不自己赚? 要培养一个竞争对手?!!

-------------------【大数据=哲学+数学】

大数据的本质是:哲学+数学

而易经, 有可能, 是唯一融合了哲学+数学的模型

只用64个维度  0、1(阳阳)两种状态, 就描述天下各种事态

如果能够数字化 ,也许是一条途径

大数据模型的核心是:聚类分析,个人认为, 武汉xx大学邓聚龙教授的《灰色数学》在数据归一化, 聚类分析,方面都有独到之处

QQ群 247994767(delphi与halcon) 【zw版《delphi与halcon系列原创教程》,网址,cnblogs.com/ziwang/ 】 QQ:2592439395(zw) , delphi+halcon,图像分析神级配置, 分分钟秒杀 c+opencv,python+opencv,c+matlab, 以及其他各种组合
原文地址:https://www.cnblogs.com/ziwang/p/9500415.html