大道至简:大数据、小数据、量化交易

大道至简:大数据、小数据、量化交易,11.23
今天下午在Q群:124134140(zwPython大数据量化交易).
与大家讨论大数据、量化交易,没想到,晚上就碰到了一只黑天鹅

惯例,QQ讨论直接发了,作为blog,大家可以看看,有不少互动的地方

有时候处理规模问题最好的办法就是让事情变得简单并尽你可能去避免出现这种情况。这是 GitHub 所采用的方法,
http://www.oschina.net/translate/inside-the-github-systems-where-open-source-lives
《深入了解开源软件驻扎地 Github》

字王(357811718) 17:28:09
zw(黑天鹅算法),只用最简单的四则运算,这样元数据衰减最小 路径最短
简而言之,你看不懂的算法(why), 直接生搬硬套(how),完全就是扯淡
算法 模型 最重要的是:明白其原理(why),
了解"元数据"到分析结果的全部路径

ps,又一只黑天鹅
《 没搞懂背后原因,不要盲目编程》      http://blog.jobbole.com/94580/

这个也适用于与量化分析,大数据; 不懂原理 不要乱套模型
懂了原理 自己用py再写一遍 测试几轮 才算真正明白
-----------------------

字王(357811718) 16:45:57
新人,请先通读下zw关于大数据、量化交易的blog,全部是原创作品
http://blog.sina.com.cn/s/articlelist_1895879714_5_1.html
以及《zwPython用户手册》,QQ群共享和置顶blog,网盘有下载
http://pan.baidu.com/s/1tY7Wq#path=/zw2015x/zwPython
【吐槽】云中的飞絮(450953012) 16:48:31
群主有心的话,可以把博文整理一下,弄个pdf文档,修订一下错误之类的
【潜水】成长中的翅膀(406518296) 16:48:58
《零起点,python大数据与量化交易》 什么时候出版
字王(357811718) 16:49:21
大家自己动手吧 我只是搭个平台 大家多发言 多讨论才是正题
字王(357811718) 16:50:15
这个群是新群 人不多 但大头不少 有量化协会的还有不少5-6位QQ的,玩金融的还是蛮厉害的
字王(357811718) 16:50:58
书不会出了 没时间 我自己不炒股 只做足彩 国内足彩黑股票比足彩更黑
真心劝大家做足彩 相当于是十倍的股票配资 比股票公正很多

【潜水】成长中的翅膀(406518296) 16:52:40
没人教
字王(357811718) 16:52:43
大家自己把足彩当做股票分析就可以考虑如果足彩不行玩股票更加困难
【冒泡】HSC(908114693) 16:52:47
群主能不能写个文,简单介绍下足彩的相关内容?还真没接触过
【潜水】勇敢的心(120805741) 16:52:56
学习学习
【潜水】成长中的翅膀(406518296) 16:53:09
@字王 有足彩数据吗
【活跃】 7777777 16:53:11
@字王 是啊,怎么分析,怎么入门
字王(357811718) 16:53:23
入门 自己去500.com看资料吧  把足彩看做股票就是了
字王(357811718) 16:53:42
数据归一化后
底层数据分析都是一样的
字王(357811718) 16:54:09
:: 主打二选一模式,保证稳定性;
:: 不选150以下赔率,增加盈利率;

这个是个人经验

成长中的翅膀(406518296) 16:54:40
现在网上不能买的
HSC(908114693) 16:54:49
数据分析大致是个什么框架?这和股票的应该不一样吧?
字王(357811718) 16:55:06
国内足彩比欧平低10%,大家开始可以做国内的  大了后 可以自己买国外的
字王(357811718) 16:55:34
《易经与大数据》

其实,殊途同归,什么东西到了极致,根源都是相通的
易经是纯文科的了,zw小数据理论、“黑天鹅算法”,灵感就是来自:易经、阴阳、八卦。。。。。。

在大数据分析时,我们发现,所有的分析,抛开表象,以量化投资为例,到了最后,无非是两种选择:亏、赢
延伸一下,其他项目,也无非也是:
输、赢;正、负;胜、负;
涨、跌;加、减
男、女;老、少;黑、白;取、舍
字王(357811718) 16:56:08
http://blog.sina.com.cn/s/blog_7100d4220102vne7.html
文科生、易经与大数据 这个大家可以好好看看
看懂了说明入门了
成长中的翅膀(406518296) 16:56:10
有没有理论方面的文字
字王(357811718) 16:56:44
足彩入门 500和足彩网站都有的 数据分析 也有不少
HSC(908114693) 16:57:04
ok,谢谢,研究研究去
成长中的翅膀(406518296) 16:57:06
网上不能买的
字王(357811718) 16:59:02

字王(357811718) 16:59:25
这些是我笔记本有的 传到群文件 大家自己看看吧
HSC(908114693) 16:59:44
还有德州扑克。。。赞
HSC(908114693) 16:59:48
谢谢分享!
成长中的翅膀(406518296) 16:59:55

字王(357811718) 17:00:45
数学也很简单 基本是四则运算 没有微积分
成长中的翅膀(406518296) 17:01:03
统计没有吗
字王(357811718) 17:01:37
计量用简单的模型 模型越简单 离源数据越近数据损失衰减失真越少
字王(357811718) 17:02:36
什么svm,大数据模型 不要直接套 全部没用的
自己做模型 要懂元数据到最终结果的路径
字王(357811718) 17:03:00
搞明白了数据分析 大数据也就通了
成长中的翅膀(406518296) 17:03:09

雷霆(20452503) 17:03:21
进了这个群,真是长见识
雷霆(20452503) 17:03:30

字王(357811718) 17:03:55
大数据 数据分析 zw在国内TOP10,绝对没问题
7777777 17:04:06
看了群主的文章,发现群主是个懂道的人
字王(357811718) 17:04:53
我是纯技术  code工程师大道同归
大佳[喜多狼](28888502) 17:05:12

7777777 17:05:21
而且你还懂到家,佛教与技术的融合
7777777 17:05:30
值得我追逐
成长中的翅膀(406518296) 17:06:01

字王(357811718) 17:06:13
因为做的早 见过不少真正的牛人 所以没有压力

7777777 17:06:58
到这个份上,赚钱也是很容易的事情了
成长中的翅膀(406518296) 17:07:24
@字王 群主现在在北京吗
7777777 17:07:30
我见过做量化投资很厉害的机构简直就是印钞机
字王(357811718) 17:07:35
虽然:大数据 数据分析 zw在国内TOP10,
这个是谦虚的说法
在zw面前,大数据 数据分析、ai人工智能领域,敢称老大的
真心没有
字王(357811718) 17:08:12
在湖南 小孩今年高考 挂靠在深圳前海智库CTO
be honest(394912367) 17:09:17
字王,你的量化交易的书 有眉目了吗
成长中的翅膀(406518296) 17:09:20
群主也是专家吧
be honest(394912367) 17:09:22
我很感兴趣
字王(357811718) 17:09:49
我的首部书 第二作者 现在是中山大足额mba院副院长 博导
所以 说这些 还是有些底气的
zw的足彩系统 一台i7笔记本,把百度的集群秒了而且是天天秒
fall 17:10:02
我们做alpha是用回归的
成长中的翅膀(406518296) 17:10:26
也是量化投资吗
fall 17:10:29
但其实好多机构根本不相信这玩意儿
fall 17:10:34
嗯 alpha策略
字王(357811718) 17:10:38
黑天鹅算法基本流程

从4V到1V
数据预处理

衍生数据扩充
指数压缩
数据归一化

标准分数
T-统计量
学生化残差
标准化矩
变异系数
离差指数
建立参数v知识库
建立黑天鹅判别模型库
成长中的翅膀(406518296) 17:11:03
有源码吗
成长中的翅膀(406518296) 17:11:07

字王(357811718) 17:11:41
这个算法是zw原创的 数据归一化很重要大家可以看看武汉邓聚龙教授的灰色数学 这个是中国原创的
fall 17:11:43
机密
成长中的翅膀(406518296) 17:12:01

字王(357811718) 17:12:16
流程blog书目录里面有的
字王(357811718) 17:12:54
【衍生数据扩充】,可以免费教大家几招
成长中的翅膀(406518296) 17:13:07
好的
雷霆(20452503) 17:13:14

字王(357811718) 17:13:27

字王(357811718) 17:13:30
http://trade.500.com/jczq/
成长中的翅膀(406518296) 17:14:05
网上不能买咯
成长中的翅膀(406518296) 17:14:08
特郁闷
雷霆(20452503) 17:14:22
电话买啊
成长中的翅膀(406518296) 17:14:35

字王(357811718) 17:14:54
以今天的数据为例,官方赔率一组元数据只有 一组:237,300 ,271
股票也差不多 开盘 收盘 最高 最低
fall 17:15:23
我们还是用月度数据做的
fall 17:15:28
关键还是看你的策略
雷霆(20452503) 17:15:38
别急啊
雷霆(20452503) 17:15:42
慢慢听老大讲
fall 17:16:10
我只是随便插插嘴 老大别介意
字王(357811718) 17:16:16
扩充下 sum=237,300 ,271
比例扩充:237/sum,300/sum ,271/sum
倒数扩充:1/237,1/300 ,1/271

成长中的翅膀(406518296) 17:17:30

字王(357811718) 17:17:39
其他还有很多 ,大家自己头脑风暴 ,可以讨论测试一下
个人比较喜欢倒数扩充 直接进行了数据的归一化
这些都是zw的一家之言 ,不过很实用
字王(357811718) 17:18:03
sum=237+300 +271
字王(357811718) 17:18:55
还有极大扩充:237/max,...
还有极小扩充:237/min,...
均值扩充,中位数扩充。。。
fall 17:19:50
这也是归一的方法之一
fall 17:19:51
回头试试看这种方法
字王(357811718) 17:20:08
这样一来,3个元数据,就可以扩充为几十个数据源,而且都是来自一个元数据组,对比分析,时间序列,都是很方便的
字王(357811718) 17:20:42
这个也是小数据,为什么比大数据有效的原因
云中的飞絮(450953012) 17:23:05
@fall alpha最终归于选股,谁选股牛,这个没标准,也没说服力
字王(357811718) 17:23:44
【补充】  基于大数据的量化投资、股市系统,验收标准,摘自QQ对话

注意下盈利参数V,其他都是技术细节

目前大盘整体波动大,要和大盘平均指数比,不然没有意义

另外,注意稳定性,取2-3个月的周平均指
fall 17:25:50
是拿不同类型的数据单独分析?
fall 17:25:50
有个疑问
fall 17:25:51
老大
fall 17:25:51
数据扩充之后不同的数据扩充方法口径不同
fall 17:25:52
怎么放一起分析
字王(357811718) 17:26:15
所以数据归一化很重要
字王(357811718) 17:26:33
不过同一个元数据 可以直接对比的
fall 17:26:33
我没说我们牛 只是说下我们的方法
字王(357811718) 17:28:09
数据分析 模型 ai方面,所有现有的算法 ,都是没用的
必须自己建模 测试
zw只用最简单的四则运算 这样元数据衰减最小 路径最短
字王(357811718) 17:28:51
简而言之,你看不懂的算法 一律不要用 全部是扯淡的
字王(357811718) 17:29:08
http://blog.sina.com.cn/s/blog_7100d4220102vmlm.html
人工智能永远差500年
fall 17:29:24
回头拜读一下老大的黑天鹅算法
fall 17:29:53
拿股票数据试试
云中的飞絮(450953012) 17:30:02
@fall 你说好多机构根本不相信这玩意,这是客观反应

云中的飞絮(450953012) 17:30:24
而且你强调回归,这个不是alpha的本质
fall 17:32:22
我说了只是说下方法
fall 17:32:25
我觉得老大说的对 关键还是要自己测试而且实盘才是检验模型的唯一标准
fall 17:32:25
呃 别纠结
fall 17:32:27
稳定的盈利才是硬道理 不是吗
字王(357811718) 17:33:43
至于目前流行的各种大数据核心算法,都是基于统计分析、聚类分析,以及各种各样、五花八门的分析模型。
这些分析模型与算法,大多基于传统的人工智能研究,什么啄木鸟算法、萤火虫算法、蚁群算法,大部分都是经验性、实验模型,缺乏系统的理论支持。
这些算法,看名字就知道,玄而又玄,不知所云。
关键的是,这些算法都是受限模型,是基于某些特定条件下的模型,无法通用,
就像冰岛的"啤酒和尿布"模型,到了中国,完全没戏,至少在沃尔玛、家乐福、华润等超市,没有看到这种模式。
字王(357811718) 17:33:58
http://blog.sina.com.cn/s/blog_7100d4220102vkxa.html
大数据与黑天鹅等
云中的飞絮(450953012) 17:34:12
我的意思是,这么干alpha,盈亏不是你策略的作用,而是行情的反映
fall 17:34:27
基于
fall 17:34:27
而且我们不只是选股啊 是机遇选股做组合的建立
fall 17:34:42
我们是对冲策略
云中的飞絮(450953012) 17:35:04

fall 17:35:10
是追求超额收益的
fall 17:35:28
我不是说我们的厉害啊
fall 17:35:34
我是想讨论一下
fall 17:35:42
我也是刚开始做
云中的飞絮(450953012) 17:35:44
我也是在讨论啊
fall 17:35:45
不要误会
fall 17:35:48
云中的飞絮(450953012) 17:36:00
也许是我理解太肤浅了
云中的飞絮(450953012) 17:36:38
我只是想强调选股的重要性
字王(357811718) 17:38:00
模型最重要的是稳定 盈利率无所谓,
周利率稳定在1%,每年都是200%以上了
7777777 17:38:51
说得好
7777777 17:39:05
复利就是最好的盈利
字王(357811718) 17:39:21
高于10%的模型,必须警惕 必须进行多个时间波段的测试
字王(357811718) 17:40:38
大家命好  量化分析特别是python量化 全世界都刚起步
同一个起跑线 pandas现在还是v0.4版
成长中的翅膀(406518296) 17:40:42
zwpython 可以下载吗
字王(357811718) 17:41:06
所以没有权威 大家自己建模 合适的 赚钱的就是ok的
字王(357811718) 17:41:26
zwpy是免费的开源项目 blog置顶有下载地址
成长中的翅膀(406518296) 17:42:02
https://github.com/ziwang-com/, 里面没有下载的
成长中的翅膀(406518296) 17:42:15
网盘也不能下
字王(357811718) 17:42:23
正在等待py3.5版本的库 目前的版本大家用已经可以了
3,5的版本,可能2-3年都不会过时
Polaris(9092128) 17:42:30
我刚刚学python   结果被dateframe 给弄晕了
字王(357811718) 17:42:33
http://pan.baidu.com/s/1tY7Wq
字王(357811718) 17:42:41
:: 网盘下载:http://pan.baidu.com/s/1tY7Wq
7777777 17:42:42
不晕啊。dateframe很好理解
成长中的翅膀(406518296) 17:42:52
找到了
成长中的翅膀(406518296) 17:43:14

字王(357811718) 17:43:21
这个群是py量化第一群 大家多发言 才有收获 互动 交流
7777777 17:43:28
这个开发环境随便下载一个就可以了,不要纠结,认真学习群主的思路
Polaris(9092128) 17:43:57
有一组csv数据    其中有一列是交易时间  精确到分钟

我以dateframe打开后   我想把index改为交易时间    结果发现这列返回的结果都是str
7777777 17:43:58
@字王 希望您能经常引导我们学习
字王(357811718) 17:44:15
把blog按时间序列 从头到尾看看吧 这个看明白博士论文绝对没问题
7777777 17:44:20
datetime转换不就可以了
字王(357811718) 17:44:50
全部是zw原创的 比一般教程实在很多
7777777 17:45:03
感觉境界有点高
Polaris(9092128) 17:45:31
datetime 转换为 年月日  但是里面的分钟怎么转换呢?   我是零程序语言基础,直接学的python  希望前辈们多多指点啊
字王(357811718) 17:45:40
懂了就简单老舍的文章全部是大白话
7777777 17:46:31
我现在才是机器学习的入门者。
7777777 17:46:56
您刚刚讲到的算法都是受限模型,是基于某些特定条件下的模型,无法通用,让我感触很多啊
Polaris(9092128) 17:47:13
这个周末好好研究研究群主的一些理论
fall 17:47:14
回头详细讨论
fall 17:47:14
加个QQ
系统消息(10000) 17:48:32
ρBecBeck加入本群
大佳[喜多狼](28888502) 18:04:53
py量化第一群,属于vnpy。
大佳[喜多狼](28888502) 18:05:01
不是打击群主。
字王(357811718) 18:40:09
vnpy做框架的 相当于做个机箱 zw是做cpu,、
完全没有可比性
人多不一定有用
字王(357811718) 19:55:02
有时候处理规模问题最好的办法就是让事情变得简单并尽你可能去避免出现这种情况。这是 GitHub 所采用的方法,
字王(357811718) 19:55:16
http://www.oschina.net/translate/inside-the-github-systems-where-open-source-lives
<深入了解开源软件驻扎地 Github>
字王(357811718) 19:56:51
字王(357811718) 17:28:09
数据分析 模型 ai方面,所有现有的算法 ,都是没用的
必须自己建模 测试
zw只用最简单的四则运算 这样元数据衰减最小 路径最短
字王(357811718) 17:28:51
简而言之,你看不懂的算法 一律不要用 全部是扯淡的

今天的讨论也碰到一只黑天鹅

原文地址:https://www.cnblogs.com/ziwang/p/9500387.html