字王看：大数据和高频量化交易

这个原本是和国内一家做高频量化公司Boss沟通时的写的，修改了一下，作为blog和zwPython的大数据资料，发布了：

关于大数据、高频交易和人工智能，我的基本观点：

凡是无法通过“足彩数据”进行实盘测试的方案、算法，都是在耍流氓。

高频量化交易个人观点
1、采用2-3个维度作为数据分析坐标, 主坐标，一般可用分（秒）钟的实时数据，第二、三坐标，可以采用关联金融产品，如外汇、贵重金属等参数，这个需要具体测试后再细化。
   另外，如果可能，与百度、新浪微博、微信、淘宝等机构，建立实时的API数据接口，进行元数据搜索，作为一个参照维度。

   数据源，不宜超过3个维度，原因如下：
   ：：便于数据的2D、3D可视化分析。
   ：：数据维度过高，会带来几何级的数据量，无法保证实时运算和精度
   ：：实战测试，数据越多，反而会影响精度。目前个人数据分析的一个重点，就是“小”数据。老子《道德经·第六十三章》有云：天下大事，必做于细。
       我在一个blog上面也找到了数学支持,龙格现象，http://zh.wikipedia.org/wiki/龙格现象
   ：：维度越多，可供单一维度的数据量就也少，反而会影响分析结果.

2、策略方面，有分析和统计两种模式，各有优劣，个人建议采用统计作为匹配模型。
   这个也是目前大数据分析的一个趋势，人工智能领域的外语翻译项目，六十年代开始，一直采用分析模型，始终无法商业化。2000年后，互联网的兴起，派生海量语义库，短短几年时间，人机外语翻译已经初步实用化。
   传统技术平台，首制于PC运算速度，偏重与分析，近年，伴随CUDA并行运算的崛起，PC也可达到以往巨型机10G以上的运算速度，分析建模，逐渐被统计建库（数据库）取代。
   统计模型的建立、选择，实际上也融合了不同团队的策略。

   模型建立后，导入历史数据，进行归一化处理、统计分析、聚类分析，可生成2-3个维度的数据库，便有了2D、3D的数据节点。

   运行时，获取实际交易数据，按数据节点进行匹配，就可以获得实时的：盈利概率（参数v）
   参数v，根据预设的交易阀值K，便可进行买、卖、忽略等预设操作。

3、实际操盘，采用群组交易，测试表明，针对单一对象的分析预测，远低于多个对象的群组分析。
   经验表明，对整个数据级，5-8%左右的筛选结果，盈利概率（参数v）相对较高

目前我们采用的数据源是足彩数据，原因如下：
1，2012年，初期采用国内股票交易数据，自己编程并下载了国内开盘以来历年的日数据，五分钟交易数据，量太大，而且不完整。
股票数据，作为数据源，有个先天缺陷（目前可能可以弥补，见后文），股票交易，只有时间一个维度，无法进行交叉分析，同一只股票，同一个时间节点，没有横向对比参数。
2、2013年开始，采用足球博彩数据作为分析数据源，因为同一场比赛，全球有数百家公司同时提供横向的对比数据，同时，同一个公司，同样的赔率，可以提供纵向的对比数据。
    当然，还有同一只球队、不同联赛等数据，并未采用。
    未采用，一方面是限于数据规模，运算速度，另外一方面，是实战测试，数据越多，反而会影响精度。

通过一年的盘前数据分析，相关模型不断优化，目前，盈利概率（参数v）已经超过95%

近期，对比检索了国内数十家相关网站，包括百度、谷歌、微软的世界杯足彩、人工智能项目、大数据项目，以及相关的博彩分析平台，

这个指标，应该是目前行业最高的

以上是个人的一家之言，仅供参考。

技术博客：http://blog.sina.com.cn/zbrow

【补充】基于大数据的量化投资、股市系统，验收标准，摘自QQ对话

注意下盈利参数V，其他都是技术细节

目前大盘整体波动大，要和大盘平均指数比，不然没有意义

另外，注意稳定性，取2-3个月的周平均指数，看看系统模型有没有bug

QQ群 247994767(delphi与halcon) 【zw版《delphi与halcon系列原创教程》,网址，cnblogs.com/ziwang/ 】 QQ：2592439395（zw） , delphi+halcon,图像分析神级配置, 分分钟秒杀 c+opencv,python+opencv,c+matlab，以及其他各种组合