字王看:大数据和高频量化交易

字王看:大数据和高频量化交易

这个原本是和国内一家做高频量化公司Boss沟通时的写的,修改了一下,作为blog和zwPython的大数据资料,发布了:

关于大数据、高频交易和人工智能,我的基本观点:

凡是无法通过“足彩数据”进行实盘测试的方案、算法,都是在耍流氓。


高频量化交易个人观点
1、采用2-3个维度作为数据分析坐标, 主坐标,一般可用分(秒)钟的实时数据,第二、三坐标,可以采用关联金融产品,如外汇、贵重金属等参数,这个需要具体测试后再细化。
   另外,如果可能,与百度、新浪微博、微信、淘宝等机构,建立实时的API数据接口,进行元数据搜索,作为一个参照维度。
  
   数据源,不宜超过3个维度,原因如下:
   ::便于数据的2D、3D可视化分析。
   ::数据维度过高,会带来几何级的数据量,无法保证实时运算和精度
   ::实战测试,数据越多,反而会影响精度。目前个人数据分析的一个重点,就是“小”数据。老子《道德经·第六十三章》有云:天下大事,必做于细。
       我在一个blog上面也找到了数学支持,龙格现象,http://zh.wikipedia.org/wiki/龙格现象
   ::维度越多,可供单一维度的数据量就也少,反而会影响分析结果.
  
2、策略方面,有分析和统计两种模式,各有优劣,个人建议采用统计作为匹配模型。
   这个也是目前大数据分析的一个趋势,人工智能领域的外语翻译项目,六十年代开始,一直采用分析模型,始终无法商业化。2000年后,互联网的兴起,派生海量语义库,短短几年时间,人机外语翻译已经初步实用化。
   传统技术平台,首制于PC运算速度,偏重与分析,近年,伴随CUDA并行运算的崛起,PC也可达到以往巨型机10G以上的运算速度,分析建模,逐渐被统计建库(数据库)取代。
   统计模型的建立、选择,实际上也融合了不同团队的策略。
  
   模型建立后,导入历史数据,进行归一化处理、统计分析、聚类分析,可生成2-3个维度的数据库,便有了2D、3D的数据节点。
  
   运行时,获取实际交易数据,按数据节点进行匹配,就可以获得实时的:盈利概率(参数v)
   参数v,根据预设的交易阀值K,便可进行买、卖、忽略等预设操作。
  
3、实际操盘,采用群组交易,测试表明,针对单一对象的分析预测,远低于多个对象的群组分析。
   经验表明,对整个数据级,5-8%左右的筛选结果,盈利概率(参数v)相对较高


目前我们采用的数据源是足彩数据,原因如下:
1,2012年,初期采用国内股票交易数据,自己编程并下载了国内开盘以来历年的日数据,五分钟交易数据,量太大,而且不完整。
  股票数据,作为数据源,有个先天缺陷(目前可能可以弥补,见后文),股票交易,只有时间一个维度,无法进行交叉分析,同一只股票,同一个时间节点,没有横向对比参数。
2、2013年开始,采用足球博彩数据作为分析数据源,因为同一场比赛,全球有数百家公司同时提供横向的对比数据,同时,同一个公司,同样的赔率,可以提供纵向的对比数据。
    当然,还有同一只球队、不同联赛等数据,并未采用。
    未采用,一方面是限于数据规模,运算速度,另外一方面,是实战测试,数据越多,反而会影响精度。
    

 通过一年的盘前数据分析,相关模型不断优化,目前,盈利概率(参数v)已经超过95%

近期,对比检索了国内数十家相关网站,包括百度、谷歌、微软的世界杯足彩、人工智能项目、大数据项目,以及相关的博彩分析平台,

这个指标,应该是目前行业最高的

   
以上是个人的一家之言,仅供参考。

技术博客:http://blog.sina.com.cn/zbrow


【补充】  基于大数据的量化投资、股市系统,验收标准,摘自QQ对话

注意下盈利参数V,其他都是技术细节

目前大盘整体波动大,要和大盘平均指数比,不然没有意义

另外,注意稳定性,取2-3个月的周平均指数,看看系统模型有没有bug


QQ群 247994767(delphi与halcon) 【zw版《delphi与halcon系列原创教程》,网址,cnblogs.com/ziwang/ 】 QQ:2592439395(zw) , delphi+halcon,图像分析神级配置, 分分钟秒杀 c+opencv,python+opencv,c+matlab, 以及其他各种组合
原文地址:https://www.cnblogs.com/ziwang/p/9500416.html