前面提到我们针对期货交易所公开发布的交易数据进行整理的目标是将期货交易所发布的原始数据按照期货品种和交易所会员进行分类梳理,并建立起期货品种与交易会员之间的关系。为此,我们在前面讲了大概思路,需要熟悉原始数据的结构,明确需要梳理出来的结果数据结构,接下来就是想办法把原始数据进行分解关联汇总按照我们需要的结构进行输出。
由于数据梳理汇总统计过程涉及很多细节,我想了半天也没想好怎么顺序的把这个过程讲明白,这里我干脆采用结果反推的方式做一个简单介绍,看到结果结合前面介绍过的原始数据格式,再加上我的简单介绍希望能让大家明白这一步数据梳理的技术技巧。
首先看看行情数据梳理结果,我对行情数据梳理结果分为合约行情数据和品种行情数据两类,其中合约行情数据梳理结果如下图:
如上图所示合约行情数据和大家在交易所网站上直接浏览的数据结构非常接近,比如郑州期货交易所下载的行情数据Excel文件格式如下:
比较之下我们只需要将日期单独作为一列放,将合约代码前两位分离出来作为品种代码,并且关联品种代码写入名称即可,注意这里品种代码名称对应表在做数据梳理之前可以手动制作一份,因为数据有限所费工时很少。
三大交易所(包括金融期货交易所以及广州期货交易所就是五大,目前重点关注三大)每天的合约行情数据梳理出来大概有1000条左右的数据,由于合约持续时间一般就几个月,对于我们分析较长时间短的行情非常不利,所以有必要合并生成品种行情数据,三大交易所所有商品一共也就几十个,下面是对上海期货交易所商品合约行情进行合并之后形成的品种行情数据例子:
可以看到,有了合约行情数据,进一步生成这个品种行情数据是比较容易的(假定你对数据处理有一定经验,如果你纯手工做这个工作其实就不太建议了),其中关键点就是计算加权价格,这个大家可以按照自己对指标的定义要求设置计算公式,我是简单的对价格按照持仓量进行加权计算的,其他几个指标如持仓量,成交量等就是简单的算术求和。
接下来看看持仓成交数据,持仓成交数据相比较行情数据的处理要麻烦很多,因为交易所持仓成交数据发布的是当日排名前20名的数据,而且格式按照分栏形式进行发布,对于数据拆分关联有比较搞得技巧要求,下图是我这边梳理出来的合约持仓成交数据成果图:
合约持仓成交数据看上去并没有什么特点,下面看看期货交易所下载的持仓成交排名数据Excel文件样子,大家可以对照一下,看看哪些地方需要如何处理:
对比之下说起来其实也不复杂,无非就是把原始Excel数据中的多余行列删除,将日期,合约代码另起数据列进行填充,之后再从合约代码提取品种代码关联商品名称完成第一步;第二步就是拆分多仓空仓和成交数据,形成独立的多仓空仓成交数据;第三步就是对多仓空仓成交数据进行关联就可以得到上面我们需要的数据格式了。
一旦合约持仓成交排名数据搞定,那恭喜你商品持仓成交数据基本也搞定了,下图是对合约持仓成交数据进行合并之后的数据结构:
上图就是我处理的期货商品合并持仓成交数据,除了对持仓成交进行了合并,同时关联了行情数据得到了价格信息,到此我相信你应该也知道该怎么用这个数据了吧。
后记,这一篇想了好久都不知道怎么写,今天周末正好有空,干脆就通过结果数据和原始数据的对比方式来粗略描述一下数据梳理中的一些关键点,具体工作的开展如果你准备纯手工来做这个数据我就建议不要去弄了,一天的商品种行情数据接近100条,合约行情数据接近1000条,商品品种此仓成交数据接近5000条,商品合约持仓排名数据数万条,手工玩出来数据也失去了时间价值。如果你熟悉程序开发,或者会一些数据处理工具的话可以试验一下,最后分享一个利用该数据我做出来的数据展现效果: