janezhang
关于大型数据处理,如果现在是一个csv.文件(差不多有2G),里面有上千万条纪录,三十多个变量。我们主要用到的变量是 DATE TICKER VOLUME. 如果有几百家公司,每一家公司每一天都有关于交易量的上百条数据。 首先需要对每一家公司每一天的交易量算一个平均值。
然后再对每一家公司进行关于event study的研究 ,求出不正常交易量也就是abvolume 简单来讲,就是把发生事情日期定义为t那么要研究的事件时间段就是[t-20,t+10]这一段时间我们称之为不正常事件段而与它比较的正常时间段是[t-81,t-21],把对正常时间段每天的交易量取自然对数然后再取平均来表示正常交易量,也就是说这时候算出来的正常交易量是一个常数。用不正常时间段每天的交易量减去刚刚定义的正常交易量也就是那个常数来表示每天的非正常交易。然后就可以把 t之前20天的每天的不正常交易量加起来的到我们要的不正常交易量。
我的主要问题是怎样对这么大的数据进行处理, 怎样先求出每一家公司(by ticker)每一天(by date)的交易量(volume)的平均值, 然后是计算求出不正常交易量也就是abvolume ,每一家公司一年差不多有十几天是EVENT DATE, 几百家公司应该怎样处理呢?
望高手赐教,谢谢了。