返回
经济运行指标与股市指数之间的回归分析

经济运行指标与股市指数之间的回归分析

时间:2009-5-27 15:00:57  [下载该文章]  [会员注册]
经济运行指标与股市指数之间的回归分析regressionanalysisontherelationshipbetweeneconomicindicesandstockmarketinde【摘要】本文主要采用多重回归分析的逐步回归法(stepwise)和logistic回归来分析经济运行指标与股市指数之间的关系。通过对数据统计学意义上的解释来定量研究各经济指标对股市指数的影响。最后的分析发现,在所有7项经济类别指标中,代表对外经济的进出口差额对股市指数变化的影响最大,居民消费价格指数、固定资产投资与股市指数也有一定的相关。而其他指标则不具有十分明显的影响力。【abstract】thisarticleismainlyaboutregressionanalysiswithbothstepwiseandlogisticontherelationshipbetweeneconomicindicesandstockmarketinde.throughdataeplanationotatisticsenseitdiscussedtheeffectofeconomicindicesonstockmarketinde.thefinalresufoundthat,withinalhesevenclassifiedeconomicindices,onlytheneteportinrepresentativeofinternationaradeaccountsforthelargesteffect,andcpidoesshowcertainrelationshipaswellbuttheremainingindicesdonthaveanyobvioussignsdemonstratinheirrelationshipwithstockmarketinde.【关键词】多重回归分析,logistic回归,经济运行指标,股市指数【keywords】muivariateregressionanalysis,logisticregression,economicindices,stockmarketinde作者简介:梁孝博(1978年4月),男,出生于上海,加拿大布洛克大学mba,曾工作于世界金融集团加拿大分部,中智国际教育咨询有限公司。担任过麻省理工大学公开课程网站的课程翻译编辑,著有blackshole在股价预测上的应用等文章。1.导论本文主要采用多重回归分析的逐步回归法(stepwise)和logistic回归来分析经济运行指标和股市指数之间的关系。根据一般多因素资产定价模型,资产的期望回报率可由若干因素的多重线性方程来表示:e(ritzt1)=lambda0(zt1)bi1lambda1(zt1)biklambdak(zt1),(1)i=1,.,n,t=1,,t,其中rit=资产i在时间t1与t之间的回报,lambdak(zt1)=在第k个潜在因子上的期望风险溢价,zt1=在时间t的可用市场信息,bi1,,bik=资产i的固定条件系数n1=所有资产的数目(nk),t=时间段的数目在方程(1)中,风险溢价lambdak(zt1)是允许变动的,但条件系数bik是被认作固定值,反映潜在因子与期望回报率的关系。本文的分析基于以上模型,先假定各经济运行指标和股市指数之间存在不同程度的关联,然后用统计方法来探究这些关系的强弱。2.数据及来源经济运行指标是根据各指标在其类别内与股市有最大可能联系这一标准来选用的,选用的指标与其代表的类别如下:1.工业增加值增长率工业2.居民消费价格指数(当月)价格3.固定资产投资完成额(亿元)固定资产投资与房地产4.社会消费品零售总额(亿元)国内贸易5.一美元折合人民币(期末数)、国家外汇储备(亿美元)国际市场6.m1流通中货币(亿元)金融7.进出口总值(亿美元)、进出口差额(亿美元)对外经济除了第5和第6项指标取自于中国人民银行的数据统计(.pbc.gov/diaochatongji/tongjishuju/,北京时间:2008722),第7项取自于中华人民共和国商务部综合司(zhs.mof.gov/tongji.shtml,北京时间:2008722)外,其余数据2003年之后的皆取自于中国国家统计局,2003年之前的采用的是中宏网的数据。数据采用2000年1月至2008年5月的月度指标,每项经济指标下含101个样本数据,与股市指数相对应。股市指数采用的是上市综合指数,系2000年1月至2008年5月调整后的每月期末数,数据来源于雅虎财经。一共101个样本数据,与经济运行指标相对应。3.分析3.1简化后的方程y=ab11b22bkkept,(2)方程(2)是方程(1)简化后的模型,可以比较直观的看出,上市综合指数相当于方程中的应变量y,而各项经济指标相当于方程中的自变量。本文中用于多重回归分析的自变量共有7项,其中代表国际市场和对外经济的分别有两个备选,在分析的过程中最后选取了国家外汇储备和进出口差额(见3.3和3.4)。7个自变量对应101个样本数据,满足了平均每个自变量15个样本数据的必要条件。3.2缺失值分析对2000年1月至2008年5月一共101个样本案例的缺失值做图样分析。变量顺序为工业增加值增长率(1)、居民消费价格指数(2)、固定资产投资完成额(3)、社会消费品零售总额(4)、一美元折合人民币(期末数)(6)、国家外汇储备(7)、m1流通中货币(8)、进出口总值(9)、进出口差额(10)和上市综合指数(11)。~表示存在的值,表示缺失的值,所得结果如下:表1缺失值(missstr)图样分析frequencypercentvalidpercentcumulativepercentvalid8382.282.282.2~98.98.991.144.04.095.033.03.098.0~22.02.0100.0total101100.0100.0从表1中发现,在101个样本案例中有83个不存在缺失值,占总数的82.2。28个案例中有1个或2个缺失值,其中第3位(固定资产投资完成额)缺失的占总数的8.9,为最多的缺失类型。综合来看,缺失值的情况并不严重。另外,对变量的缺失值做组别ttest,在0.05的水平上,没有发现变量的缺失值之间存在重要的相互影响。相关系数分析的结果也支持相同的结论。详见附表1和附表2。3.3正态性测试因为样本案例大于50个,所以采用kslillieforstest来做数据的正态性测试。表2的测试结果表明,除了货币变量的ks重要度值超过0.05水平外,其余变量数据均未达到正态性要求(更直观的可以看附图1~18中的各变量数据直方图和正态qq图)。为此,对除货币以外的各变量数据分别做求平方根、对数和倒数的变形处理。变形后的重要度值见表2的右半部分。可以看到,工业增加值增长率的平方根达到了0.052的水平。固定资产投资完成额,社会消费品零售总额,国家外汇储备和进出口差额的对数都在重要度水平上有了一定的变化,但变化并不显著,具体选择何种形态的数据还要综合考虑线性的测试结果。表2testsofnormalitykolmogorovsmirnov(a)调整后的kssig.valuestatisticsig.平方根对数倒数工业增加值增长率.13683.001.052.000居民消费价格指数(当月).18083.000.000.000.000固定资产投资完成额(亿元).10683.023.024.034.000社会消费品零售总额(亿元).12783.002.003.022.006一美元折合人民币(期末数).34383.000.000.000.000国家外汇储备(亿美元).14583.000.001.020.000m1货币(亿元).08083.200进出口总值(亿美元).11983.005.001.001.000进出口差额(亿美元).19483.000.000.016.000thisisalowerboundofthetruesignificance.alillieforssignificancecorrection3.4线性测试对应变量上市综合指数和每个自变量的原始值、平方根、对数、平方依次做散点分布图,可以比较直观的观察它们之间是否存在线性关系。从散点分布图来看,工业增加值增长率的平方根与上市综合指数的线性关系,相比其原始值与上市综合指数的线性关系并没有很明显的差别(见附图19)。进一步研究它们与应变量的相关性,可以发现在相关系数的数值上也相差不大。同样的情况出现在其他自变量,即变形后的数据在线性关系上比其各自的原始值并没有改进,反而出现了不同程度的弱化。根据原始数据优先的原则,在没有太大改进的情况下,在下一步的分析中还是以原始数据为主要分析对象。鉴于一美元折合人民币的数据正态性太差,所以就国际市场这一项选用国家外汇储备作为最后分析的变量。此外,进出口总值和进出口差额这两个变量的数据无论在正态性和线性方面表现都差不多,考虑到后者更多用于经济学分析,因此进出口差额将作为对外经济的代表进入最后的分析。3.5逐步回归分析(stepwise)在逐步回归分析中,有几点是需要注意的。首先是多重共线性,即当各自变量之间存在非常紧密的相互关系时,那么这些变量就会重复解释在应变量中发生的变化。检验多重共线性主要通过计算每个变量的容许度(tolerance),在spss软件中用tol选项来规定容许度。比如,0.10水平的tol会去除关联度在95及以上的变量。因此,如果计算出来的容许度小于规定的tol,这样的变量会被剔除。其次,用durbinwaston的数值可以来判断残差的独立性,一般以2为中心,0~2区间的是正的相关,2~4的是负相关,2左右表示没有太大的相关。再次,用casewiseplot来遴选应变量的离群点,在本分析中采用了(3,3)的区间,超出此范围的即被认为是离群点。而自变量的离群点则是用mahalanobis的距离值来判断的。表3模型概述从表3逐步回归分析的模型概述,可以发现最后的模型依次包括了进出口差额、居民消费价格指数、社会消费品零售总额、国家外汇储备和货币m1共五个变量。这五个变量一起解释了应变量上市综合指数71.3的变化(r2=0.713)。其中进出口差额单独解释了大约50的变化,说明进出口差额与上市综合指数之间存在重要的关系。加载在进出口差额上的标准beta系数也支持了这一结论。进一步观察表4回归模型的因子系数,可以看到社会消费品零售总额和流通中货币都呈现出与上市综合指数相当大的负相关。此外,国家外汇储备虽然在模型中排在第4位,但它的标准beta系数确是最高的。说明在同一标准下比较,国家外汇储备对上市综合指数的影响在各因素中是最大的。这与按照绝对系数排列的因素序列不一致。继续观察表4最后两栏tol和vif的值,发现在最后的模型中,社会消费品零售总额、国家外汇储备和货币m1这三个变量的tol都小于0.10,说明在回归分析的过程中,存在多重共线性。检查各变量之间的相关系数(见表5),其中社会消费品零售总额与固定资产投资完成额、国家外汇储备和货币m1这三个变量的相关系数都超过了90,国家外汇储备和货币m1之间的相关系数也超过了90,证实了前面的推测。但多重线形回归分析对变量的正态性和线性都有要求,而本分析中的绝大部分数据不满足这些要求,因此,仅凭此尚无法解释标准beta系数序列与绝对系数r2之间出现的不匹配。不过,相关系数表中进出口差额与上市综合指数之间的相关系数值是所有自变量中最高的,也间接的支持了进出口差额与上市综合指数之间存在重要的关系这一结论。表4回归模型各因子系数表表5各因子之间相关系数表3.6残差分析为了了解应变量上市综合指数中未能解释或有错误的部分,对残差做散点图和正态pp图分析。观察到的结果基本符合线性和正态分布的要求。而表3中的最后一栏显示durbinwaston的值为1.789,靠近中间数2,说明各案例的残差之间不存在非常严重的相互影响。然而表6关于残差的统计数据中,标准残差值(stdresidual)的最大值超过了3,说明应变量中存在一定的异常数据。通过计算mahalanobis距离值有可能小于5的案例,得到表7中的极值,可以发现异常值主要出现在2005年2月,2006年2月,2007年2月和6月,以及2008年2月。另外,通过计算cook距离,可以找出对回归分析结果有重大影响的个案。在本分析中,评判的标准是根据4/(案例数目ndash回归模型中自变量数目ndash1)计算的,即4/(101ndash5ndash1)=0.042,cook距离大于0.042的有10个案例,按照强弱顺序依次是2008年5月,2007年4月,2004年2月,2008年4月,2007年9月,2007年8月,2007年12月,2008年1月,2007年1月,和2007年11月。图1残差散点图图2标准残差pp图表6标准残差统计表residualsstatistics(a)minimummaimummeanstd.deviationnpredictedvalue18.71134579.82081982.7554978.1841596std.predictedvalue2.1512.568.0971.00496standarderrorofpredictedvalue94.517320.131167.21847.64996adjustedpredictedvalue18.71134901.41361980.5545984.8295696residual1778.393921986.0765477.57686643.4366596std.residual2.7853.110.1211.00896stud.residual3.0733.332.1171.03896deletedresidual2165.313482279.5373579.77783697.6868996stud.deletedresidual3.2593.578.1191.06096mahal.distance.80919.6215.0093.51996cookacutesdistance.000.342.019.05096centeredleveragevalue.010.239.061.04396adependentvariable:000001ssadjclose表7极值表3.7调整后的逐步回归分析(stepwiseafteradjustment)基于前面的分析,可以看到多重共线性和离群点都有可能造成模型精准度的降低,而这两个因素是可以调整的。因此,从样本案例中去除掉前面分析出来的10个离群点,从变量中去除掉社会消费品零售总额(因为它与其它变量发生高相关性的频率最多),新的分析样本包括91个案例,6个自变量,对应的比例约为15:1,依然满足样本充足性的要求。得到的结果如下:表8调整后的逐步回归分析模型概述表9调整后的回归模型各因子系数表新的模型只包括了进出口差额、居民消费价格指数和固定资产投资完成额这三个变量,而且它们对模型绝对系数r2的贡献大小与它们的标准beta系数值的大小序列一致。解决了前一个模型中的问题。同时还可以发现,被包含在模型中的各变量其容许度tol均大于0.10,说明在新的模型中,多重共线性已不是大问题。不过也应该看到,新的模型调整后的r2只有49.7,比前一个模型下降了约20。此外,新的模型表明固定资产投资完成额对应变量上市综合指数变化的影响是负相关的。换而言之,固定资产投资增加会导致股市指数的下降。这与许均华、李启亚等在我国经济、股市与政策之间关系的实证研究一文中的结论相反。不过该文中的数据主要是1982年至2000年的季度数据,与本文中使用的样本不同,因此出现这样的结果还有待进一步的研究。3.8logistic回归分析多重线性回归分析一般要求变量服从正态和线性分布的条件。而前面提到,本分析中的绝大部分数据不满足这些要求,因此前面多重线性回归分析的结果会在一定程度上被扭曲。logistic回归分析则对变量要求宽松的多,只要求应变量是分类变量。为了确认前面多重线性回归分析的结果,这里对数据作logistic回归分析,同时也提供两种方法结果的比较。由于多重共线性对logistic回归亦有影响,因此在下列分析中,社会消费品零售总额不在自变量序列中。这样,样本共包括6个自变量,依次是工业增加值增长率(1)、居民消费价格指数(2)、固定资产投资完成额(3)、国家外汇储备(7)、m1流通中货币(8)和进出口差额(10)。对应变量作二项分类,主要方法是将指数转换为每月的增减变化,如果当月指数相对于前一月减少,那么这个月的应变量值就设为1,如果当月指数相对于前一月增加,那么值就设为0。这里logistic回归分析的兴趣在于研究各自变量对股指影响的方向。表10单变量分析结果(variablesnotintheequation(a))scoresig.step0variables1.2121.6462.1371.7113.4891.4857.4311.5128.2031.653104.5661.033aresidualchisquaresarenotputedbecauseofredundancies.从表10的结果来看,在0.05的检验水准下,可初步认定只有变量10(进出口差额)与应变量之间的联系具有统计学意义,其余5个变量与应变量之间的联系无统计学意义。这一点似乎加强了逐步回归模型中的结论,即进出口差额对发现股指变化有意义。表11全局性检验下的模型概述modelsummarystep2loglikelihoodcoampsnellrsquarenagelkerkersquare198.590(a).170.228aestimationterminatedatiterationnumber5becauseparameterestimateschangedbylessthan.001.表12分类表从表12可以得出此模型的灵敏度=64.9,特异度=80.4,漏诊率=35.1,误诊率=19.6。表13全局性变量分析最后,表13证实了在logistic回归分析模型中,只有变量10(进出口差额)具有统计学意义,换而言之,进出口差额的变化可以用于预测股市指数的变化,而其它变量则均不具有十分明显的与股市指数之间的联系。不过,如果将各指标数据转换成各自的百分比变化,重新做logistic回归分析,会发现居民消费价格指数会被包含在新的模型中。说明在数据指导的意义转变后,居民消费价格指数也会具有统计学意义。即,居民消费价格指数数据本身也许不十分明显的影响到股市指数,但居民消费价格指数的月际间变化会影响到股市指数的变化。4.结论根据以上一步步分析的结果,不难看到进出口差额与股市指数之间存在重要的联系。说明对外经济的好坏在一定程度上可以作为股市指数的晴雨表。而对于其它经济指标,除了居民消费价格指数,至少在统计学上并不明显影响股市指数。事实上,在campbellr.harvey、brunosolnik和guofuzhou(1994)关于国际市场上期望资产回报率的决定因素的研究中,已经指出至少存在着一个世界性的因子影响到资产的回报率。虽然汇率风险和外汇储备都在不同程度上表现出本国经济与世界市场的联系,但从目前的分析的来看,它们的影响并不如期望的那么高。因此,进出口差额在研究股市指数变化时应当受到更多的重视。

>

相关推荐