当前位置: 首页 > 免费论文下载 > 综合管理
论文服务

时间序列中随机型缺失数据的填补及预测效果比较

时间:2013-01-28来源:易品期刊网 点击:
  时间序列中随机型缺失数据的填补及预测效果比较
  【提要】目的本文旨在通过填补时间序列资料中的随机型缺失数据并拟合ARIMA 模型,比较三种填补方法的填补和预测效果.方法利用SAS 产生平稳、有周期性的时间序列并构造不同比例的随机型缺失,分别采用周期性填补法、均值填补法和三次样条函数插值法进行缺失数据的填补,并对填补后序列拟合ARIMA 模型进行序列预测.采用配对t 检验对三种填补方法的填补误差和序列预测误差进行比较.结果三种填补方法的填补值与真值的差异均无统计学意义( P > 0. 05) ; 随着缺失比例的增大,周期性填补法的填补误差和序列预测误差均小于三次样条函数插值法和均值填补法.结论周期性填补法对于含有确切周期信息的时间序列缺失数据,填补效果较优.
  【关键词】缺失数据,时间序列,填补,周期性,三次样条
  缺失数据是医学应用研究中普遍存在的实际问题.在对医学时间序列数据进行建模预测时,序列的长度和完整性对拟合模型的可靠性有影响.医学时间序列的观测值具有不可重复的特点,缺失数据的随意插补或跳过,使拟合的模型难以很好地反映纵向数据的规律,制约了时间序列在医学领域的应用.因此,如何合理填补时间序列资料中的缺失数据,进而拟合合适的数学模型是医学时间序列应用中需要解决的一个重要问题.
  目前,针对时间序列缺失数据处理的技术主要基于时域信息,如删除法、均数填补法、极大似然估计法、三次样条函数插值法等〔1,2〕.实践表明,三次样条函数插值法是一种思路简明、效果较优的补缺方法.这些方法共有的一个缺陷是,未能利用时间序列中蕴含的周期信息.为此,本文探讨一种基于序列周期信息,以不同周期的谱峰值作为权重的缺失数据填补方法,并利用模拟时间序列数据考核其填补效果.
  资料与方法1. 模拟序列在SAS9. 1 的软件环境下,利用正弦函数Y = abs( sin( ωx) ) 和正态分布函数ε = μ + sqrt( σ2 ) × rannor( seed) ,模拟产生μ = 0,σ2 = 1,随机波动水平的月度时间序列,序列的周期设置为3、6 和12 个月.序列的起始时间设为1962 年1 月1 日.模拟序列长度设置为N = 300.
  随机型缺失数据的构造: 利用SAS 为模拟时间序列数据产生正态分布的随机数,根据随机数的秩次依次将缺失数据的比例设置为5%,10%,15%,20%,25%, 30%, 35%, 40%共8 个档次.
  2. 缺失数据填补方法( 1) 均值填补法: 以序列均数作为缺失数据的填补值.
  ( 2) 三次样条函数插值法〔2〕三次样条函数插值法是时间序列中缺失数据填补的常用方法之一.设函数f( x) 在给定区间[a,b]上有定义,其中a = x0 < x1 <… < xn = b 是给定的n + 1 个插值节点,若S( x) 满足条件: ①S( x) 在每个小区间[xj,xj + 1]上是三次多项式; ②S( x) 在每一个内节点上,S( x) ∈C2[a,b]; ③S( x) 在所有节点内满足S( xj) = f( xj) .则称S( x) 是节点x0,x1,…,x n上的三次样条函数.为了构造特定的样条插值函数,还需增加边界条件的限制.边界条件可根据实际情况来确定,不同边界条件下S( x) 的表达式可以有多种表现形式.本文针对时间序列的三次样条函数插值法,由SAS9. 1 软件环境下的PROC EXPAND 过程实现〔3〕.
  ( 3) 基于序列周期信息的填补法( 下文简称作周期性填补法)① 以序列均值作为缺失数据的初始填补值; ②利用周期图峰值检验的方法搜索序列中有统计学意义的m 个隐周期,用I1,I2,…,I m表示对应周期的谱峰值; ③ 基于m 个周期,分别计算不同周期位置上序列的均数,将第i 个缺失位置上的m 个均数记为Xi( 1) ,…,Xi( m) ; ④ 以周期峰值I1,I2,…,Im作为权重,获得第i 个缺失位置的加权填补值^X i:
  ( 1)式中i 表示缺失数据序号i = 1,2,…,n,j 表示隐周期序号j = 1,2,…,m;⑤ 用步骤④中填补后的完整序列,重复步骤②、③ 和④,直到前后两次填补值的相对改变量δ≤0. 01或迭代次数大于100 次时,停止迭代,获得缺失数据的最终填补值.本文通过搜索周期图的峰值个数来确定隐周期的初始个数r,周期性检验的方法采用Priestley( 1981) 和Chiu( 1989) 提出的检验统计量〔4〕.
  3. 填补效果比较( 1) 填补误差采用均方根误差( RMSE) 和平均绝对误差〔5〕( MAE) 量化填补值与真实值之间的填补误差.
  RMSE = 1nΣnj = 1( Pi - Oi) 槡2,MAE = 1nΣni = 1| Pi - Oi |( 2)其中,n 为缺失数据序号i = 1,2,…,n,Pi表示填补值,Qi表示真实值.
  以缺失个数n 为样本量,用配对t 检验比较各填补方法的填补值与真值的差异; 同时调整检验水准为α'
  = α/2 = 0. 05 /2 = 0. 025,比较均值填补法、三次样条函数插值法与周期性填补法的绝对填补误差( | 真实值- 填补值| ) 的差异.
  ( 2) 绝对预测误差采用自回归移动平均求和模型进行时间序列的模型拟合及序列预测,简记为ARIMA( p,d,q) ,其表达式为〔6〕:
  Φ( B) ( 1 - B) dxt = Θ( B) εt( 3)式中,p 和q 分别表示自回归和移动平均的阶数,d为差分的阶数,Φ( B) = 1 - φ1B - …- φpBp,为p 阶自回归系数多项式.Θ( B) = 1 - θ1B - …- θqBq,为q 阶移动平均系数多项式.
  按照时间顺序逐段选择观测长度为120 的序列片段,进行提前期l = 1 ~ 12 的预测( 即t1 = 1 ~ 120,t2= 2 ~ 121,…) ,直至预测末期观测值为时间序列的末值,确保能够从实测值得到预测误差.以推移次数( n') 作为样本量,以三种方法的绝对预测误差( 绝对预测误差= | 真实值- 预测值| ) 作为变量,进行配对t 检验,比较均值填补法、三次样条函数插值法与周期性填补法绝对预测误差的差异( 其中检验水准调整为α' = α/2 = 0. 05 /2 = 0. 025) .绝对预测误差小的填补方法,其填补效果较优.
  结果1. 不同缺失比例下三种方法的填补值与真值的差异表1 结果显示,三种方法的填补值与真值之间的差异均无统计学意义( P > 0. 05) .进一步绘制不同缺失比例下,三种方法填补值的平均误差线图.图1 显示,周期性填补方法的曲线与参考线间的距离最小,而三次样条函数插值法的曲线与参考线间的距离最大.2. 不同缺失比例下三种方法填补误差的比较表2 为均值填补法、三次样条函数插值法与周期性填补法的绝对填补误差的比较结果.当缺失比例大于15%时,周期性填补法的绝对误差小于均值填补法( P < 0. 025) ; 此外,在各缺失比例下,周期性填补法的绝对误差均小于三次样条函数插值法对应的绝对误差( P < 0. 025) .
  图2 为不同缺失比例下,三种填补方法填补值的平均绝对误差( a) 和均方根误差( b) 的曲线图,周期性填补方法的平均绝对误差和均方根误差的曲线均始终位于均值填补法和三次样条函数插值法所对应曲线的下方.
  3. 缺失数据填补后序列拟合模型的预测误差比较为了进一步比较三种方法的填补效果,由序列自相关函数和偏自相关函数,对模拟时间序列进行模型识别,最终确定原始序列的模型形式为:
  图1 不同缺失比例下三种填补方法填补值的平均误差Chinese Journal of Health Statistics,Dec 2012,Vol. 29,No. 6 ·791·( 1 - B12 ) xt = ( 1 - φB) ( 1 - φB12 ) εt( 5)利用此模型对三种方法填补后的完整序列建模并进行提前期l = 1 ~ 12 的预测.在中期( l = 6) 和远期( l = 12) 的预测中,除缺失比例等于10% 的情况,周期性填补法填补序列对应的预测误差均小于均值填补法和三次样条函数插值法.此外,在近期( 提前期l = 1)的预测中,当缺失比例大于10% 时,周期性填补法填补序列对应的预测误差小于均值填补法.图3 显示,在缺失比例小于10% 的情况下,三种方法的绝对预测误差的差别不大; 随着缺失比例的增大,三次样条函数插值法的绝对预测误差呈上升趋势;均值填补法和周期性填补法的绝对预测误差均减小.
  同时,趋势图显示周期性填补法所对应预测误差的曲线始终位于均值填补法和三次样条函数插值法所对应曲线的下方.时间序列数据是按照时间顺序取得的一系列观测值,其典型的特征是相邻观测值之间存在相关性,使得时间序列观测值相互间不独立,从而致使通常的针对独立数据的缺失数据填补方法在时间序列中不再适用.
  本文针对基于时间序列周期信息的缺失数据加权填补方法〔7〕,利用模拟数据从填补误差和预测误差两个方面对填补方法的填补效果进行考核.结果显示,三种方法的填补值均可以较好地估计出真实值,同时缺失比例大于15%时,周期性填补法的填补误差是三种方法中最小的.在提前期l = 1、6、12 的预测中,缺失比例大于10%以后,周期性填补法填补序列的预测误差小于均值填补法和三次样条函数插值法.此外,对于均值填补法,由于样本均数在不同位置的多次出现,容易导致低估变量的变异程度,进而扭曲原始样本的分布状态〔8 - 9〕.
  综上所述,结合时间序列的周期信息,进行加权填补的效果优于普通的只利用时域信息的缺失数据填补方法,尤其是对于缺失比例较大的情况.另外,需要说明的是,周期性检验是"周期性填补法"的关键步骤之一,对于未蕴涵确切周期信息的时间序列,周期性填补法将不再适用.
  • 认准易品期刊网

1、最快当天审稿 最快30天出刊

易品期刊网合作杂志社多达400家,独家内部绿色通道帮您快速发表(部分刊物可加急)! 合作期刊列表


2、100%推荐正刊 职称评审保证可用

易品期刊网所推荐刊物均为正刊,绝不推荐假刊、增刊、副刊。刊物可用于职称评审! 如何鉴别真伪期刊?

都是国家承认、正规、合法、双刊号期刊,中国期刊网:http://www.cnki.net 可查询,并全文收录。


3、八年超过1万成功案例

易品期刊网站专业从事论文发表服务10年,超过1万的成功案例! 更多成功案例


4、发表不成功100%全额退款保证

易品期刊网的成功录用率在业内一直遥遥领先,对于核心期刊的审稿严格,若未能发表,全额退款! 查看退款证明

特色服务
杂志社内部绿色审稿通道,快速发表论文
发表流程
论文发表流程
专题推荐