R資料分析暨導引系統

首頁 » 分析方法 » 整合移動平均自我迴歸模式(ARIMA)

整合移動平均自我迴歸模式(ARIMA)
AutoRegressive Integrated Moving Average model, ARIMA model

方法簡介
範例F-1(1)
範例F-1(2)
影音教學
維基百科(英文)

ARIMA為時間數列分析中常見的方法，由三部分組成，首先由自我迴歸(autoregressive, AR)與移動平均(moving average, MA)組成ARMA模式，再加入整合(integrated)成為ARIMA，使時間數列模式更具一般化(generalized)及完整性，其中整合亦指進行差分(difference)。 ARIMA主要處理具時間相依性的資料(依變數)；例如，以年、季、月、週及日等時間週期記錄的資料。若資料頻率以每日一次、每小時一次、每分一次或每秒、甚至小於秒為記錄單位，則稱高頻率資料，此類型資料通常有群聚(clustering)效應或在配適模式後其殘差具異質變異數，此時建議改以廣義自我迴歸條件異質變異模式(generalized autoregressive conditional heteroskedastic model, GARCH) 分析。

本方法使用之R相關套件與參考文獻：
相關套件：stats、base、TSA、 forecast 、nortest
參考文獻：(依套件名稱排序)

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL： http://www.R-project.org/.
Kung-Sik Chan and Brian Ripley (2012). TSA: Time Series Analysis. R package version 1.01. URL：http://CRAN.R-project.org/package=TSA
Rob J Hyndman with contributions from George Athanasopoulos, Slava Razbash, Drew Schmidt, Zhenyu Zhou, Yousaf Khan, Christoph Bergmeir and Earo Wang (2014). forecast: Forecasting functions for time series and linear models. R package version 5.0. URL：http://CRAN.R-project.org/package=forecast
Juergen Gross and bug fixes by Uwe Ligges (2012). nortest: Tests for Normality. R package version 1.0-2. URL：http://CRAN.R-project.org/package=nortest

範例F-1：

民國六、七十年代台灣經濟發展快速，中小企業林立，增加營收為公司企業首要的目標。由於各行業性質不同，公司營收易受外在因素的影響。例如遊樂園與線上遊戲公司在學生放寒暑假期間生意明顯較好；火鍋與冰品業之營收則受到季節與天候因素影響。對此，公司在經營策略上需有所調整。某上市水泥公司總經理想了解公司的營收狀況是否受到特定時間、季節因素或公司人事支出的影響。例如，特定的時間與季節可能需要不同數量的聘雇人員來對應營運狀況，以及當較高的人事成本支出時是否能創造出較好的收入。針對這些問題，該總經理請會計室收集了14年的月營收資料及該月的人事成本支出，起迄時間為87年1月至100年9月，共有165筆，資料內容為當月該公司的淨獲利與人事成本(單位千元)，資料列於下表

時間(月/年)	1/87	2/87	...	9/100
月營收	161829	134109	...	165211
人事成本	3727	3847	...	3597

Q1：公司主管想了解該公司的月營收是否因不同月份或季節而有所差異?
問題解析：此處想了解月營收是否因不同月份或季節而有所差異，表示變數月營收與時間有關聯性，適合時間數列分析。
統計方法：問題中研究的變數為月營收；想了解其是否會因不同月份或季節的影響而有所差異?建議選擇時間數列分析中：整合移動平均自回歸模式(ARIMA)，分析"月營收是否受月份或季節影響"。

整合移動平均自我迴歸模式(ARIMA) - 分析結果

分析方法：整合移動平均自我迴歸模式(ARIMA)
資料名稱：範例F-1
依變數名稱：income
變數轉換：不進行轉換
模式配適：系統自動選取最佳模式
- ARIMA(1,0,2) with non-zero mean
資料預測：保留最後10筆資料
計算時間：6.324秒
基本訊息：
- 時間數列圖：
- ACF圖：
- PACF圖：
- 白噪音(平穩性)檢定：
  
  虛無假設：資料不為白噪音(資料不是平穩數列)
  
  D-F統計量^I
  D-F statistic p值
  p-value
  
  -2.9377 0.1855
  
  I：Augmented Dickey-Fuller檢定

模式配適：

模式係數估計：

係數
coefficient 估計值
estimation 標準差
Std. err. t-統計量
t-value p-值
p-value
INTERCEPT 241467.9673 37235.9411 6.4848 < 1e-04
AR1 0.9372 0.0528 17.75 < 1e-04
MA1 0.4991 0.097 -5.1454 < 1e-04
MA2 0.2556 0.0836 -3.0574 0.0026

模式配適訊息：

σ² 1.581e+10

AIC^I 4090.33

AICc^II 4090.73

BIC^III 4105.55

Log likelihood -2040.17

I：Akaike Information Criterion
II：Akaike Information Criterion correction
III：Bayesian Information Criterion
實際值與配適值時間數列圖(藍色虛線為配適值)：

殘差分析：

殘差時間數列圖：
殘差常態機率分布(Q-Q)圖：
殘差ACF圖：
殘差PACF圖：

殘差資料平穩性(stationary)檢定：

虛無假設：資料不為白噪音(資料不是平穩數列)

檢定方法
method 統計量
statistic p值
p-value

擴充Dickey-Fuller檢定 -4.8868 < 0.01

Phillips-Perron單根檢定 -151.3988 < 0.01

殘差資料常態性(normality)檢定：

虛無假設：資料服從常態分配

檢定方法
method 統計量
statistic p值
p-value

Shapiro-Wilk檢定 0.5017 < 1e-04

Cramer-Von Mises檢定 3.7967 < 1e-04

Shapiro-Francia檢定 0.482 < 1e-04

殘差資料獨立性(Independence)檢定：

虛無假設：資料互相獨立

檢定方法
method 卡方統計量
Chi-square statistic 自由度
d.f. p值
p-value

Box-Pierce檢定 0.0129 1 0.9094

Box-Ljung檢定 0.0132 1 0.9085

資料預測：

預測值資料表：

資料筆數 真實值 預測值 絕對誤差百分比%^I
156 386934 349553.1663 9.6608
157 381705 345037.7191 9.6062
158 234813 338535.6868 44.1725
159 220891 332441.8473 50.5004
160 177228 326730.5746 84.3561
161 182413 321377.8513 76.1814
162 149782 316361.168 111.2144
163 152432 311659.4284 104.458
164 171336 307252.8605 79.3277
165 165211 303122.9336 83.4762
I：絕對誤差百分比 = |(真實值 - 預測值) / 真實值| * 100 %

平均絕對誤差百分比%(MAPE)：65.3%
預測值與真實值比較圖(藍色虛線為預測值)：

[重新分析]

範例F-1：

民國六、七十年代台灣的經濟起飛，各行各業的發展迅速蓬勃，而經濟發展快速進而使得台灣的中小企業林立，各種類別的行業都有，不管何種的公司行號，只有一個共同的目標就是增加營收。但是由於行業種類與性質的差異性，常使得公司的營收受到各種外在因素的影響，例如遊樂園與線上遊戲公司可能受到寒暑假期的影響，寒暑假期學生放假，兩種類型的行業生意明顯的較好；火鍋類與冰品類餐飲業者則可能受到季節與天候的影響，冬天火鍋類餐飲業生意較好，冰品類較差，而夏天則有可能完全相反；基於這些因素的影響常常會導致公司在經營策略上的調整。有一家頗具規模的上市水泥公司，該公司總經理想了解公司的營運狀況，是否受到特定時間或季節因素的影響。另外總經理也認為公司的人事支出也是一個可能影響收入的重要因素，不同的時間與季節可能需要不同數量的聘雇人員來對應營運狀況，而員工的薪資高低是否對於公司的收入造成影響，在較高的人事成本支出時是否能創造出較好的收入；針對這些問題，該總經理請會計室收集了14年的月營收資料及該月的人事成本支出，起迄時間為87年1月至100年9月，共有165筆，資料內容為當月該公司的淨獲利與人事成本(單位千元)，資料列於下表

時間(月/年)	1/87	2/87	...	9/100
月營收	161829	134109	...	165211
人事成本	3727	3847	...	3597

Q2：公司主管想了解該公司的月營收除了可能受時間季節性的影響外，是否也須考量人事成本?
問題解析：此處研究月營收是否受時間季節性與人事成本的影響?變數與時間有關聯性並加入一個帶有時間性的迴歸解釋變數”人事成本”，適合時間序列分析。
統計方法：建議選擇時間數列分析，採用整合移動平均自迴歸模式(ARIMA)分析方法。

整合移動平均自我迴歸模式(ARIMA) - 分析結果

分析方法：整合移動平均自我迴歸模式(ARIMA)
資料名稱：範例F-1
依變數名稱：income
自變數名稱：cost
變數轉換：不進行轉換
模式配適：系統自動選取最佳模式
- ARIMA(1,0,2) with zero mean
資料預測：保留最後10筆資料
計算時間：6.688秒
基本訊息：
- 時間數列圖：
- ACF圖：
- PACF圖：
- 白噪音(平穩性)檢定：
  
  虛無假設：資料不為白噪音(資料不是平穩數列)
  
  D-F統計量^I
  D-F statistic p值
  p-value
  
  -2.9377 0.1855
  
  I：Augmented Dickey-Fuller檢定

模式配適：

模式係數估計：

係數
coefficient 估計值
estimation 標準差
Std. err. t-統計量
t-value p-值
p-value
AR1 0.9384 0.0531 17.6723 < 1e-04
MA1 0.4811 0.0962 -5.001 < 1e-04
MA2 0.2851 0.0827 -3.4474 7e-04
cost 61.7602 9.3117 6.6325 < 1e-04

模式配適訊息：

σ² 1.571e+10

AIC^I 4089.41

AICc^II 4089.82

BIC^III 4104.63

Log likelihood -2039.71

I：Akaike Information Criterion
II：Akaike Information Criterion correction
III：Bayesian Information Criterion
實際值與配適值時間數列圖(藍色虛線為配適值)：

殘差分析：

殘差時間數列圖：
殘差常態機率分布(Q-Q)圖：
殘差ACF圖：
殘差PACF圖：

殘差資料平穩性(stationary)檢定：

虛無假設：資料不為白噪音(資料不是平穩數列)

檢定方法
method 統計量
statistic p值
p-value

擴充Dickey-Fuller檢定 -4.8546 < 0.01

Phillips-Perron單根檢定 -149.7347 < 0.01

殘差資料常態性(normality)檢定：

虛無假設：資料服從常態分配

檢定方法
method 統計量
statistic p值
p-value

Shapiro-Wilk檢定 0.5568 < 1e-04

Cramer-Von Mises檢定 2.8888 < 1e-04

Shapiro-Francia檢定 0.5376 < 1e-04

殘差資料獨立性(Independence)檢定：

虛無假設：資料互相獨立

檢定方法
method 卡方統計量
Chi-square statistic 自由度
d.f. p值
p-value

Box-Pierce檢定 0.0236 1 0.8778

Box-Ljung檢定 0.0241 1 0.8767

資料預測：

預測值資料表：

資料筆數 真實值 預測值 絕對誤差百分比%^I
156 386934 324283.062 16.1916
157 381705 355943.4255 6.7491
158 234813 328785.6606 40.0202
159 220891 337044.0875 52.5839
160 177228 324430.6604 83.0584
161 182413 332363.4674 82.2038
162 149782 320985.5988 114.3019
163 152432 316277.8394 107.4878
164 171336 329832.0956 92.506
165 165211 285356.6898 72.7226
I：絕對誤差百分比 = |(真實值 - 預測值) / 真實值| * 100 %

平均絕對誤差百分比%(MAPE)：66.78%
預測值與真實值比較圖(藍色虛線為預測值)：

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「R資料分析暨導引系統」!

虛無假設：資料不為白噪音(資料不是平穩數列)
D-F統計量^I D-F statistic	p值 p-value
-2.9377	0.1855

係數 coefficient	估計值 estimation	標準差 Std. err.	t-統計量 t-value	p-值 p-value
INTERCEPT	241467.9673	37235.9411	6.4848	< 1e-04
AR1	0.9372	0.0528	17.75	< 1e-04
MA1	0.4991	0.097	-5.1454	< 1e-04
MA2	0.2556	0.0836	-3.0574	0.0026

σ²	1.581e+10
AIC^I	4090.33
AICc^II	4090.73
BIC^III	4105.55
Log likelihood	-2040.17

虛無假設：資料不為白噪音(資料不是平穩數列)
檢定方法 method	統計量 statistic	p值 p-value
擴充Dickey-Fuller檢定	-4.8868	< 0.01
Phillips-Perron單根檢定	-151.3988	< 0.01

虛無假設：資料服從常態分配
檢定方法 method	統計量 statistic	p值 p-value
Shapiro-Wilk檢定	0.5017	< 1e-04
Cramer-Von Mises檢定	3.7967	< 1e-04
Shapiro-Francia檢定	0.482	< 1e-04

虛無假設：資料互相獨立
檢定方法 method	卡方統計量 Chi-square statistic	自由度 d.f.	p值 p-value
Box-Pierce檢定	0.0129	1	0.9094
Box-Ljung檢定	0.0132	1	0.9085

資料筆數	真實值	預測值	絕對誤差百分比%^I
156	386934	349553.1663	9.6608
157	381705	345037.7191	9.6062
158	234813	338535.6868	44.1725
159	220891	332441.8473	50.5004
160	177228	326730.5746	84.3561
161	182413	321377.8513	76.1814
162	149782	316361.168	111.2144
163	152432	311659.4284	104.458
164	171336	307252.8605	79.3277
165	165211	303122.9336	83.4762

σ²	1.571e+10
AIC^I	4089.41
AICc^II	4089.82
BIC^III	4104.63
Log likelihood	-2039.71