首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 簡單迴歸分析

簡單迴歸分析
Simple regression analysis
此處的統計分析方法為簡單迴歸分析(Simple regression analysis),迴歸一詞最早由英國優生學家高騰(Sir Francis Galton, 1822-1911)所提出。此方法主要是用來幫助了解變數間的線性因果關係。我們可將變數區分為依變數(dependent variable)與自變數(independent variable),利用線性關係模式的建立,我們可以了解自變數的改變對於依變數的影響。因此迴歸模型也可以用來進行資料預測。在醫學研究上,依變數經常被稱為結果變數(outcome variable),自變數則被稱為風險因子(risk factor)。迴歸分析中限制依變數需為連續型變數,自變數則無限制。當依變數為類別型變數時,可改用簡單邏輯斯迴歸分析(Simple logistic regression analysis)
範例C-1:圖書館借書服務的分析

閱讀是一個相當好習慣,有許多研究結果指出閱讀可以增進創造力、想像力與獨立思考能力,在幼兒身體發展的初期,需要不斷的刺激他們的神經元,而閱讀正是一個很好的刺激活動。良好的閱讀習慣是人類累積知識的一種方法,藉由閱讀學習前人所留下來寶貴的知識不斷的促使人類文明與科技進步。在世界上許多生活水準高的國家,其人民閱讀的風氣非常盛行,西方有一句諺語說,打開一本書,你就打開了一個世界,由此可知他們對於閱讀的重視程度。某圖書館館長為了提升附近居民的閱讀風氣,鼓勵民眾像圖書館借書閱讀,希望先了解民眾使用圖書館的習慣。由於現在的圖書館並不僅有圖書出借等單一功能,還提供有許多其他性質的服務,該館長想了解使用圖館的人數越多,是否意味著館內圖書借出的次數也越多,還是民眾僅利用圖書館其他設施。他收集了該館30天的每天入館人數及當天圖書的借出次數,資料列於表中。

表:圖書館入館人次與圖書借出次數分配表
天數 1 2 3 4 5 6 ... 28 29 30
入館人數 655 521 638 601 529 550 ... 668 530 588
借出次數 211 150 188 168 140 199 ... 200 168 179

Q1:館長想了解影響圖書館圖書借出率的原因,是否跟圖書館入館人數有關聯性?是否越多人使用圖書館代表越多的人借閱書籍呢?
問題解析:此處想了解圖書館入館人數與圖書的借出率是否有關係,並找出影響圖書借出率的原因,是否受到圖書館的入館人數多寡的影響,且影響的程度為何,可探討"圖書館入館人數是否會影響圖書的借出率?"。
統計方法:此問題中有兩個變數,分別是入館人數與圖書的借出次數(兩個變數,探討因果關係,建議選擇雙變數分析II)。此資料中想了解使用圖書館的人數(因)越多是否會使得館內圖書借出的次數(果)增減,故入館人數是自變數,而圖書的借出次數是依變數。依變數為連續型變數,可採用分析方法:簡單迴歸分析(simple regression analysis),分析"圖書館入館人數是否會影響圖書的借出率?"。

解析:
1. 此題可利用迴歸分析探討使用圖書館的人數(自變數)是否會影響到書籍的借閱次數(依變數)。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果: regression analysis
簡單迴歸分析 - 分析結果
  • 分析方法:簡單迴歸分析
  • 資料名稱:範例C-1
  • 依變數名稱:借出次數
  • 自變數名稱:入館人數
  • 顯著水準:0.05
  • 計算時間:0.607秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    借出次數30168.916810021127.2932
    入館人數30552.3333543.536866868.3542
    I:樣本敘述統計量皆不包含遺失值

  • 皮爾生相關係數矩陣I
    借出次數入館人數
    借出次數 1.000
    0.000
    30
    0.843
    0.000
    30
    入館人數0.843
    0.000
    30
    1.000
    0.000
    30
    I:表格內容為皮爾生相關係數 / P-值 / 樣本數

  • 迴歸模式的變異數分析:
    虛無假設:迴歸模式不顯著
    來源
    source
    平方和
    sum of squares
    自由度
    d.f.
    均方和
    mean square
    F檢定統計量
    F-statistic
    臨界值
    F(d.f.1,d.f.2,1-α)
    p-值I
    p-value
    迴歸
    regression
    15340.8236 1 15340.8236 68.5965 4.196 < 1e-04 ***
    誤差
    error
    6261.8764 28 223.6384
    總和
    total
    21602.7 29
    I:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

    分析結果建議:由於檢定結果P-值(< 1e-04) < 顯著水準(0.05),因此可拒絕虛無假設,代表此迴歸模式顯著。

  • 迴歸係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    t檢定統計量
    t-statistic
    p值II
    p-value
    參數的 95% 信賴區間
    95% C.I. for estimations
    下界
    lower
    上界
    upper
    (截距項)-16.949522.6048-0.74980.4596 -63.253429.3545
    入館人數0.33650.04068.2823< 1e-04 ***0.25330.4197
    I:依變數為借出次數
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

    分析結果建議:由於檢定結果P-值(< 1e-04) < 顯著水準(0.05),因此可拒絕虛無假設,代表此迴歸係數(入館人數)顯著。

  • 殘差分析:
    殘差常態分配假設檢定
    虛無假設:殘差服從常態分配
    W 檢定統計量I
    W-statistic
    p 值
    p-value
    0.9618 0.3441
    I:Shapiro-Wilk常態性檢定法

    殘差變異數齊一性假設檢定
    虛無假設:殘差變異數具齊一性
    卡方檢定統計量I
    Chi-square statistic
    自由度
    d.f.
    p 值
    p-value
    0.152 1 0.6966
    I:Breusch-Pagan檢定法

    殘差獨立性假設檢定
    虛無假設:殘差之間互相獨立
    一階自我相關
    1st order autocorrelation
    D-W 檢定統計量I
    D-W statistic
    p 值
    p-value
    0.3048 1.3808 0.086
    I:Durbin-Watson檢定法

[重新分析]
範例C-2:成功的廣告行銷

一個商品的銷售成功與否並不僅商品本身需要十分的優良,尚需要結合許多其他的因素,如價格的訂定、行銷的通路及商品的知名度等,都是非常重要的。近年來電視的普及程度相當高,每個家庭都會有一台電視機,利用電視廣告的高曝光率來增加商品知名度已經是廠商行之有年的行銷方法,好的電視廣告讓人印象深刻,事半功倍;而不好的電視廣告則可能造成反效果,讓廠商花了大筆的廣告製作與電視台的時段購買費用卻沒有得到相對的獲利。某影印機製造商近年投入許多預算在電視廣告上推廣商品,他想了解此廣告行銷策略的成效如何,雇請了一名統計分析師來分析;表中列出自91年度起至100年度每年的廣告經費支出及年度銷售金額(單位:百萬元)。

表:電視廣告支出與產品銷售金額收入之分配表
年度 91 92 93 94 95 96 97 98 99 100
廣告支出 16.5 15.7 15 16 18 19.6 14 13 14 19.2
銷售金額 230 215 218 235 240 259 215 220 220 243

Q1:廣告商想了解廣告支出是否會影響銷售金額,來決定是否投入更多的廣告花費,越多的廣告支出會增加該廠商的銷售金額嗎?統計分析師會有何建議呢?
問題解析:此處想了解廣告支出與銷售金額是否有關係,並找出影響銷售金額的原因,是否受到廣告支出高低的影響,且影響的程度為何,可探討"廣告支出是否會影響銷售金額?"。
統計方法:此問題中有兩個變數,分別是廣告支出與影印機的銷售金額(兩個變數,探討因果關係,建議選擇雙變數分析II)。此範例中分析廣告支出(因)是否會影響到年度影印機的銷售金額(果),故廣告支出是自變數,而年度影印機的銷售金額則是依變數。依變數為連續型變數,可採用分析方法:簡單迴歸分析(simple regression analysis),分析"廣告支出是否會影響銷售金額?"。

解析:
1. 此題可利用迴歸分析探討廣告支出(自變數)是否會影響到年度影印機的銷售金額(依變數)。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果: regression analysis
簡單迴歸分析 - 分析結果
  • 分析方法:簡單迴歸分析
  • 資料名稱:範例C-2
  • 依變數名稱:銷售金額
  • 自變數名稱:廣告支出
  • 顯著水準:0.05
  • 計算時間:0.918秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    銷售金額10229.522521525914.6306
    廣告支出1016.115.851319.62.247
    I:樣本敘述統計量皆不包含遺失值

  • 皮爾生相關係數矩陣I
    銷售金額廣告支出
    銷售金額 1.000
    0.000
    10
    0.889
    0.001
    10
    廣告支出0.889
    0.001
    10
    1.000
    0.000
    10
    I:表格內容為皮爾生相關係數 / P-值 / 樣本數

  • 迴歸模式的變異數分析:
    虛無假設:迴歸模式不顯著
    來源
    source
    平方和
    sum of squares
    自由度
    d.f.
    均方和
    mean square
    F檢定統計量
    F-statistic
    臨界值
    F(d.f.1,d.f.2,1-α)
    p-值I
    p-value
    迴歸
    regression
    1522.2051 1 1522.2051 30.1207 5.3177 6e-04 ***
    誤差
    error
    404.2949 8 50.5369
    總和
    total
    1926.5 9
    I:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

    分析結果建議:由於檢定結果P-值(6e-04) < 顯著水準(0.05),因此可拒絕虛無假設,代表此迴歸模式顯著。

  • 迴歸係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    t檢定統計量
    t-statistic
    p值II
    p-value
    參數的 95% 信賴區間
    95% C.I. for estimations
    下界
    lower
    上界
    upper
    (截距項)136.315617.12717.959< 1e-04 ***96.8204175.8108
    廣告支出5.78791.05465.48820.0006 ***3.3568.2197
    I:依變數為銷售金額
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

    分析結果建議:由於檢定結果P-值(0.0006) < 顯著水準(0.05),因此可拒絕虛無假設,代表此迴歸係數(廣告支出)顯著。

  • 殘差分析:
    殘差常態分配假設檢定
    虛無假設:殘差服從常態分配
    W 檢定統計量I
    W-statistic
    p 值
    p-value
    0.9581 0.7639
    I:Shapiro-Wilk常態性檢定法

    殘差變異數齊一性假設檢定
    虛無假設:殘差變異數具齊一性
    卡方檢定統計量I
    Chi-square statistic
    自由度
    d.f.
    p 值
    p-value
    0.0034 1 0.9533
    I:Breusch-Pagan檢定法

    殘差獨立性假設檢定
    虛無假設:殘差之間互相獨立
    一階自我相關
    1st order autocorrelation
    D-W 檢定統計量I
    D-W statistic
    p 值
    p-value
    0.0371 1.8689 0.758
    I:Durbin-Watson檢定法

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: