首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 卡方適合度檢定

卡方適合度檢定
Chi-square test for goodness of fit
卡方適合度檢定是由英國統計學家皮爾生(Karl Pearson, 1857-1936)所提出,是一種分析類別資料的統計方法,可用來做適合度檢定、獨立性檢定與齊一性檢定等。卡方適合度檢定主要用來檢定資料中感興趣的樣本是否符合某一種已知的機率分配,如多項(multinomial)分配或常態(normal)分配;單一樣本機率分配檢定(One-sample Kolmogorov-Smirov test)也常常被用來檢定資料中感興趣樣本的機率分配。

本方法使用之R相關套件與參考文獻:
相關套件:stats、base
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
範例A-6:縱火次數的分析

隨著科技的進步,都市的現代化腳步加快,人類居住的環境已經與以前大不相同,大都市內的土地寸土寸金,每一個地方都是高樓林立且建築物密集。在這高密度的都市區域裡,雖然有很大的便利性,但是相反的卻很容易發生火警意外,當有火警意外時常常造成不可想像的巨大傷害。據內政部統計民國94年的火災發生次數達5139次,平均下來每天有14件的火災發生,造成死亡人數139人,受傷人數532人,財物損失更是巨大,因此對於火災的防治是很重要的。所幸在適當的防治下,已經有相當的成果,民國100年的統計數字顯示當年度的火災次數已降至1772次。在這麼多火災中,有一項是人為的縱火,防制人員為了解縱火事件發生的相關資訊,統計了一份資料顯示出過去360天每天發生的縱火案次數,依每天縱火案件發生的次數製成次數分配表,如下表。

表:發生縱火次數的天數分配表,單位:天。
縱火次數 0 1 2 3 4 5 >5
天數 154 83 61 33 15 8 6

Q1:根據以往的資料顯示,此種在一段時間區間內發生某種特定事件的資料通常會是一個卜瓦松分配,該防制人員想了解此次收集的資料是否與以往有相同的情況。
問題解析:此處要分析所收集的資料與以往的資料是否有相同性質,即是討論該資料是否也服從卜瓦松分配,故討論問題"此資料是否服從卜瓦松分配?"。
統計方法:此問題中,變數為不同縱火次數的天數,為單一變數(一個變數,建議選擇單變數分析)且一組樣本;可採用分析方法:卡方適合度檢定(Chi-square test for goodness of fit),檢定"此資料是否服從卜瓦松分配?"。

解析:
1. 此題可建立虛無假設為"資料的分佈是一個卜瓦松分配(參數未知,由資料估計)"。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果: chi-square test for goodness of fit
卡方適合度檢定 - 分析結果
  • 分析方法:卡方適合度檢定
  • 資料名稱:範例A-6
  • 變數名稱:每日發生次數
  • 顯著水準:0.05
  • 檢定分配:卜瓦松分配
  • 計算時間:0.079秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    每日發生次數3601.22781071.4582
    I:樣本敘述統計量皆不包含遺失值

  • 觀察值與期望值資訊:
    變數名稱
    variable
    每日發生次數
    組別
    group
    觀察值個數
    number of observed
    期望值個數
    number of expected
    (-Inf,0]154105.46
    (0,1]83129.48
    (1,2]6179.49
    (2, Inf]6245.57

  • 卡方適合度檢定:
    虛無假設:母體分配為卜瓦松分配
    變數名稱
    variable
    分配參數一
    平均數
    卡方檢定統計量
    chi-square statistics
    自由度
    d.f.
    p-值I
    p-value
    每日發生次數 1.2278 49.2484 2 2.0223e-11 ***
    I:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 分析結果建議:由於檢定結果P-值(2.0223e-11) < 顯著水準0.05,因此可拒絕虛無假設。
[重新分析]
範例A-7:電影市場的分析

看電影一直是現代人的重要休閒活動,隨著影音科技的日新月異,電影院的聲光效果更是一種高級享受,吸引著許多民眾前往消費。但是伴隨著享受的同時,電影的票價也是節節的升高,有最便宜的早場優待票220元,也有3D IMAX的400元票價,在消費與享受之間如何吸引民眾前往,也是業者的一個重要課題。影城工會為了瞭解電影院的市場是否已趨飽和,特別委託某研究機構調查,該機構抽查北部與南部各100家電影院,得到過去3個月的營業收入(單位:萬元),並製作一次數分配表,列出8個不同收入的區間,並將每家電影院依收入高低歸於各區間,列於表中。

表:電影院的收入區間次數分配表。
收入區間 1000以下 1001-2000 2001-3000 3001-4000 4001-5000 5001-6000 6001-7000 7001以上
北部 6 6 18 25 24 11 6 4
南部 12 8 30 22 16 6 5 1
系統中所提供的範例資料檔為原始資料(即未分組前的資料)

Q1:研究機構想了解各家電影院的收入高低是否有差異,並以北部的電影院為分析對象,希望以某種機率分配來描述收入的分布,若是資料屬於左偏分配,即可知道多數的電影院收入在平均收入之上,若資料屬於右偏分配可知多數的電影院收入在平均收入之下,若資料為對稱分配且多數於平均數(中位數)附近(如常態分配),則可知大多數的電影院收入在中間的區間。依據商業經營模式,店家的收入區間大多數成常態分配,電影院的收入區間也是如此嗎?
問題解析:此處討論電影院的收入資料是否也於其他的商業經營模式一致,會呈現常態分配,故討論問題"北部電影院的收入區間是否為常態分配?"。
統計方法:此問題中,變數為不同收入區間的電影院家數,為單一變數(一個變數,建議選擇單變數分析)且僅討論北部的電影院為一組樣本;可採用分析方法:單一樣本機率分配檢定(one-sample Kolmogorov-Smirov test)及卡方適合度檢定(Chi-square test for goodness of fit),檢定"北部電影院的收入區間是否為常態分配?"。

解析:
1. 此題可建立虛無假設為"北部電影院的收入區間為常態分配(參數未知,由資料估計)"。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果: chi-square test for goodness of fit
卡方適合度檢定 - 分析結果
  • 分析方法:卡方適合度檢定
  • 資料名稱:範例A-7
  • 變數名稱:北部
  • 顯著水準:0.05
  • 檢定分配:常態分配
  • 計算時間:0.081秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    北部993924.7475368748590011702.7628
    I:樣本敘述統計量皆不包含遺失值

  • 觀察值與期望值資訊:
    變數名稱
    variable
    北部
    組別
    group
    觀察值個數
    number of observed
    期望值個數
    number of expected
    (-Inf,2.47e+03]2019.45
    (2.47e+03,3.42e+03]2018.54
    (3.42e+03,4.25e+03]1919.08
    (4.25e+03,5.31e+03]2021.4
    (5.31e+03, Inf]2020.53

  • 卡方適合度檢定:
    虛無假設:母體分配為常態分配
    變數名稱
    variable
    分配參數一
    平均數
    分配參數二
    標準差
    卡方檢定統計量
    chi-square statistics
    自由度
    d.f.
    p-值I
    p-value
    北部 3924.747 1702.763 0.2367 2 0.88839
    I:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 分析結果建議:由於檢定結果P-值(0.88839) > 顯著水準0.05,因此無法拒絕虛無假設。
[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: