箱线圖


簡介
  箱线圖(Box plot) (又稱盒形圖、箱圖、盒子圖)
  簡單箱线圖圖形
  

pic-info">

簡單箱线圖由五部分組成,分別是最小值、中位數、最大值和兩個四分位數
  目錄
  1 箱线圖概述
  2 箱线圖的繪制步驟
  3 箱线圖的功能
  4 箱线圖應用舉例繪制步驟
  1、畫數軸,度量單位大小和數據批的單位一致,起點比最小值稍小,長度比該數據批的全距稍長。
  2、畫一個矩形盒,兩端邊的位置分別對應數據批的上下四分位數(Q1和Q3)。在矩形盒內部中位數(Xm)位置畫一條线段爲中位线。
  3、在Q3+1.5IQR四分位距)和Q1-1.5IQR處畫兩條與中位线一樣的线段,這兩條线段爲異常值截斷點,稱其爲內限;在F+3IQR和F-3IQR處畫兩條线段,稱其爲外限。處於內限以外位置的點表示的數據都是異常值,其中在內限與外限之間的異常值爲溫和的異常值(mild outliers),在外限以外的爲極端的異常值(extreme outliers)。
  4、從矩形盒兩端邊向外各畫一條线段直到不是異常值的最遠點,表示該批數據正常值的分布區間。
  5、用“〇”標出溫和的異常值,用“*”標出極端的異常值。相同值的數據點並列標出在同一數據线位置上,不同值的數據點標在不同數據线位置上。至此一批數據的箱线圖便繪出了。統計軟件繪制的箱线圖一般沒有標出內限和外限。功能
  箱线圖作爲描述統計的工具之一,其功能有獨特之處,主要有以下幾點:
  1.直觀明了地識別數據批中的異常值
  一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成爲發現問題進而改進決策的契機。箱线圖爲我們提供了識別異常值的一個標準:異常值被定義爲小於Q1-1.5IQR或大於Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源於經驗判斷,經驗表明它在處理需要特別注意的數據方面表現不錯。這與識別異常值的經典方法有些不同。衆所周知,基於正態分布的3σ法則或z分數方法是以假定數據服從正態分布爲前提的,但實際數據往往並不嚴格服從正態分布。它們判斷異常值的標準是以計算數據批的均值標準差爲基礎的,而均值標準差的耐抗性極小,異常值本身會對它們產生較大影響,這樣產生的異常值個數不會多於總數0.7%。顯然,應用這種方法於非正態分布數據中判斷異常值,其有效性是有限的。箱线圖的繪制依靠實際數據,不需要事先假定數據服從特定的分布形式,沒有對數據作任何限制性要求,它只是真實直觀地表現數據形狀的本來面貌;另一方面,箱线圖判斷異常值的標準以四分位數四分位距爲基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響,箱线圖識別異常值的結果比較客觀。由此可見,箱线圖在識別異常值方面有一定的優越性。
  2.利用箱线圖判斷數據批的偏態和尾重
  比較標準正態分布、不同自由度的t分布和非對稱分布數據的箱线圖的特徵,可以發現:對於標準正態分布的大樣本,只有 0.7%的值是異常值,中位數位於上下四分位數的中央,箱线圖的方盒關於中位线對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作爲非對稱分布的例子進行分析,發現當卡方分布的自由度越小,異常值出現於一側的概率越大,中位數也越偏離上下四分位數的中心位置,分布偏態性越強。異常值集中在較小值一側,則分布呈現左偏態;;異常值集中在較大值一側,則分布呈現右偏態。下表列出了幾種分布的樣本數據箱线圖的特徵(樣本數據由SAS的隨機數生成函數自動生成),驗證了上述規律。這個規律揭示了數據批分布偏態和尾重的部分信息,盡管它們不能給出偏態和尾重程度的精確度量,但可作爲我們粗略估計的依據。
  3.利用箱线圖比較幾批數據的形狀
  同一數軸上,幾批數據的箱线圖並行排列,幾批數據的中位數、尾長、異常值、分布區間等形狀信息便昭然若揭。在一批數據中,哪幾個數據點出類拔萃,哪些數據點表現不及一般,這些數據點放在同類其它羣體中處於什么位置,可以通過比較各箱线圖的異常值看出。各批數據的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和线段的長短便可明了。每批數據分布的偏態如何,分析中位线和異常值的位置也可估計出來。還有一些箱线圖的變種,使數據批間的比較更加直觀明白。例如有一種可變寬度的箱线圖,使箱的寬度正比於批量的平方根,從而使批量大的數據批有面積大的箱,面積大的箱有適當的視覺效果。如果對同類羣體的幾批數據的箱线圖進行比較,分析評價,便是常模參照解釋方法的可視圖示;如果把受測者數據批的箱线圖與外在效標數據批的箱线圖比較分析,便是效標參照解釋的可視圖示。箱线圖結合這些分析方法用於質量管理、人事測評、探索性數據分析統計分析活動中去,有助於分析過程的簡便快捷,其作用顯而易見。應用舉例
  現有某直銷中心30名員工工資測算數據兩批,第一批爲工資調整前的數據,第二批爲工資調整後的數據,繪出它們的箱线圖(如下圖),進行比較,可以很容易地得出:工資調整前,總體水平在752元左右,四分位距爲307.5,沒有異常值。經過調整後,箱线圖顯示,第2、29、10、24、27號爲溫和的異常值,第26、30、28號爲極端的異常值。爲什么會出現異常值呢?經過進一步分析知道,第2、29、10、24號員工由於技能強、工齡長、積累貢獻大、表現較好,勞苦功高,理應得到較高的報酬;第27、26、30、28號職工則因爲技能偏低、工齡短、積累貢獻小且表現較差,得到的工資較低,甚至連一般水平也難以達到。這體現了工資調整的獎優罰劣原則。另外,調整工資總體水平比調整前高出270元,四分位距爲106,工資分布比調整前更加集中,在合適的範圍內既拉开了差距,又不至於差距太懸殊,還針對特殊情況進行了特殊處理。這種工資分布具有激勵作用,可以說工資調整達到預期目的。
  箱线圖美中不足之處在於它不能提供關於數據分布偏態和尾重程度的精確度量;對於批量較大的數據批,箱线圖反映的形狀信息更加模糊;用中位數代表總體平均水平有一定的局限性等等。所以,應用箱线圖最好結合其它描述統計工具如均值標準差、偏度、分布函數等來描述數據批的分布形狀。

熱門資訊更多