非參數統計

舉例說明
　　例如，檢驗“兩個總體有相同分布”這個假設，若假定兩總體的分布分別爲正態分布N(μ1,σ2)和N(μ2,σ2)，則問題只涉及三個實參數μ1，μ2,σ2，這是參數統計問題。若只假定兩總體的分布爲連續，此外一無所知，問題涉及的分布不能用有限個實參數刻畫，則這是非參數統計問題。又如，估計總體分布的期望μ，若假定總體分布爲正態 N(μ,σ2)，則問題是參數性的；若只假定總體分布的期望值存在，則問題是非參數性的。不過參數統計與非參數統計之間並沒有涇渭分明的界线。例外
　　有的統計問題，從不同的角度，可以理解爲參數性的，也可以理解爲非參數性的。例如线性回歸（見回歸分析）問題,若關心的是估計回歸系數,它只是有限個實參數,因而可以看成是參數性的。但是,如果對隨機誤差的分布類型沒有作任何假定，則從問題的總體分布這個角度看，也可以看成是非參數性的。統計方法
　　重要的非參數統計方法秩方法是基於秩統計量(見統計量)的一類重要的非參數統計方法。設有樣本X1,X2，…,Xn，把它們由小到大排列,若Xi在這個次序中佔第Ri個位置(最小的佔第1個位置), 則稱Xi的秩爲Ri(i=1,2,…，n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗"是一個有代表性的例子。設X1,X2,…，Xm和Y1,Y2,…,Yn分別是從分布爲 F(x)和 F(x-θ)的總體中抽出的樣本，F連續但未知，θ也未知，檢驗假設 H:θ=0，備擇假設爲θ>0(見假設檢驗)。記Yi在混合樣本(X1,X2,…,Xm，Y1，Y2,…,Yn)中的秩爲Ri,且爲諸秩的和,當W >C時，否定假設H，這裏C決定於檢驗的水平。這是一個性能良好的檢驗。秩方法的一個早期結果是C.斯皮爾曼於1904年提出的秩相關系數。設(X1，Y1),(X2，Y2),…，(Xn,Yn)是從二維總體(X，Y)中抽出的樣本，Ri爲Xi在(X1,X2,…,Xn)中的秩，Qi爲Yi在(Y1,Y2,…,Yn)中的秩,定義秩相關系數爲(Ri,Qi)(i=1,2,…n)的通常的相關系數（見相關分析）。它可以作爲X、Y之間相關程度的度量，也可用於檢驗關於X、Y獨立性的假設。
　　次序統計量和U 統計量在非參數統計中也有重要應用。前者可用於估計總體分布的分位數（見概率分布）、檢驗兩總體有相同的分布及構造連續總體分布的容忍限和容忍區間（見區間估計）等。後者主要用於構造總體分布的數字特徵的一致最小方差無偏估計(見點估計)及基於這種估計的假設檢驗。
　　蘇聯數學家Α.Η.柯爾莫哥洛夫和Β.И.斯米爾諾夫在20世紀30年代的工作开闢了非參數統計的一個方面，他們的方法基於樣本X1,X2，…,Xn的經驗分布函數Fn(x)(見樣本)。柯爾莫哥洛夫考察 Fn(x)與理論分布F(x)的最大偏差墹n，當墹n超過一定限度時，否定這個理論分布F(x)。這就是柯爾莫哥洛夫檢驗。斯米爾諾夫則考察由兩個分布爲F(x)和g(x)的總體中抽出的樣本X1，X2,…，Xm和Y1,Y2,…,Yn計算其經驗分布Fm(x)和gn(x)的最大偏差墹mn，當墹mn超過一定限度時,否定“F與g相等”這個假設。這就是斯米爾諾夫檢驗。
　　在非參數性估計方面，有關於估計分布的對稱中心、概率密度函數和回歸函數等比較重要的成果。基本特點
　　非參數統計的特點非參數統計問題中對總體分布的假定要求的條件很寬，因而針對這種問題而構造的非參數統計方法，不致因爲對總體分布的假定不當而導致重大錯誤,所以它往往有較好的穩健性(見穩健統計),這是一個重要特點。但因爲非參數統計方法需要照顧範圍很廣的分布，在某些情況下會導致其效率的降低。不過，近代理論證明了：一些重要的非參數統計方法，當與相應的參數方法比較時,即使在最有利於後者的情況下,效率上的損失也很小。
　　由於非參數統計中對分布假定要求的條件寬，因而大樣本理論（見大樣本統計）佔據了主導地位。第二次世界大战前，非參數統計的大樣本理論已有了一些結果，從20世紀50年代直到現代，更有了顯著的進展，尤其是關於秩統計量與U 統計量的大樣本理論，及基於這種理論的大樣本非參數方法，研究成果很多。適用範圍
　　非參數統計最常用於具備下述特徵的情況：
　　1、待分析數據不滿足參數檢驗所要求的假定，因而無法應用參數檢驗。例如，我們曾遇到過的非正態總體小樣本，在t-檢驗法也不適用時，作爲替代方法，就可以採用非參數檢驗。
　　2、僅由一些等級構成的數據，不能應用參數檢驗。例如，消費者可能被問及對幾種不同商標的飲料的喜歡程度，雖然，他們不能對每種商標都指定一個數字來表示他們對該商標的喜歡程度，卻能將幾種商標按喜歡的順序分成等級。這種情形也宜採用非參數檢驗。
　　3、所提的問題中並不包含參數，也不能用參數檢驗。例如，我們想判斷一個樣本是否爲隨機樣本，採用非參數檢驗法就是適當的。
　　4、當我們需要迅速得出結果時，也可以不用參數統計方法而用非參數統計方法來達到目的。一般說來，非參數統計方法所要求的計算與參數統計方法相比，完成起來既快且易。有些非參數統計方法的計算，就算對統計學知識不熟練的人，也能在收集數據時及時予以完成。相對優點
　　非參數統計與傳統的參數統計相比，有以下優點：
　　1、非參數統計方法要求的假定條件比較少，因而它的適用範圍比較廣泛。
　　2、多數非參數統計方法要求的運算比較簡單，可以迅速完成計算取得結果，因而比較節約時間。
　　3、大多數非參數統計方法在直觀上比較容易理解，不需要太多的數學基礎知識和統計學知識。
　　4、大多數非參數統計方法可用來分析如象由等級構成的數據資料，而對計量水準較低的數據資料，參數統計方法卻不適用。
　　5、當推論多達3個以上時，非參數統計方法尤具優越性。相對缺點
　　非參數統計方法也有以下缺點：
　　1、由於方法簡單，用的計量水準較低，因此，如果能與參數統計方法同時使用時，就不如參數統計方法敏感。若爲追求簡單而使用非參數統計方法，其檢驗功效就要差些。這就是說，在給定的顯著性水平下進行檢驗時，非參數統計方法與參數統計方法相比，第Ⅱ類錯誤的概率β要大些。
　　2、對於大樣本，如不採用適當的近似，計算可能變得十分復雜。