統計推斷

什么是統計推斷



  統計在研究現象的總體數量關系時,需要了解的總體對象的範圍往往是很大的,有時甚至是無限的,而由於經費、時間和精力等各種原因,以致有時在客觀上只能從中觀察部分單位或有限單位進行計算和分析,根據局部觀察結果來推斷總體。例如,要說明一批燈泡的平均使用壽命,只能從該批燈泡中抽取一小部分進行檢驗,推斷這一批燈泡的平均使用壽命,並給出這種推斷的置信程度。這種在一定置信程度下,根據樣本資料的特徵,對總體的特徵做出估計和猜測的方法稱爲統計推斷法。統計推斷是現代統計學的基本方法,在統計研究中得到了極爲廣泛的應用,它既可以用於對總體參數的估計,也可以用作對總體某些分布特徵的假設檢驗


  統計推斷是在概率論的基礎上依據樣本的有關數據和信息,對未知總體的質量特性參數,做出合理的判定和估計。它的一般過程如圖l所示。


  統計推斷width="297" height="146">


  統計推斷有着廣泛的用途,幾乎遍及所有科學技術領域,在質量治理活動中應用尤其普遍。因此,討論統計推斷是一個十分有意義的課題。



統計推斷的必要性

  爲什么我們不能直接研究對象的全部情況,而只能取得研究對象的部分信息來推斷和估計整體的某些規律呢?


  1、在產品可靠性T程領域,研究某種產品在規定條件下和規定時間內完成規定功能的概率時,通常要做破壞性檢驗和試驗,如燈泡的壽命測試、焊縫的強度檢驗、電視機無故障工作時間的確定等。我們只能通過抽取樣本,對樣本進行破壞性試驗後,推斷總體的可靠性指標。假如對所有產品進行破壞性檢測,就沒有產品可供銷售了,這違反了我們研究的本來目的。


  2、還有一些研究對象,組成其整體的個體是無限多的,客觀上對全部個體進行觀察和檢驗是根本不可能的。如研究海水中微生物的情況時,不可能將全部海水都裝入試管中;分析魚池中全部活魚的重量與長度時,不能將池水抽幹、逐條過秤等。因此,只能用隨機取樣統計推斷的方法。


  3、有些情況對全部個體逐一研究、檢測是可以的,但需要付出非常多的財力、物力和時間。如自動化流水作業生產過程,對每個產品進行檢測需要停機等。因此,我們也只能依靠於抽樣檢驗和調查,分析樣本後對整體做出判定。


  4、由於整體的不均勻性和樣本的隨機性,利用分析樣本得到的數據來推斷總體的情況必然會產生偏差。但是,在大多數情況下這種估計誤差的存在是合理的,也是可以容忍的。因爲不同的問題有不同的精度要求,並不是所有問題都需要一個絕對準確的估量,也不是一切問題都能得到一個非常精確的結果,所以統計推斷是不可缺少的研究手段。



統計推斷的基本方法

  在質量活動和治理實踐中,人們關心的是特定產品的質量水平,如產品質量特性的平均值、不合格品率等。這些都需要從總體中抽取樣本,通過對樣本觀察值分析來估計和推斷,即根據樣本來推斷總體分布的未知參數,稱爲參數估計。參數估計有兩種基本形式:點估計區間估計


  1、點估計


  用樣本的計量去估計總體相應未知參數稱爲點估計。當我們任意抽取一個樣本:x1x_2cdots x_n,該樣本的均值E(x)和方差D(X)便已知:


E(x)=ar{x}=frac{1}{n}sum_{i=1}^n x_i
D(x)=s^2=frac{1}{n-1}sum_{i=1}^n(x_i-ar{x})^2


  假如已知該樣本所屬總體的分布犁式,則可利用總體分布型式均值和方差的計算公式推斷其分布的未知參數。如表l所示。





二項分布B(N,P) 泊松分布P(%26lambda;) 均勻分布U(a,b) 正態分布N(%26mu;,%26sigma;2)




hat{P}=frac{ar{x}}{N} 26377806.png" alt="hat{lambda}=ar{x}"> hat{a}=ar{x}-ssqrt{3},hat{b}=ar{x}+ssqrt{3} ar{mu}=ar{x},hat{sigma}^2=s^2



  對於同一總體,隨着抽取樣本的不同,就可得到不同的樣本均值和方差,通過計算.同一總體分布未知參數就可產生多個估計值。這樣,就存在對衆多點估計優良性的評價問題。通常用無偏性和有效性作爲評價點估計優良性的標準。即假如所有估計量均值E(hat{	heta})=	heta,稱這些估計量hat{	heta}參數%26theta;的無偏估計,在多個無偏估計量中方差小的估計量則更爲有效。


  2、區間估計


  用樣本確定兩個計量,構築一個置信水平爲1 %26minus; %26alpha;的區間,對總體未知參數給出估計,稱爲區間估計。假如從正態總體中抽取一個樣本:x1x_2cdots x_n,其樣本的均值爲:


  ar{x}=frac{1}{n}sum_{i=1}^n x_i


  方差爲:


  s^2=frac{1}{n-1}sum_{i=1}^n(x_i-ar{x})^2


  則該正態總體均值、方差和標準差的1 %26minus; %26alpha;置信估計區間如表2所示。


  統計推斷width="866" height="233">


  點估計僅僅給出未知參數的一個具體估計值,沒有給出估計的精度,而區間估計卻體現了估計的精度。所謂置信水平1 %26minus; %26alpha;,是指所構造的置信區間覆蓋未知參數概率爲1 %26minus; %26alpha;。由於置信區間是由選用樣本的計量構築的,它是會隨着樣本的變化而變化的,它有時覆蓋未知參數,有時卻沒有覆蓋未知參數。但是,用此法構築的置信區間,在100次中大約有100(1 %26minus; %26alpha;)個區間覆蓋未知參數



統計推斷的兩類錯誤

  人們總是希望不犯錯誤,但是在統計推斷過程中不犯錯誤是不可能的。由於總體的不均勻性和樣本的隨機性,統計推斷必然存在風險(錯誤)。假設有一批未知質量狀況的產品,現在隨機抽取其中的一個樣本,通過檢驗、分析樣本的質量狀況,來推斷整批產品的質量好壞,則可能出現如表3所示的四種情況。


  統計推斷width="334" height="148">


  A、假定這批產品質量是好的,通過檢驗樣本發現樣本質量也是好的,則推斷該批產品質量好而決定接收。顯然,這個統計推斷是完全正確的。B、假定這批產品質量不好,通過檢驗發現樣本質量不好,則推斷該批產品質量不好而拒收。該統計推斷結論也是合理的。C、假如該批產品質量是好的,而通過檢驗樣本發現樣本質量是壞的,則推斷該批產品質量不好而拒收,就犯了“棄真”的錯誤,習慣上把它稱做第Ⅰ類錯誤。D、假如該批產品質量不好,通過檢驗樣本發現樣本質量是好的,則推斷該批產品質量好而予以接收,則犯了“取僞”的錯誤,通常將其稱做第Ⅱ類錯誤。


  犯錯誤就會造成損失,就會發生猜測失誤、判定失誤,就會導致不希望結果的發生。在統計推斷過程中上述兩類錯誤總是此漲彼消不可避免的,我們的原則是控制兩類錯誤帶來的損失最小且已知。


  在不同的統計推斷過程中,對上述兩類錯誤有着不同的描述。在用控制圖進行統計過程控制中,第Ⅰ類錯誤叫“虛發警報”,即生產正常而點子偶然超出控制界限,依此就判異而犯“棄真”錯誤;第Ⅱ類錯誤叫“漏發警報”,即過程已經異常,有部分點子仍位於控制界限內。依此判過程正常而犯“取僞”錯誤。在抽樣檢驗過程中,第Ⅰ類錯誤爲生產方風險,即對於給定的抽樣方案,當質量水平爲某一指定的可接收質量時被拒收的概率,此時生產方遭受損失;第Ⅱ類錯誤爲使用方風險,即對於給定的抽樣方案,當質量水平爲某一指定的不滿足質量時被接收的概率,此時使用方承受損失。在假設檢驗過程中,犯兩類錯誤的情況如表4。


  統計推斷width="329" height="135">


  當原假設H0成立時,由於樣本觀察值落人拒絕域W中而誤認爲H0不成立,犯“棄真”錯誤;當原假設H0實際上不成立,由於樣本觀察值未落人拒絕域W而誤認爲H0成立,犯“取僞”錯誤。



統計推斷提高準確性的途徑

  個體是總體的一部分,局部的特性能反映全局的特點,但是,由於總體的不均勻性和樣本的隨機性,又使得樣本不能精確地反映總體。因此,抽取部分個體經分析得出有關總體的結論存在着差錯和不可靠。從理論上講有兩種途徑可以消除和減少這種差錯。其一,使總體最大限度地均勻。總體是我們要研究的未知事物,我們往往不可能改變他的均勻性,當能夠使其達到理想的均勻時,已經完全把握了它,沒有研究的必要了。其二,採取適當的抽樣方法確保抽樣的“代表性”,可有效地控制和提高統計推斷的可靠性和正確性。


  隨機抽樣的方法很多,常用的有:


  1、簡單隨機抽樣


  簡單隨機抽樣,是指抽樣過程應獨立進行並且總體中每個個體被抽到的機會均等。隨機抽樣不是隨便抽取,隨便抽取輕易受到個人好惡的影響。爲實現隨機化,可採取抽籤、擲隨機數骰子或查隨機數值表等辦法。如從100件產品中隨機抽取l0件組成樣本,可以把這100件產品從l开始編號直到100號,然後用抓鬮的辦法任意抽出l0個編號,由這l0個編號代表的產品組成樣本。此種抽樣方法的優點是抽樣誤差小,缺點是手續繁雜。在實踐中真正做到每個個體被抽到的機會相等是不輕易的。


  2、周期系統抽樣


  周期系統抽樣,又叫等距抽樣或機械抽樣,即將總體按順序編號,用抽籤或查隨機數值表的方法確定首件,進而按等距原則依次抽取樣本。如從120個零件中取五個做樣本,先按生產順序給產品編號,用簡單隨機抽樣法確定首件,然後按每隔24(由120÷5=24得)個號碼抽取一個,共抽取五個組成樣本。這種方法非凡適用於流水线上取樣,操作簡便,實施起來不易出現差錯。但抽樣起點一經確定,整個樣本就完全固定。對總體質量特性含有某種周期性變化,而當抽樣間隔恰好與質量特性變化周期吻合時,就可能得到一個偏差很大的樣本。


  3、分層抽樣


  分層抽樣法,即從一個可以分成不同子總體的總體中,按規定比例從不同層中隨機抽取個體的方法。當不同設備、不同環境生產同一種產品時,由於條件差別產品質量可能有較大差異,爲了使所抽取的樣本具有代表性,可以將不同條件下生產的產品組成組,使同一組內產品質量均勻,然後在各組內按比例隨機抽取樣品合成一個樣本。這種抽樣方法得到的樣本代表性比較好,抽樣誤差較小,缺點是抽樣手續較繁,常用於產品質量檢驗。


  4、整羣抽樣


  這種方法是先將總體按一定方式分成多個羣,然後隨機地抽取若幹羣並由這些羣中的所有個體組成樣本。如按照生產過程將1000個零件分別裝入2O個箱中,每箱5O個,然後隨機抽取一箱,此箱中5O個零件組成樣本。這種抽樣方法實施方便,但樣本來自個別羣體而不能均勻分布在總體中,因而代表性差,抽樣誤差較大。











熱門資訊更多