從誤差條Error Bar之產生談起

热度 3已有 500 次阅读2013-12-4 20:40 |个人分类:基础科学|系统分类:精品转载| 平均值, Error

誤差條就是平均值上下,以95.0%(通常)的置信水準給出的偏差。
http://140.117.34.2/faculty/phy/sw_ding/teaching/nmri_q_n_a/generate_error_bars.htm

從誤差條Error Bar之產生談起

國立中山大學化學系核磁共振實驗室 丁尚武

2007-04-15初版,20076月第二版

 

 

引言

 

莎士比亞說, To err is human. 人到世上來大體就是來犯錯誤的。絕大多數人都是這樣。

 

科學家工程師研究生也是人,也是以犯錯誤為主。具體而言,任何實驗測量都有誤差。或者說,我們不可能真的無限準確地知道某個被測物理量的真實值(即數學期望值)。

 

在未知誤差範圍的情形下,任何“曲線”或“特徵”或“反常行為” 或“驚人性質”都可能只是一個隨機噪音的表現而已!隨便拿一張NMR譜,不斷放大直到噪音變成各種各樣的可愛的“特徵峰”,你就知道為什麼確定誤差範圍多麼必要。

 

有感於一些研究生級的人士尚缺乏對誤差分析的基本認識,這裡寫幾句話談談誤差分析的最起碼常識,希望對你如何評估你的實驗結果或撰寫論文有幫助。當然數據處理和誤差分析的領域很龐大,有興趣者得花專門時間慢慢修練養成。

 

誤差分析ABC

 

眾所周知,誤差的大數行為或極限行為滿足高斯常態分佈。其數學期望(μ)、標準差(σ)給出嚴格的平均值和誤差。但實際的測量幾乎都不可能真正做到無限次(很大量次數)測量。這樣,實際平均值( )與數學期望μ、實際量測的誤差範圍(即方差)s與標準差σ就都可能會有顯著偏離。

 

測量次數越少,其平均值 與真實值μ偏差越大。很多實驗,由於時間,人力,經費等限制,只能進行少數次測量(抽樣)。這時,常用Student-Fisher的方法幫助我們估計誤差及可信賴度。

 

在數據不能準確獲得的時候,我們盡量給出一個估計範圍。在真實值到底在什麼地方,我們依靠置信度(信賴水準)來量度。

 

假設某君今對某參數x做了N次重複測量,”Student” William S. Gosset 發現,這種有限次(且往往是少數次)測量的平均值 與(需要經過無限次測量得到的)數學期望(真實值)之差異由下式決定

其中t的分佈為:

(當N很大時它趨向高斯常態分佈)

因此,給定測量次數,平均值,方差,並依據給定的置信度查到t值,就可以得到(給定信賴水準下)平均值與真實值的偏離。也就是誤差條波動範圍。

常見置信度下的t值表如下:

 

自由度 (N-1

置信度

 

0.9

0.95

0.99

0.999

1

6.31

12.71

63.66

636.62

2

2.92

4.30

9.93

31.60

3

2.35

3.18

5.84

12.92

4

2.13

2.78

4.60

8.61

5

2.02

2.57

4.03

6.87

6

1.94

2.45

3.71

5.96

7

1.89

2.37

3.50

5.41

8

1.86

2.31

3.36

5.04

9

1.83

2.26

3.25

4.78

10

1.81

2.23

3.17

4.59

11

1.80

2.20

3.11

4.44

12

1.78

2.18

3.06

4.32

13

1.77

2.16

3.01

4.22

14

1.76

2.14

2.98

4.14

15

1.75

2.13

2.95

4.07

16

1.75

2.12

2.92

4.02

17

1.74

2.11

2.90

3.97

18

1.73

2.10

2.88

3.92

19

1.73

2.09

2.86

3.88

20

1.72

2.09

2.85

3.85

21

1.72

2.08

2.83

3.82

22

1.72

2.07

2.82

3.79

23

1.71

2.07

2.82

3.77

24

1.71

2.06

2.80

3.75

25

1.71

2.06

2.79

3.73

26

1.71

2.06

2.78

3.71

27

1.70

2.05

2.77

3.69

28

1.70

2.05

2.76

3.67

29

1.70

2.05

2.76

3.66

30

1.70

2.04

2.75

3.65

40

1.68

2.02

2.70

3.55

60

1.67

2.00

2.66

3.46

120

1.66

1.98

2.62

3.37

¥

1.65

1.96

2.58

3.29

 

 

誤差條就是平均值上下,以95.0%(通常)的置信水準給出的偏差。

 

 

 

 

一個例子

 

某君重複測量某量10次得到結果如下表:

 

40.6

44.9

47.1

39.5

45.3

38.9

42.9

47.0

45.0

44.2

立得 。在95%信賴度下,查上表(自由度=10-19)得t=2.26,故誤差範圍

 

,故得誤差條為平均值44.35上下6.278的範圍。

 

易知,每個數據點有其各自的誤差條(雖然很多情形下,人們會拿一個數據點的誤差條當作整條曲線上所有點的誤差條)。

 

還有些人直接用方差代替誤差條,雖不如上面的好,總比根本沒有給出誤差範圍好。

 

產生誤差條的幾個常用的方法:

 

   重複測量

 

同一人或不同人在不同時間不同地點等測同一個(組)參數。得到一系列實驗值後,作誤差分析。

 

  

數據合成

  

用計算機在已有測量數據的基礎上加上(偽)隨機誤差產生一系列新的“實驗結果”,然後就可以做誤差分析了。由於這樣的“實驗結果”可以成千上萬地產生,估算出的平均值與真實值相當接近。當然,這樣的“實驗結果”畢竟不是真實測量到的數據,其可信度因人因事而異。但由於很多情形下這種虛擬誤差與真實誤差幾無差異,已有越來越多人使用。但切記,千萬不要誇大其功效,並儘量避免使用。

 

 

假設檢驗:

 

與上述誤差範圍估計緊密相連的是所謂的假設檢驗,二者在數學本質上其實是一回事。剛才我們看到了,誤差範圍的大小(信賴區間)與置信度相關;反過來,也可以這麼說:假如你(通過抽樣或重複實驗)測到一個量的值,那麼你就可以檢驗你的這個值是否落在某個選定的信賴區間(誤差範圍)裡,即規定μ的範圍。再換句話說,給定N和信賴度,即可得到t值,即所謂的臨界t t*)。用你的 , s,N值以及μ的範圍通過 去估算t值範圍,再查表得到置信度範圍。更常用的判據是:當t<-t* t>t*時,此次抽樣或測量支持原設μ的範圍的機會小於5%。舉個簡單例子也許更清楚。

 

一位研究生看到一篇文獻上測量一個新的奈米粒子樣品的13C譜,得到一根單峰,該文作者提到室溫下該樣品的13C的縱向鬆弛時間為2.45秒,誤差範圍0.05秒(在95.0%的信賴度下)。該研究生在同樣條件下重覆10次測量了13C的縱向鬆弛時間,得到的值如下(秒):

2.25  2.30  2.35  2.32  2.34  2.22  2.28  2.19  2.23  2.27        

該文作者報導的13C的縱向鬆弛時間值的可信度如何?

 

t表得,N10時,95.0%的信賴度下t*2.26。而代入 μ=(2.45-0.05, 2.45+0.05)=(2.40, 2.50), 2.275, s0.06 N10,立得95.0%信賴度的t之範圍:(-6.81, -12.26),均小於-2.26,故可認為13C的縱向鬆弛時間為2.45秒的可能性低於0.05(直接查更全的t表亦知此機率)。

            

顯然,這種假設檢驗在實際的研究判斷和設計中,其實至關重要。你讀文章時,碰到可疑之處,可以作實驗或者重新分析數據對作者的聲稱作檢驗。

 

其他檢驗方法略談:

 

上面講的t分佈是常用的檢驗手段,但別的分佈也會使用,如z分佈。其實它與t分佈很類似,

差異在於將方差s換成標準差σ。也就是說當你已經知道樣本的標準差時,就用z-檢驗方法。檢驗方法和步驟完全相同。

 

 

 

 

三種分佈及其與常態分佈之關係總結如下:

 


难过

路过

雷人

握手
2

鲜花

鸡蛋

刚表态过的朋友 (2 人)

评论 (0 个评论)

发布主题 联系我们

关于社区|广告合作|联系我们|帮助中心|小黑屋|手机版| 京公网安备 11010802025824号

北京宏牧伟业网络科技有限公司 版权所有(京ICP备11016518号-1

Powered by Discuz! X3.4  © 2001-2021 Comsenz Inc. GMT+8, 2024-4-29 07:08, 技术支持:温州诸葛云网络科技有限公司