畜牧人 › 牧童 › 日志

牧童

http://www.xumuren.com/?1464

從誤差條Error Bar之產生談起

热度 3已有 500 次阅读2013-12-4 20:40 |个人分类:基础科学|系统分类:精品转载| 平均值, Error

誤差條就是平均值上下，以95.0％（通常）的置信水準給出的偏差。
http://140.117.34.2/faculty/phy/sw_ding/teaching/nmri_q_n_a/generate_error_bars.htm

從誤差條Error Bar之產生談起

國立中山大學化學系核磁共振實驗室丁尚武

2007-04-15初版，2007年6月第二版

引言

莎士比亞說， To err is human. 人到世上來大體就是來犯錯誤的。絕大多數人都是這樣。

科學家工程師研究生也是人，也是以犯錯誤為主。具體而言，任何實驗測量都有誤差。或者說，我們不可能真的無限準確地知道某個被測物理量的真實值（即數學期望值）。

在未知誤差範圍的情形下，任何“曲線”或“特徵”或“反常行為” 或“驚人性質”都可能只是一個隨機噪音的表現而已！隨便拿一張NMR譜，不斷放大直到噪音變成各種各樣的可愛的“特徵峰”，你就知道為什麼確定誤差範圍多麼必要。

有感於一些研究生級的人士尚缺乏對誤差分析的基本認識，這裡寫幾句話談談誤差分析的最起碼常識，希望對你如何評估你的實驗結果或撰寫論文有幫助。當然數據處理和誤差分析的領域很龐大，有興趣者得花專門時間慢慢修練養成。

誤差分析ABC

眾所周知，誤差的大數行為或極限行為滿足高斯常態分佈。其數學期望（μ）、標準差（σ）給出嚴格的平均值和誤差。但實際的測量幾乎都不可能真正做到無限次（很大量次數）測量。這樣，實際平均值（）與數學期望μ、實際量測的誤差範圍（即方差）s與標準差σ就都可能會有顯著偏離。

測量次數越少，其平均值與真實值μ偏差越大。很多實驗，由於時間，人力，經費等限制，只能進行少數次測量（抽樣）。這時，常用Student-Fisher的方法幫助我們估計誤差及可信賴度。

在數據不能準確獲得的時候，我們盡量給出一個估計範圍。在真實值到底在什麼地方，我們依靠置信度（信賴水準）來量度。

假設某君今對某參數x做了N次重複測量，”Student” （William S. Gosset ）發現，這種有限次(且往往是少數次)測量的平均值與（需要經過無限次測量得到的）數學期望（真實值）之差異由下式決定

其中t的分佈為：

（當N很大時它趨向高斯常態分佈）

因此，給定測量次數，平均值，方差，並依據給定的置信度查到t值，就可以得到（給定信賴水準下）平均值與真實值的偏離。也就是誤差條波動範圍。

常見置信度下的t值表如下：

自由度（N-1）	置信度
	0.9	0.95	0.99	0.999
1	6.31	12.71	63.66	636.62
2	2.92	4.30	9.93	31.60
3	2.35	3.18	5.84	12.92
4	2.13	2.78	4.60	8.61
5	2.02	2.57	4.03	6.87
6	1.94	2.45	3.71	5.96
7	1.89	2.37	3.50	5.41
8	1.86	2.31	3.36	5.04
9	1.83	2.26	3.25	4.78
10	1.81	2.23	3.17	4.59
11	1.80	2.20	3.11	4.44
12	1.78	2.18	3.06	4.32
13	1.77	2.16	3.01	4.22
14	1.76	2.14	2.98	4.14
15	1.75	2.13	2.95	4.07
16	1.75	2.12	2.92	4.02
17	1.74	2.11	2.90	3.97
18	1.73	2.10	2.88	3.92
19	1.73	2.09	2.86	3.88
20	1.72	2.09	2.85	3.85
21	1.72	2.08	2.83	3.82
22	1.72	2.07	2.82	3.79
23	1.71	2.07	2.82	3.77
24	1.71	2.06	2.80	3.75
25	1.71	2.06	2.79	3.73
26	1.71	2.06	2.78	3.71
27	1.70	2.05	2.77	3.69
28	1.70	2.05	2.76	3.67
29	1.70	2.05	2.76	3.66
30	1.70	2.04	2.75	3.65
40	1.68	2.02	2.70	3.55
60	1.67	2.00	2.66	3.46
120	1.66	1.98	2.62	3.37
¥	1.65	1.96	2.58	3.29

誤差條就是平均值上下，以95.0％（通常）的置信水準給出的偏差。

一個例子

某君重複測量某量10次得到結果如下表：

40.6

44.9

47.1

39.5

45.3

38.9

42.9

47.0

45.0

44.2

立得，。在95％信賴度下，查上表（自由度＝10-1＝9）得t=2.26，故誤差範圍

，故得誤差條為平均值44.35上下6.278的範圍。

易知，每個數據點有其各自的誤差條（雖然很多情形下，人們會拿一個數據點的誤差條當作整條曲線上所有點的誤差條）。

還有些人直接用方差代替誤差條，雖不如上面的好，總比根本沒有給出誤差範圍好。

產生誤差條的幾個常用的方法：

重複測量：

同一人或不同人在不同時間不同地點等測同一個（組）參數。得到一系列實驗值後，作誤差分析。

數據合成

用計算機在已有測量數據的基礎上加上（偽）隨機誤差產生一系列新的“實驗結果”，然後就可以做誤差分析了。由於這樣的“實驗結果”可以成千上萬地產生，估算出的平均值與真實值相當接近。當然，這樣的“實驗結果”畢竟不是真實測量到的數據，其可信度因人因事而異。但由於很多情形下這種虛擬誤差與真實誤差幾無差異，已有越來越多人使用。但切記，千萬不要誇大其功效，並儘量避免使用。

假設檢驗：

與上述誤差範圍估計緊密相連的是所謂的假設檢驗，二者在數學本質上其實是一回事。剛才我們看到了，誤差範圍的大小（信賴區間）與置信度相關；反過來，也可以這麼說：假如你（通過抽樣或重複實驗）測到一個量的值，那麼你就可以檢驗你的這個值是否落在某個選定的信賴區間（誤差範圍）裡，即規定μ的範圍。再換句話說,給定N和信賴度，即可得到t值，即所謂的臨界t值（t*）。用你的, s,N值以及μ的範圍通過去估算t值範圍，再查表得到置信度範圍。更常用的判據是：當t<-t* 或t>t*時，此次抽樣或測量支持原設μ的範圍的機會小於5％。舉個簡單例子也許更清楚。

一位研究生看到一篇文獻上測量一個新的奈米粒子樣品的¹³C譜，得到一根單峰，該文作者提到室溫下該樣品的¹³C的縱向鬆弛時間為2.45秒，誤差範圍0.05秒（在95.0％的信賴度下）。該研究生在同樣條件下重覆10次測量了¹³C的縱向鬆弛時間，得到的值如下（秒）：

2.25 2.30 2.35 2.32 2.34 2.22 2.28 2.19 2.23 2.27

該文作者報導的¹³C的縱向鬆弛時間值的可信度如何？

查t表得，N＝10時，95.0％的信賴度下t*＝2.26。而代入 μ＝（2.45-0.05, 2.45+0.05）＝（2.40, 2.50），＝2.275, s＝0.06， N＝10，立得95.0％信賴度的t之範圍：(-6.81, -12.26)，均小於-2.26，故可認為¹³C的縱向鬆弛時間為2.45秒的可能性低於0.05（直接查更全的t表亦知此機率）。