誤差

統計概念

統計學和最佳化中，誤差（error）和殘差（residual）是兩個相近但有區別的概念，二者均是統計樣本中某一元素的觀測值（英語：observed value）與其「真值」（未必可直接觀測得到）之間的離差的度量。觀察的誤差是觀測值與相關量（例如總體平均值）的真值之間的差值。殘差是觀測值與統計量的估計值（例如樣本均值）之間的差值。這種區別在迴歸分析中至關重要，迴歸分析中，這些概念有時稱為迴歸誤差（regression errors）和迴歸殘差（regression residuals），它們引出了學生化殘差（英語：studentized residual）的概念。

計量經濟學中，誤差也稱為擾動（disturbances）。^[1]^[2]^[3]

簡介編輯

假設有一系列取自單變量分佈（英語：univariate distribution）的觀察結果，我們想要估計該分佈的平均值。此時，誤差是觀測值與總體均值的偏差，而殘差是觀測值與樣本均值的偏差。

統計誤差（statistical error）是觀察值與其期望值的差異程度，而期望值基於隨機選擇統計單位的總體。例如，如果21歲男性的平均身高為1.75米，而隨機選出的一名男性身高為1.80米，則「誤差」為0.05米；如果隨機選出男性人身高1.70米，則「誤差」為-0.05 米。期望值是整個總體的均值，通常是無法觀測的，因此統計誤差也無從知曉。

而殘差（residual）是對無法觀測的統計誤差的可觀測估計。在上述的男性身高的例子中，假設我們隨機抽取n個人作為樣本。樣本均值可以很好地估計總體均值。此時：

樣本中每個人的身高與無法觀測的總體均值之間的差值是統計誤差，
樣本中每個人的身高與可觀測的樣本均值之間的差值是殘差。

注意，由於樣本均值的定義，隨機樣本內的殘差之和必然為零，因此殘差必然不是相互獨立的。而統計誤差是獨立的，它們在隨機樣本中的總和幾乎肯定不為零。

統計誤差（尤其是正態分佈的）的數值可以用標準分數（或「z分數」）來標準化，而殘差可以用t統計量（英語：t-statistic），或更一般的學生化殘差（英語：studentized residuals）來標準化。

單變量分佈編輯

假定有一個均值為 $μ$ 、標準差為 $σ$ 的正態分佈總體，從中隨機選擇個體，得到樣本：

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

其樣本均值為

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

它是一個隨機變量分佈，服從：

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

其統計誤差為：

e_{i}=X_{i}-\mu ,\,

其期望值為0，^[4]而殘差為：

r_{i}=X_{i}-{\overline {X}}.

統計誤差的平方和除以 $σ 2$ ，得到自由度為 $n$ 的卡方分佈：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

然而，因為總體均值未知，這個數量是不可觀測的。但是，殘差的平方和是可觀測的。該總和除以 $σ 2$ 的商是 $n - 1$ 自由度的卡方分佈：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

自由度為 $n$ 和 $n - 1$ 之間的區別是對總體（均值、方差未知）的方差估計值的貝塞爾校正（英語：Bessel's correction）。若總體均值已知，則無需進行校正。

參見編輯

參考文獻編輯

^ Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. （原始內容存檔於2022-07-12）.
^ Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. （原始內容存檔於2022-07-12）.
^ Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. （原始內容存檔於2022-07-12）.
^ Wetherill, G. Barrie. Intermediate statistical methods . London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.

Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. （原始內容存檔於2022-04-06）.
Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. （原始內容存檔於2022-07-12）.
Hazewinkel, Michiel (編), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

外部連結編輯

維基共享資源上的相關多媒體資源：誤差

取自 "https://zh.wikipedia.org/w/index.php?title=误差&oldid=78677250"