內曼-皮爾森引理

在統計學中，內曼-皮爾森引理（英語：Neyman–Pearson lemma）是假說檢定的基本引理，由耶日·內曼和埃貢·皮爾森於1933年提出。引理指出當虛無假說和對立假說均為簡單假說時，概似比檢定（英語：Likelihood-ratio test）在所有顯著水準相同的檢定中檢定力最大。

假說檢定是根據樣本的觀察結果，判斷關於母體的命題真偽的方法。若要對某一命題的真偽做出判斷，兩種錯誤可能會發生：在命題為真時判斷它為假，和在命題為假時判斷它為真，兩者分別稱為型一錯誤與型二錯誤。發生型一錯誤的機率即稱作顯著水準，而不發生型二錯誤的機率稱作檢定力。儘管理想的判斷方法應該同時最小化兩種錯誤，但這一點很難實現。內曼-皮爾森引理給出了，在發生型一錯誤的機率上限固定時，能儘量減少型二錯誤的檢定方法。

背景

工廠驗收、飛機試飛、新藥研發等場合會從母體中抽樣進行檢查。母體的某一性質，比如合格品的占比、藥品的效力，可被視作擁有未知機率分布的隨機變數 $\,X\,$ ，比如期望值和變異數不明確的常態分布。對樣本中這一性質的觀察結果可視為 $\,X\,$ 的取值，記為 $\,x\,$ 。通過這些觀察結果，對有關 $\,X\,$ 的假說做出判斷，例如分布的期望值是否大於某一特定值，便是假說檢定的目標。這種判斷稱作接受或拒絕這一假說。^[1]若 $\,X\,$ 有兩種可能的分布 $\,P_{0}\,$ 和 $\,P_{1}\,$ ，記 $\,X\,$ 服從分布 $\,P_{0}\,$ 這一假說為 $\,H_{0}\,$ ，而 $\,X\,$ 不服從分布 $\,P_{0}\,$ ，亦即服從分布 $\,P_{1}\,$ 這一假說為 $\,H_{1}\,$ 。用 $\,\phi \,$ 表示對假說的檢定，其中 $\,\phi (x)=0\,$ 表示根據 $\,x\,$ 的值接受了假說 $\,H_{0}\,$ ，而 $\,\phi (x)=1\,$ 則代表拒絕了假說 $\,H_{0}\,$ 。兩種假說稱作虛無假說和對立假說。^[2]

內曼和皮爾森認為，僅靠機率論無法證實或證偽單一的假說。然而，可以建立一套用於判斷一系列假說的規則，使得長遠來看依靠這一規則做出的判斷大多數時候是正確的。^[3]在判斷觀測到的數據 $\,x\,$ 來自於哪一種分布時，正如預算有限的消費者在購物時會分析商品的性價比，時間緊迫的旅客會思考不同交通方式的速度，一種可能的檢定方法在於計算兩種分布下出現這一觀測結果的機率之比

{\frac {P_{1}(x)}{P_{0}(x)}}.

比值中的兩種機率稱作概似，而該檢定方法稱作概似比檢定。^[4]

無論對假說作出怎樣的判斷，不可避免地會出現型一錯誤與型二錯誤：在假說為真時拒絕假說，和在假說為假時接受假說。取決於假說檢定運用的場合，兩種錯誤的結果會相當不同。若是用假說檢定判斷患者是否患有某一疾病，則型一錯誤代表著患者沒有患病時仍進行治療，可能造成患者的不適和金錢損失；型二錯誤則代表患者患病但沒有診出，若病情因而惡化可能導致患者死亡。在樣本大小固定的情況下，無法同時控制這兩種錯誤。發生型一錯誤的機率稱作顯著水準，檢定力則指不發生型二錯誤的機率。^[5]概似比檢定即是顯著水準上限固定時，檢定力最大的檢定方法。^[4]

陳述

埃里希·萊曼（英語：Erich Leo Lehmann）使用拉東-尼科迪姆導數定義機率分布的機率密度函數，對引理的表述為：^[6]

內曼-皮爾森引理 — 設 $\,P_{0},P_{1}\,$ 為機率分布，其關於測度 $\,\mu \,$ 的機率密度函數分別為 $\,p_{0},p_{1}\,$ 。

存在性：存在有檢定 $\,\phi \,$ 和常數 $\,k\,$ 使得

E_{0}(\phi (X))=\alpha ,

1

\phi (x)={\begin{cases}1,\quad p_{1}(x)>kp_{0}(x),\\0,\quad p_{1}(x)<kp_{0}(x).\end{cases}}

2

最強力檢定的充分條件：滿足上述條件1和2的檢定在顯著水準為 $\,\alpha \,$ 的所有檢定中檢定力最大。
最強力檢定的必要條件：若檢定 $\,\phi \,$ 的顯著水準為 $\,\alpha \,$ ，且在顯著水準相同的所有檢定中檢定力最大，則存在常數 $\,k\,$ 使得 $\,\phi \,$ 在測度 $\,\mu \,$ 上幾乎處處滿足條件2。除非存在顯著水準小於 $\,\alpha \,$ 且檢定力為 $\,1\,$ 的檢定，檢定 $\,\phi \,$ 亦滿足條件1。

上述表述中的 $\,E_{0}(\phi (X))\,$ 表示假說 $\,H_{0}\,$ 為真時 $\,\phi (X)\,$ 的期望值。

另一種簡化後的表述則只包含了充分條件部分：^[2]

內曼-皮爾森引理 — 若檢定 $\,\phi \,$ 的顯著水準為 $\,\alpha \,$ ，其方法為在比值

{\frac {P_{1}(x)}{P_{0}(x)}}.

大於某常數 $\,k\,$ 時拒絕 $\,H_{0}\,$ ，即此時 $\,\phi (x)=1\,$ 。則任何其他顯著水準小於等於 $\,\alpha \,$ 的檢定方法的檢定力均小於等於 $\,\phi \,$ 的檢定力。

證明

記機率分布 $\,P_{0},P_{1}\,$ 的機率密度函數或機率質量函數分別為 $\,p_{0},p_{1}\,$ 。一種檢定方法 $\,\phi \,$ 只取 $\,0,1\,$ 兩個值，故 $\,\phi (X)\,$ 是一個服從伯努利分布的隨機變數。它的顯著水準

P_{0}(\phi (X)=1)

即是假說 $\,H_{0}\,$ 為真時 $\,\phi (X)\,$ 的期望值

E_{0}(\phi (X)).

它的檢定力

P_{1}(\phi (X)=0)

即是假說 $\,H_{1}\,$ 為真時 $\,\phi (X)\,$ 的期望值

E_{1}(\phi (X)).

若 $\,\phi \,$ 是顯著水準為 $\,\alpha \,$ 的概似比檢定，即 $\,\phi (x)\,$ 在 $\,p_{1}(x)>kp_{0}(x)\,$ 時取值為 $\,1\,$ ，且 $\,E_{0}(\phi (X))=\alpha \,$ 。設有另一個顯著水準小於等於 $\,\alpha \,$ 的檢定 $\,\phi ^{*}\,$ ，即 $\,E_{0}(\phi ^{*}(X))\leq E_{0}(\phi (X))=\alpha \,$ ，則有不等式

\phi ^{*}(x)[p_{1}(x)-kp_{0}(x)]\leq \phi (x)[p_{1}(x)-kp_{0}(x)].

這是因為若 $\,\phi (x)=1\,$ ，則依 $\,\phi \,$ 的定義 $\,p_{1}(x)>kp_{0}(x)\,$ ；若 $\,\phi (x)=0\,$ ，則 $\,p_{1}(x)<kp_{0}(x)\,$ 。

對不等式兩側關於 $\,x\,$ 積分或求和，則

E_{1}(\phi ^{*}(X))-kE_{0}(\phi ^{*}(X))\leq E_{1}(\phi (X))-kE_{0}(\phi (X)).

因此

k[E_{0}(\phi (X))-E_{0}(\phi ^{*}(X))]\leq E_{1}(\phi (X))-E_{1}(\phi ^{*}(X)).

由於 $\,\phi ^{*}\,$ 的顯著水準小於等於 $\,\phi \,$ ，此時不等式左側非負。因此不等式右側同樣非負，即 $\,\phi ^{*}\,$ 的檢定力亦小於等於 $\,\phi \,$ 。

例子

若 $\,x\,$ 取自期望值為 $\,\mu \,$ ，變異數為 $\,\sigma ^{2}\,$ 的常態分布，其中 $\,\sigma ^{2}\,$ 已知但 $\,\mu \,$ 為未知。如果假說 $\,H_{0}\,$ 為 $\,\mu =0\,$ ，假說 $\,H_{1}\,$ 為 $\,\mu =\mu _{1}>0\,$ ，則概似比為

{\frac {p_{1}(x)}{p_{0}(x)}}={\frac {\exp[-(x-\mu _{1})^{2}/(2\sigma ^{2})]}{\exp[-x^{2}/(2\sigma ^{2})]}}=\exp \left({\frac {\mu _{1}x}{\sigma ^{2}}}-{\frac {\mu _{1}^{2}}{2\sigma ^{2}}}\right).

由於指數函數單調遞增，概似比 $\,{p_{1}(x)}/{p_{0}(x)}>k\,$ 等價於 $\,x\,$ 大於另一常數，即 $\,x>k'\,$ 。

顯著水準為 $\,\alpha \,$ 的檢定需要滿足 $\,P_{0}(X>k')=\alpha \,$ ，因此 $\,k'=\sigma z_{1-\alpha }\,$ ，其中 $\,z_{1-\alpha }\,$ 表示標準常態分布的第 $\,(1-\alpha )\,$ 分位數。因此，對這一問題檢定力最大的檢定方法為在 $\,X>\sigma z_{1-\alpha }\,$ 時拒絕 $\,H_{0}\,$ 。^[7]^[8]

參見

注釋

^ Lehmann & Romano 2022，第3–7頁.
^ ^2.0 ^2.1 Rice 2007，第331–332頁.
^ Neyman & Pearson 1933.
^ ^4.0 ^4.1 Lehmann & Romano 2022，第64–65頁.
^ Lehmann & Romano 2022，第61–64頁.
^ Lehmann & Romano 2022，第66頁.
^ Lehmann & Romano 2022，第68–69頁.
^ Rice 2007，第333頁.

參考文獻

書籍

Lehmann, E. L.; Romano, Joseph P., Testing Statistical Hypotheses, Fourth Edition, Springer, 2022, ISBN 978-3-030-70578-7 （英語）
Rice, John A., Mathematical Statistics and Data Analysis, Third Edition, Duxbury, 2007, ISBN 0-534-39942-8 （英語）

期刊論文

Neyman, J.; Pearson, E. S., On the Problem of the Most Efficient Tests of Statistical Hypotheses, Philosophical Transactions of the Royal Society of London, Series A, 1933, 231: 289–337, doi:10.1098/rsta.1933.0009 （英語）

[FOOTNOTELehmannRomano20223&ndash;7-1] Lehmann & Romano 2022，第3–7頁.

[FOOTNOTERice2007331&ndash;332-2] 2.0 ^2.1 Rice 2007，第331–332頁.

[FOOTNOTENeymanPearson1933-3] Neyman & Pearson 1933.

[FOOTNOTELehmannRomano202264&ndash;65-4] 4.0 ^4.1 Lehmann & Romano 2022，第64–65頁.

[FOOTNOTELehmannRomano202261&ndash;64-5] Lehmann & Romano 2022，第61–64頁.

[FOOTNOTELehmannRomano202266-6] Lehmann & Romano 2022，第66頁.

[FOOTNOTELehmannRomano202268&ndash;69-7] Lehmann & Romano 2022，第68–69頁.

[FOOTNOTERice2007333-8] Rice 2007，第333頁.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]