內曼-皮爾森引理

在統計學中，內曼-皮爾森引理（英語：Neyman–Pearson lemma）是假設檢定的基本引理，由耶日·內曼和埃貢·皮爾森於1933年提出。引理指出當虛無假設和對立假設均為簡單假說時，似然比檢驗（英語：Likelihood-ratio test）在所有顯著水平相同的檢驗中統計功效最大。

假設檢定是根據樣本的觀察結果，判斷關於總體的命題真偽的方法。若要對某一命題的真偽做出判斷，兩種錯誤可能會發生：在命題為真時判斷它為假，和在命題為假時判斷它為真，兩者分別稱為第一型錯誤與第二型錯誤。發生第一型錯誤的概率即稱作顯著水平，而不發生第二型錯誤的概率稱作統計功效。儘管理想的判斷方法應該同時最小化兩種錯誤，但這一點很難實現。內曼-皮爾森引理給出了，在發生第一型錯誤的概率上限固定時，能儘量減少第二型錯誤的檢驗方法。

背景

工廠驗收、飛機試飛、新藥研發等場合會從總體中抽樣進行檢查。總體的某一性質，比如合格品的佔比、藥品的效力，可被視作擁有未知概率分佈的隨機變量 $\,X\,$ ，比如期望值和方差不明確的正態分佈。對樣本中這一性質的觀察結果可視為 $\,X\,$ 的取值，記為 $\,x\,$ 。通過這些觀察結果，對有關 $\,X\,$ 的假說做出判斷，例如分佈的期望值是否大於某一特定值，便是假設檢定的目標。這種判斷稱作接受或拒絕這一假說。^[1]若 $\,X\,$ 有兩種可能的分佈 $\,P_{0}\,$ 和 $\,P_{1}\,$ ，記 $\,X\,$ 服從分佈 $\,P_{0}\,$ 這一假說為 $\,H_{0}\,$ ，而 $\,X\,$ 不服從分佈 $\,P_{0}\,$ ，亦即服從分佈 $\,P_{1}\,$ 這一假說為 $\,H_{1}\,$ 。用 $\,\phi \,$ 表示對假說的檢驗，其中 $\,\phi (x)=0\,$ 表示根據 $\,x\,$ 的值接受了假說 $\,H_{0}\,$ ，而 $\,\phi (x)=1\,$ 則代表拒絕了假說 $\,H_{0}\,$ 。兩種假說稱作虛無假設和對立假設。^[2]

內曼和皮爾森認為，僅靠概率論無法證實或證偽單一的假說。然而，可以建立一套用於判斷一系列假說的規則，使得長遠來看依靠這一規則做出的判斷大多數時候是正確的。^[3]在判斷觀測到的數據 $\,x\,$ 來自於哪一種分佈時，正如預算有限的消費者在購物時會分析商品的性價比，時間緊迫的旅客會思考不同交通方式的速度，一種可能的檢驗方法在於計算兩種分佈下出現這一觀測結果的概率之比

{\frac {P_{1}(x)}{P_{0}(x)}}.

比值中的兩種概率稱作似然，而該檢驗方法稱作似然比檢驗。^[4]

無論對假說作出怎樣的判斷，不可避免地會出現第一型錯誤與第二型錯誤：在假說為真時拒絕假說，和在假說為假時接受假說。取決於假設檢定運用的場合，兩種錯誤的結果會相當不同。若是用假設檢定判斷患者是否患有某一疾病，則第一型錯誤代表着患者沒有患病時仍進行治療，可能造成患者的不適和金錢損失；第二型錯誤則代表患者患病但沒有診出，若病情因而惡化可能導致患者死亡。在樣本大小固定的情況下，無法同時控制這兩種錯誤。發生第一型錯誤的概率稱作顯著水平，統計功效則指不發生第二型錯誤的概率。^[5]似然比檢驗即是顯著水平上限固定時，統計功效最大的檢驗方法。^[4]

陳述

埃里希·萊曼（英語：Erich Leo Lehmann）使用拉東-尼科迪姆導數定義概率分佈的概率密度函數，對引理的表述為：^[6]

內曼-皮爾森引理 — 設 $\,P_{0},P_{1}\,$ 為概率分佈，其關於測度 $\,\mu \,$ 的概率密度函數分別為 $\,p_{0},p_{1}\,$ 。

存在性：存在有檢驗 $\,\phi \,$ 和常數 $\,k\,$ 使得

E_{0}(\phi (X))=\alpha ,

(1)

\phi (x)={\begin{cases}1,\quad p_{1}(x)>kp_{0}(x),\\0,\quad p_{1}(x)<kp_{0}(x).\end{cases}}

(2)

最強力檢定的充分條件：滿足上述條件1和2的檢驗在顯著水平為 $\,\alpha \,$ 的所有檢驗中統計功效最大。
最強力檢定的必要條件：若檢驗 $\,\phi \,$ 的顯著水平為 $\,\alpha \,$ ，且在顯著水平相同的所有檢驗中統計功效最大，則存在常數 $\,k\,$ 使得 $\,\phi \,$ 在測度 $\,\mu \,$ 上幾乎處處滿足條件2。除非存在顯著水平小於 $\,\alpha \,$ 且統計功效為 $\,1\,$ 的檢驗，檢驗 $\,\phi \,$ 亦滿足條件1。

上述表述中的 $\,E_{0}(\phi (X))\,$ 表示假說 $\,H_{0}\,$ 為真時 $\,\phi (X)\,$ 的期望值。

另一種簡化後的表述則只包含了充分條件部分：^[2]

內曼-皮爾森引理 — 若檢驗 $\,\phi \,$ 的顯著水平為 $\,\alpha \,$ ，其方法為在比值

{\frac {P_{1}(x)}{P_{0}(x)}}.

大於某常數 $\,k\,$ 時拒絕 $\,H_{0}\,$ ，即此時 $\,\phi (x)=1\,$ 。則任何其他顯著水平小於等於 $\,\alpha \,$ 的檢驗方法的統計功效均小於等於 $\,\phi \,$ 的統計功效。

證明

記概率分佈 $\,P_{0},P_{1}\,$ 的概率密度函數或概率質量函數分別為 $\,p_{0},p_{1}\,$ 。一種檢驗方法 $\,\phi \,$ 只取 $\,0,1\,$ 兩個值，故 $\,\phi (X)\,$ 是一個服從伯努利分佈的隨機變量。它的顯著水平

P_{0}(\phi (X)=1)

即是假說 $\,H_{0}\,$ 為真時 $\,\phi (X)\,$ 的期望值

E_{0}(\phi (X)).

它的統計功效

P_{1}(\phi (X)=0)

即是假說 $\,H_{1}\,$ 為真時 $\,\phi (X)\,$ 的期望值

E_{1}(\phi (X)).

若 $\,\phi \,$ 是顯著水平為 $\,\alpha \,$ 的似然比檢驗，即 $\,\phi (x)\,$ 在 $\,p_{1}(x)>kp_{0}(x)\,$ 時取值為 $\,1\,$ ，且 $\,E_{0}(\phi (X))=\alpha \,$ 。設有另一個顯著水平小於等於 $\,\alpha \,$ 的檢驗 $\,\phi ^{*}\,$ ，即 $\,E_{0}(\phi ^{*}(X))\leq E_{0}(\phi (X))=\alpha \,$ ，則有不等式

\phi ^{*}(x)[p_{1}(x)-kp_{0}(x)]\leq \phi (x)[p_{1}(x)-kp_{0}(x)].

這是因為若 $\,\phi (x)=1\,$ ，則依 $\,\phi \,$ 的定義 $\,p_{1}(x)>kp_{0}(x)\,$ ；若 $\,\phi (x)=0\,$ ，則 $\,p_{1}(x)<kp_{0}(x)\,$ 。

對不等式兩側關於 $\,x\,$ 積分或求和，則

E_{1}(\phi ^{*}(X))-kE_{0}(\phi ^{*}(X))\leq E_{1}(\phi (X))-kE_{0}(\phi (X)).

因此

k[E_{0}(\phi (X))-E_{0}(\phi ^{*}(X))]\leq E_{1}(\phi (X))-E_{1}(\phi ^{*}(X)).

由於 $\,\phi ^{*}\,$ 的顯著水平小於等於 $\,\phi \,$ ，此時不等式左側非負。因此不等式右側同樣非負，即 $\,\phi ^{*}\,$ 的統計功效亦小於等於 $\,\phi \,$ 。

例子

若 $\,x\,$ 取自期望值為 $\,\mu \,$ ，方差為 $\,\sigma ^{2}\,$ 的正態分佈，其中 $\,\sigma ^{2}\,$ 已知但 $\,\mu \,$ 為未知。如果假說 $\,H_{0}\,$ 為 $\,\mu =0\,$ ，假說 $\,H_{1}\,$ 為 $\,\mu =\mu _{1}>0\,$ ，則似然比為

{\frac {p_{1}(x)}{p_{0}(x)}}={\frac {\exp[-(x-\mu _{1})^{2}/(2\sigma ^{2})]}{\exp[-x^{2}/(2\sigma ^{2})]}}=\exp \left({\frac {\mu _{1}x}{\sigma ^{2}}}-{\frac {\mu _{1}^{2}}{2\sigma ^{2}}}\right).

由於指數函數單調遞增，似然比 $\,{p_{1}(x)}/{p_{0}(x)}>k\,$ 等價於 $\,x\,$ 大於另一常數，即 $\,x>k'\,$ 。

顯著水平為 $\,\alpha \,$ 的檢驗需要滿足 $\,P_{0}(X>k')=\alpha \,$ ，因此 $\,k'=\sigma z_{1-\alpha }\,$ ，其中 $\,z_{1-\alpha }\,$ 表示標準正態分佈的第 $\,(1-\alpha )\,$ 分位數。因此，對這一問題統計功效最大的檢驗方法為在 $\,X>\sigma z_{1-\alpha }\,$ 時拒絕 $\,H_{0}\,$ 。^[7]^[8]

參見

註釋

^ Lehmann & Romano 2022，第3–7頁.
^ ^2.0 ^2.1 Rice 2007，第331–332頁.
^ Neyman & Pearson 1933.
^ ^4.0 ^4.1 Lehmann & Romano 2022，第64–65頁.
^ Lehmann & Romano 2022，第61–64頁.
^ Lehmann & Romano 2022，第66頁.
^ Lehmann & Romano 2022，第68–69頁.
^ Rice 2007，第333頁.

參考文獻

書籍

Lehmann, E. L.; Romano, Joseph P., Testing Statistical Hypotheses, Fourth Edition, Springer, 2022, ISBN 978-3-030-70578-7 （英語）
Rice, John A., Mathematical Statistics and Data Analysis, Third Edition, Duxbury, 2007, ISBN 0-534-39942-8 （英語）

期刊論文

Neyman, J.; Pearson, E. S., On the Problem of the Most Efficient Tests of Statistical Hypotheses, Philosophical Transactions of the Royal Society of London, Series A, 1933, 231: 289–337, doi:10.1098/rsta.1933.0009 （英語）

[FOOTNOTELehmannRomano20223&ndash;7-1] Lehmann & Romano 2022，第3–7頁.

[FOOTNOTERice2007331&ndash;332-2] 2.0 ^2.1 Rice 2007，第331–332頁.

[FOOTNOTENeymanPearson1933-3] Neyman & Pearson 1933.

[FOOTNOTELehmannRomano202264&ndash;65-4] 4.0 ^4.1 Lehmann & Romano 2022，第64–65頁.

[FOOTNOTELehmannRomano202261&ndash;64-5] Lehmann & Romano 2022，第61–64頁.

[FOOTNOTELehmannRomano202266-6] Lehmann & Romano 2022，第66頁.

[FOOTNOTELehmannRomano202268&ndash;69-7] Lehmann & Romano 2022，第68–69頁.

[FOOTNOTERice2007333-8] Rice 2007，第333頁.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]