維基百科:來源覆蓋度檢查

維基百科可供查證方針和列明來源指引清晰的闡述了編者最好以腳註的形式列出來源。可以近似的將每個腳註對應的平均正文長度作為來源覆蓋度的指標;每個腳註平均正文長度越長,則來源覆蓋度越低,反之則來源覆蓋度越高。

一般而言,一個好的條目,最好能做到每個可能被質疑的論斷都有來源支撐。這可以大致理解為,平均每100個漢字(300字節)就應當有一個腳註列明來源,而如果超過200個漢字(600字節)對應一個腳註,可能意味着條目存在潛在的問題。這個結論並不絕對,存在一些不適用的情形。可以通過自動化工具進行來源覆蓋度檢查。相關數據也顯示,典範條目優良條目通常有着較高的來源覆蓋度,而一些相對低質量的條目則更可能有着較低的來源覆蓋度。

100個漢字和200個漢字 編輯

「100個漢字」的結論來自於以下推理:每個可能被質疑的論斷都應有來源支撐;而在現代漢語中,每個論斷通常可以用大約100個漢字闡述清楚。這一估算實際上比較保守,很多情況下更少的漢字就足夠了;可以參考本論述的導言部分,大約300個漢字,對應了至少6個論斷,平均每個論斷50個漢字。可能存在一些章節,特別是敘述某個過程時,一個來源足以支撐;也可能一些敏感的論斷,其中每個小的事實都需要一個來源支撐。然而,根據統計原理,當一個條目有足夠多數量(通常至少20個)的論斷時,更可能(更高概率)發生的情形是,有的章節需要更多來源,有的章節需要較少來源,但平均值相對固定。

類似的,我們還可以進一步假設每個論斷對應的腳註數量服從泊松分布,那麼超過200個漢字沒有腳註則很有可能意味着條目存在潛在的問題,需要仔細甄別。可能揭示的問題有:

  • 來源缺失,例如整段內容無來源
  • 點列式條目或過多瑣碎內容,且沒有列明來源
  • 原創研究
  • ……

不適用的情形 編輯

條目的導言不受來源覆蓋度的要求。根據格式手冊序言章節列明來源的要求,複雜的、正在發生的、或有爭議的主題可能需要列明來源;其他的則列出少量甚或不用列出。因此,常見的情形是導言中甚少列出來源。

請避免引證過頭英語Wikipedia:Citation overkill。來源覆蓋度的假設是每個斷言都有一個來源支撐,在這一前提下平均100個漢字有一個腳註;如果出現引證過頭的情形,雖然平均下來100個漢字有一個腳註,但是其實條目中的某些論斷是沒有來源支撐的。

來源覆蓋度檢查只適用於條目;例如,本論述沒有引用任何來源。

自動化工具 編輯

來源覆蓋度檢查提供了一個自動化工具,可以通過複製粘貼的方式檢查一段Wiki標記語言的來源覆蓋度。當發現一處腳註對應了超過200個漢字(600字節)時,工具會自動加以提醒。目前工具只支持<ref>和{{r}}的形式;其餘形式,例如{{notetag}}和{{harvnb}}的使用者通常也比較熟悉列明來源的要求,較少需要使用工具輔助判斷。

相關數據 編輯

下面列出了一些典範條目優良條目使用自動化工具得到的來源覆蓋度檢查結果。請注意,其中的單位是字節,需要除以3方可得到漢字字數。

  •  言論的邊界的版本46752667
  • 正文長度:15285 ;腳註數量:97 ;每個腳註平均正文長度:158
    • 注意:發現一處腳註對應了 678 個字符,從以下位置開始:是一本由記者安...(序言章節不受要求)
  •  德宏芒市機場的版本47623195
  • 正文長度:19507 ;腳註數量:131 ;每個腳註平均正文長度:149
    • 注意:發現一處腳註對應了 653 個字符,從以下位置開始:==設施==...(圖片代碼占據多個字節)

另一方面,對由於來源不足被撤銷的優良條目來源覆蓋度檢查,明顯存在問題。

  •  藍調的版本30572329
  • 正文長度:26473 ;腳註數量:7 ;每個腳註平均正文長度:3782
    • 注意:發現一處腳註對應了 630 個字符,從以下位置開始:是一種基於五聲音...
    • 注意:發現一處腳註對應了 1185 個字符,從以下位置開始:今天的藍調可以看作是...
    • 注意:發現一處腳註對應了 10806 個字符,從以下位置開始:與當時的其它音樂紀錄...(將近4000字沒有來源)
    • 注意:發現一處腳註對應了 1099 個字符,從以下位置開始:寫 道,兩位演唱家都...