維基百科:數據庫下載

維基百科提供所有完整內容的電子檔案(稱為「數據庫轉儲文件」)給有興趣的使用者。這些資料可以被重複使用,當作鏡像站點,或是個人使用,或是資料備份,或是分析。所有維基百科文章都在知識共享 署名-相同方式共享 4.0協議下發布,圖片以及其他檔案則可能以其他的許可證發佈,詳情參見Wikipedia:版權信息

文章下載

編輯

數據庫轉儲文件,也可特指名為 *-pages-articles.xml.bz2 的文件,大約每周更新一次。此文件包含了當前版本的條目、模板、圖片描述及基本的元頁面(不包括討論頁和用戶頁)。這已經可以滿足絕大多數需求了,如有特殊需求,請根據壓縮文件的描述下載。

(※)注意,不同語言的條目內容不一定相同,歡迎您協助翻譯不完善的條目或提出翻譯請求

圖片及其他檔案

編輯

圖片(以及其他的檔案)的許可證不一定是以知識共享 署名-相同方式共享 3.0協議發佈,將維基百科上屬於合理使用的圖片或檔案使用在別的用途上可能是違法的。維基百科要求使用者在上傳圖片時必須標明版權資訊,這些資訊也可以在下載頁面取得。

總而言之,你如果要使用這些圖片及檔案,你必須自行判斷,並負起相關責任。

自2007年5月17日之後,維基百科不再開放這些圖片及檔案的BitTorrent(BT)下載。

檔案過大的問題

編輯

由於維基百科的資料量龐大,在下載時可能會遇到一些問題:

下載軟體的限制
下載軟體可能會有單一檔案最大2GB或4GB的限制,如果遇到問題,可以試著用:
檔案系統對單一檔案大小的限制
對於維基百科的檔案大小而言,一般比較容易遇到問題的是FAT
  • FAT16:單一檔案大小的限制是2GB。(在Windows MEWindows NT可以支援到4GB)
  • FAT32/VFAT:4GB。

除此之外,建議您使用MD5檢查下載的檔案是否有損毀。另外下載維基數據庫時請儘量不要使用多線程下載工具以減輕維基服務器的負擔。

壓縮文檔的解壓縮

編輯

電子檔案使用了bzip2gz或7-zip壓縮。解壓方式如下:

  • Microsoft Windows用戶可以使用帶有GUI的7-Zip解壓縮上述兩種文件格式。如果需要命令行工具,可以安裝cygwin,或者使用google搜索"windows cli bzip2"找解決方案。
  • Mac OS X的使用者可以透過系統內的bzip2套件解壓縮。或安裝p7-zip。
  • GNU/Linux用戶可直接在命令行下使用bzip2gzip命令進行解壓縮。或安裝p7-zip。

要注意舊版的bzip2套件可能沒有辦法處理超過2GB的檔案。

處理轉儲文件

編輯

數據庫轉儲文件有xml格式的和sql格式的,sql可直接導入數據庫。 xml格式需要解析後導入數據庫。部分節點需要原樣保留空格,請選擇支持保留空格的xml解析器進行處理,以免丟失信息。

外部連結提供了一些已有的解析器實現以及wiki標記語言的格式說明,可以作為自製解析器的參考。 當然,中文幫助也是必不可少的。

關於建立維基鏡像的操作,可以參考外部連結,或使用Google搜索了解詳細步驟。
如果要取得運行維基百科的軟件,請參見Wikipedia:MediaWiki

您可以取得Mediawiki數據庫的schema。數據庫的布局請參考外部連結。

外部連結

編輯