HTTrack是一個自由開源網絡爬蟲以及離線瀏覽器。它的作者是澤維爾·羅奇(Xavier Roche),在GNU通用公共授權條款GPL)下發布。

HTTrack
HTTrack啟動時的畫面
開發者Xavier Roche[1]
當前版本
  • 3.49.5 (2024年1月27日;穩定版本)[2]
編輯維基數據鏈接
源代碼庫 編輯維基數據鏈接
編程語言C語言
操作系統Microsoft Windows, Mac OS X, GNU/LinuxFreeBSD
類型離線瀏覽網絡爬蟲
許可協議GNU通用公共授權條款
網站www.httrack.com

使用者可以通過HTTrack把互聯網上的網站頁面下載到本地計算機上。在默認設置下,HTTrack對網站頁面的下載結果是按照原始站點相對鏈接的結構來組織的。用網頁瀏覽器打開這個被下載下來的網站(也稱作鏡像)的頁面,就可以離線瀏覽了。

HTTrack也能對已經鏡像過的站點進行更新。或者是對中斷了的工作斷點續傳。可以通過選項和過濾器(include/exclude)配置HTTrack的方方面面。它還整合有幫助系統。它有一個基本的命令行版本和兩個GUI(為Windows設計的WinHTTrack和為Unix-like系統設計的WebHTTrack);命令行版本可以和Shell腳本(Shell script)以及cron聯用。

HTTrack使用網絡爬蟲下載網站。對於有robots.txt的網站,如果不在程序運行時取消限制,默認設置下的程序不會把網站完全鏡像。HTTrack能跟隨基本的JavaScript,或者AppletFlash中的鏈接,但是對於複雜的鏈接(使用函數和表達式創建的鏈接)或者服務器端的Image Map英語Image Map則無能為力。

安裝與使用 編輯

在許多Unix-like系統下,只需要用包管理工具安裝httrack即可。例如Debian使用

sudo aptitude install httrack

一個使用例子:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

它的意思是:以http://www.all.net/ 为起始URL,输出到/tmp/www.all.net文件夹,范围是www.all.net域名下的所有文件,并显示所有错误信息(verbose)。更詳細的信息請看官網上的Users Guide[4]

參見 編輯

腳註 編輯

  1. ^ Credits: Greetings & authors. [2012-10-26]. (原始內容存檔於2020-04-29). 
  2. ^ Release 3.49.5. 
  3. ^ 存档副本. [2012-10-26]. (原始內容存檔於2012-10-25). 
  4. ^ Httrack Users Guide. [2012-10-26]. (原始內容存檔於2012-10-26). 

外部連結 編輯