HTTrack
HTTrack是一個自由、開源的網絡爬蟲以及離線瀏覽器。它的作者是澤維爾·羅奇(Xavier Roche),在GNU通用公眾特許條款(GPL)下釋出。
開發者 | Xavier Roche[1] |
---|---|
目前版本 | 3.49-2(2017年5月20日[2]) |
原始碼庫 | |
程式語言 | C語言 |
作業系統 | Microsoft Windows, Mac OS X, GNU/Linux和FreeBSD |
類型 | 離線瀏覽、網絡爬蟲 |
特許條款 | GNU通用公眾特許條款 |
網站 | www |
用戶可以通過HTTrack把互聯網上的網站頁面下載到本地電腦上。在預設設置下,HTTrack對網站頁面的下載結果是按照原始站點相對連結的結構來組織的。用網頁瀏覽器打開這個被下載下來的網站(也稱作鏡像)的頁面,就可以離線瀏覽了。
HTTrack也能對已經鏡像過的站點進行更新。或者是對中斷了的工作斷點續傳。可以通過選項和過濾器(include/exclude)組態HTTrack的方方面面。它還整合有幫助系統。它有一個基本的命令列版本和兩個GUI(為Windows設計的WinHTTrack和為Unix-like系統設計的WebHTTrack);命令列版本可以和Shell指令碼(Shell script)以及cron聯用。
HTTrack使用網絡爬蟲下載網站。對於有robots.txt的網站,如果不在程式執行時取消限制,預設設置下的程式不會把網站完全鏡像。HTTrack能跟隨基本的JavaScript,或者Applet、Flash中的連結,但是對於複雜的連結(使用函數和表達式建立的連結)或者伺服器端的Image Map則無能為力。
安裝與使用
編輯在許多Unix-like系統下,只需要用包管理工具安裝httrack即可。例如Debian使用
sudo aptitude install httrack
一個使用例子:
httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v
它的意思是:以http://www.all.net/ 为起始URL,输出到/tmp/www.all.net文件夹,范围是www.all.net域名下的所有文件,并显示所有错误信息(verbose)。更詳細的資訊請看官網上的Users Guide[3]。
參見
編輯註腳
編輯- ^ Credits: Greetings & authors. [2012-10-26]. (原始內容存檔於2020-04-29).
- ^ 存档副本. [2012-10-26]. (原始內容存檔於2012-10-25).
- ^ Httrack Users Guide. [2012-10-26]. (原始內容存檔於2012-10-26).