网站时光机

網際網絡檔案儲儲存網站
(重定向自Wayback Machine

网站时光机(英語:Wayback Machine[4]万维网互联网上传播的其他信息的一个数字档案网站,是美国加利福尼亚州旧金山非營利組織——互联网档案馆最重要的服务之一。

网站时光机
Stylized text saying: "INTERNET ARCHIVE WAYBACK MACHINE". The text is in black, except for "WAYBACK", which is in red.
截图
20151221 Internet Archive Wayback Machine.png
网站类型 存档
持有者 互联网档案馆
网址 web.archive.org 編輯維基數據鏈接
Alexa排名 Increase 263 (截至2018年12月 (2018-12))[1]
注册 非强制
推出时间 2001年10月24日,​18年前​(2001-10-24[2][3]
现状 活跃
編程語言 C, Perl

历史编辑

网站时光机由互联网档案馆的创始人布魯斯特·卡利Bruce Gilliat英语Bruce Gilliat于2001年推出,以解决网站在维护或关闭时无法查看内容的问题[5],此外还能查看网页的历史存档版本,创始人Kahle和Gilliat希望以此能为整个互联网提供“普遍获取所有知识”的途径[6]

Wayback Machine这个名称源于动画片The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show中的“WABAC机器英语WABAC machine ”(发音为Way-back ),这是一个时间旅行装置[7][8]。在动画片的皮博迪的不可能的历史一集中,角色使用这一机器来见证、参与甚至改变历史上的著名事件[9]

网站时光机于1996年开始存档缓存网页,目标是在五年后将服务公之于众[10]。从1996年到2001年,信息保存在数字磁带上,Kahle偶尔允许研究人员和科学家使用数据库[11]。2001年,互联网档案馆成立五周年时,加州大学伯克利分校举行了网站时光机的公布仪式[12]。当Wayback Machine推出时,它已经存档了超过100亿个页面[13]

如今,数据存储在互联网档案馆的大型Linux节点群集上。[6]有时会重新访问并存档网站的新版本(参见下文技术细节)。[14]如果网站允许网络时光机“爬虫索引”网站并保存数据,则也可以通过在搜索框中输入网站的URL手动捕获网站。[10]

技术细节编辑

网络时光机已经开发了软件用于“爬虫索引”并下载所有可公开访问的万维网页面、Gopher层次结构、Usenet公告板系统和可下载软件。[15]这些“爬虫”收集的信息并不能包括因特网上所有可用的信息,因为许多数据受发布者限制或存储在不可访问的数据库中。为了克服部分缓存网站的不一致性,2005年,互联网档案馆开发了Archive-It.org,使得机构和内容创作者可以自愿收集和保存数字内容,并创建数字档案馆。[16]

爬虫索引来自各种来源,其中一些是从第三方导入的,而另一些是由存档内部生成的。[14]自2010年以来,"Worldwide Web Crawls[譯名請求]"一直在运行,并捕获全球网站。[14]

参见编辑

参考资料编辑

  1. ^ Archive.org Site Info. Alexa Internet. [2018-12-12]. (原始内容存档于2016-06-18). 
  2. ^ WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. 
  3. ^ InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. 
  4. ^ 印度政府突然全國封鎖「Wayback Machine」!事前未發出通知 | 香港 UNWIRE.HK 玩生活.樂科技. 香港Unwire.hk 玩生活.樂科技. 2017-08-10 [2018-05-03]. (原始内容存档于2017-08-10) (中文(台灣)‎). 
  5. ^ Notess, Greg R. The Wayback Machine: The Web's Archive. Online. March–April 2002, 26: 59–61. 
  6. ^ 6.0 6.1 20,000 Hard Drives on a Mission | Internet Archive Blogs. blog.archive.org. [2018-10-15]. (原始内容存档于2018-10-20) (美国英语). 
  7. ^ Green, Heather. A Library as Big as the World. BusinessWeek. 2002-02-28. (原始内容存档于2011-12-20). 
  8. ^ Tong, Judy. Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. 2002-09-08 [2011-08-15]. (原始内容存档于2011-02-20). 
  9. ^ Can the Internet Be Archived?. The New Yorker. 2015-01-26 [2019-01-23]. 
  10. ^ 10.0 10.1 Internet Archive: Wayback Machine. archive.org. [2018-10-15]. (原始内容存档于2014-01-03) (英语). 
  11. ^ Cook, John. Web site takes you way back in Internet history. Seattle Post-Intelligencer. 2001-11-01 [2011-08-15]. (原始内容存档于2014-08-12). 
  12. ^ Wayback Goes Way Back on Web. Wired. 2001-10-28 [2017-10-16]. (原始内容存档于2017-10-16). 
  13. ^ Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip. Using the wayback machine to mine websites in the social sciences: A methodological resource. Journal of the Association for Information Science and Technology. 2015-05-05, 67 (8): 1904–1915. ISSN 2330-1635. doi:10.1002/asi.23503 (英语). 
  14. ^ 14.0 14.1 14.2 Kalev Leetaru. The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. January 28, 2016 [October 16, 2017]. (原始内容存档于October 16, 2017). 
  15. ^ Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. [2020-04-25]. (原始内容存档于2012.08.03). 
  16. ^ Kaplan, Jeff. Archive-It: Crawling the Web Together. Internet Archive Blogs. 2014.11.27 [2020.04.24]. (原始内容存档于2017.10.12). 

外部链接编辑