持有者 網際網路檔案館
網址 web.archive.org 編輯維基數據鏈結
註冊 可選
推出時間 2001年10月24日[1][2]
現狀 活躍
程式語言 JavaPython

網站時光機(英語:Wayback Machine)是全球資訊網數位檔案館,由位於美國加利福尼亞州舊金山非營利組織網際網路檔案館建立,亦為該組織最重要的服務之一。它允許使用者「回到過去」,檢視過去的網站的樣子。其創始人布魯斯特·卡利Bruce Gilliat開發了網站時光機,旨在透過儲存已失效網頁的存檔副本,以「普及所有知識」(universal access to all knowledge)。自2001年推出以來,已有4,520多億頁面被加入檔案館。


網站時光機由網際網路檔案館的創始人布魯斯特·卡利和Bruce Gilliat於2001年推出,以解決網站在維護或關閉時無法檢視內容的問題[5],此外還能檢視網頁的歷史存檔版本,創始人Kahle和Gilliat希望以此能為整個網際網路「普及所有知識」(universal access to all knowledge)。[6]

Wayback Machine這個名稱源於動畫片The Rocky and Bullwinkle Show中的「WABAC機器」(發音為Way-back),這是一個時間旅行裝置。[7][8]在動畫片的皮博迪的不可能的歷史一集中,角色使用這一機器來見證、參與甚至改變歷史上的著名事件。[9]





爬蟲索引來自各種來源,其中一些是從第三方匯入的,而另一些是由存檔內部生成的[14]。自2010年以來,「Worldwide Web Crawls」一直在執行,並擷取全球網站[14][17]

快照擷取的頻率因網站而異。[14]「Worldwide Web Crawls」中的網站包含在「爬網列表」(crawl list)中,每次爬網都會將網站存檔一次。[14]爬網可能需要數月甚至數年才能完成,具體取決於其大小。[14]例如,"Wide Crawl Number 13"從2015年1月9日開始,於2016年7月11日完成。[18]但是,一次可能有多個爬網正在進行,並且一個站點可能包含在多個爬網列表中,因此,對站點進行爬網的頻率有很大的不同。[14]




2013年1月,該公司宣布了2400億個URL的突破性里程碑。[23]2013年10月,該公司宣布了「儲存頁面」(Save a Page)功能[24],允許任何網際網路使用者存檔URL的內容。這成為了代管惡意二進位檔案的服務濫用威脅。[25][26]






網站時光機的成長 [35] [36]
年份 已存檔的頁面數(單位:億)



2017年4月17日,有報導稱,一些網站已經倒閉,成為暫停的域(Domain parking)。它們透過使用robots.txt把自己排除在搜尋引擎之外,導致在無意中被網站時光機排除。[39]

網站時光機的網站排除方針(Website exclusion policy)部分基於2002年加利福尼亞大學伯克利分校資訊管理和系統學院發布的《管理刪除請求和維護檔案完整性的建議》(英語:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建議賦予網站所有者阻止存取網站存檔的權利。[40]網站時光機遵守了這一政策,以避免昂貴的訴訟。[41]





有記者使用網站時光機檢視失效的網站、過時的新聞報導以及被更改的網站內容。其內容已被用於追究政治家的責任,揭穿爭論場合上的謊言[47]。2014年,烏克蘭東部分裂地區叛軍頓涅茨克人民軍領導人伊戈爾·斯特列爾科夫的社群媒體的存檔頁面顯示,他吹噓自己的部隊擊落了一架疑似烏克蘭軍用飛機,後來才知道這架飛機實際上是一架馬航民航客機(馬來西亞航空17號班機),之後,他刪除了發布的這篇文章,並指責烏克蘭軍方擊落了這架飛機[47][48]。2017年,在社群網站reddit的討論中,有人表示存取過archive.org 並發現白宮網站刪除了所有提及氣候變化的內容,對此,一位使用者評論道:「科學家有必要在華盛頓舉行一次遊行」,此事成為了為科學遊行(March for Science)舉行的原因。[49][50][51]


2014年,從抓取網站到它可以在網站時光機上被檢視之間存在6個月的延遲時間[52]。目前,該延遲時間為3-10小時[53]。網站時光機僅提供有限的搜尋功能,它的「站點搜尋」(Site Search)功能允許使用者根據描述站點的詞彙來尋找站點,而非網頁本身的詞彙。[54]

由於網路爬蟲的限制,網站時光機無法完全存檔互動式網頁,例如Flash平台和使用JavaScript漸進式網路應用程式編寫的表單,因為這些功能需要與宿主網站互動。網站時光機的網路爬蟲很難提取任何未使用HTML或其變形編碼的內容,這通常會導致超連結損壞和圖像遺失。因此,網路爬蟲無法存檔不包含指向其他頁面的連結的「孤立頁面」(Orphan page)。[54][53]由於其爬蟲程式僅能根據其預設的深度限制追蹤有限數量的超連結,因此它無法存檔每個頁面中的每個超連結[17]



Netbula LLC v. Chordiant Software Inc.

在2009年的「Netbula, LLC v. Chordiant Software Inc.」一案中,被告Chordiant提出動議,要求Netbula禁用其網站上的robots.txt檔案,因為該檔案導致網站時光機追溯性地復原了對Netbula網站先前版本的存檔的存取權限,Chordiant相信這些頁面中存在有利於訴訟的材料[55]


美國加利福尼亞北區聯邦地區法院聖何塞分部的地方法官霍華德·勞埃德(Howard Lloyd)駁回了Netbula的論點,並命令他們暫時禁用robots.txt阻止程式,以使Chordiant可以檢索他們想要的存檔頁面。[55]


在2004年10月的「 Telewizja Polska USA, Inc. v. Echostar Satellite」No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名訴訟當事人試圖使用網站時光機的檔案作為有效證據的來源,此舉可能屬於首次。波蘭電視台是TVP Polonia的供應商,EchoStar運營Dish Network。在審判程式之前,EchoStar表示,它打算提供網站時光機快照,作為波蘭電視台網站過去內容的證據。


