互聯網檔案館

網際網路檔案館
Internet Archive
Internet Archive logo and wordmark.svg
Early screenshots from the Internet archive.jpg
網際網路檔案館1997年1月26日的早期樣式
公司類型 501(c)條款非營利組織
網站類型
數位圖書館
語言 英語
成立 1996年5月12日[1][2]
總部 美國加利福尼亞州舊金山列治文區
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W
創始人 布魯斯特·卡利
服務 存檔、開放圖書館網際網路檔案館(2001年起)、網路標籤、NASA圖片、普林格檔案
員工 200
網址 archive.org
http://archivebyd3rzt3ehjpm4c3bjky
xv3hjleiytnvxcn7x32psn2kxcuid.onion
Tor network (如何存取)[3]
推出時間 1996年
舊「網際網路檔案館」總部(1996年 - 2009年11月)
新「網際網路檔案館」總部(2009年11月 - )

網際網路檔案館(英語:Internet Archive)是美國的一個由Alexa創始人布魯斯特·卡利創辦於1996年的非營利性的、提供網際網路多媒體資料檔案閱覽服務數位圖書館,總部位於加利福尼亞州舊金山的列治文區,其使命是「普及所有知識」(英語:universal access to all knowledge.。該「檔案館」提供的數字資料有如網站、網頁、圖形材料音樂、影片、音訊、軟體、動態圖像和數百萬書籍等的永久性免費儲存及取得的副本。 迄至2021年02月,其儲存了6250 億個網頁、3800萬本書和文字、1400 萬個錄音(包括 240,000 場現場音樂會)、700 萬個影片(包括 200 萬個電視新聞節目)、400 萬張圖片 、790,000 個軟體程式。除此之外,該檔案館也是網路開放與自由化的倡議者之一。

資料來源

該檔案館的數據是由內建的網路爬蟲自動搜集的,網站時光機抓取了超過1500億的網頁[6][7]

資金情況

年度預算約為1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會[8]。總部僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有資料中心。

資料庫

檔案館的資料庫是國際網際網路保留協會成員[9],2007年被加利福尼亞州選為官方指定圖書館[10]。檔案館收集的資料是各種各樣的。截止2015年年初,網際網路檔案館共收錄了2400款MS-DOS遊戲[11]

歷史

1996年,卡利(Brewster Kahle)在建立盈利性的Alexa Internet的同時也創立了網際網路檔案館;同年10月開始收集儲存數據[12][13]。不過,直到2001年開發了「時光機」前,這些數據都無法存取。1999年末擴展收集範圍[14]

2012年8月,宣布[15]將在其現存的130萬檔案的下載選項中加入BitTorrent[16][17]。因為通過兩個檔案資料中心協調,這成為從該檔案館下載數據的最快方法[16][18]

2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多裝置和一些附近的公寓[19][20],預計損失達到60萬美元[21]

網頁存檔

時光機

網站時光機是網際網路檔案館最重要的服務之一,其名取自一部名為The Rocky and Bullwinkle Show的美國卡通片。時光機允許人們去搜尋和存取其網頁存檔。在一些國家和地區,時光機這個術語的使用已經非常普遍,「時光機」和「網際網路檔案館」甚至開始被當做同義詞使用。

網際網路檔案館增量採購的儲存盤
年份 存檔頁面的數量(億)
2005 40[22]
2006 85[23]
2007 85[24]
2008 85[25]
2009 150[26]
2010 150[27]
2011 150[28]
2012 150[29]
2013 373[30]
2014 430[31]
2015 479[32]
2016 510[A][33]

273[B][34]

2017 286[35]
2018 344[36]
A 使用了2016年10月以前的舊版計數系統
B 使用了2016年10月以後的新版計數系統

Archive-It

創始人布魯斯特·卡利正在談論Archive-It

Archive-it是一款幫助機構和個人建立存檔的工具。一旦目標網站的URL被輸入並儲存且該網站允許網際網路檔案館所使用的robots.txt存取,該網頁將會成為時光機的一部分。[37]截至2014年3月,Archive-it在美國的46個州和其他16個國家共有超過275個機構是其合作夥伴,共有超過74億個網頁的線上存檔。

收集書目

網際網路檔案館的「抄寫員」圖書掃描工作站

網際網路檔案館收集了世界各地的數位化圖書以及各大圖書館和文化遺產機構的特殊藏品。網際網路檔案館在5個國家經營著33個圖書掃描中心,其活動受圖書館和基金會的財政支援。[38][39]截至2013年7月,檔案館共收集了440萬本書,每月的下載量超過1500萬。[38]截至2008年11月,檔案館共有100萬個網路文字,總大小高達0.5PB,涵蓋了原始照相圖像、裁剪和歪斜的圖像、PDF檔案和原始OCR資料。[40]

各語言的文字數

1 語言 英語 法語 德語 西班牙語 漢語 阿拉伯語
文字數(2015年11月27日) 6,553,945[41] 358,721[42] 344,810[43] 134,170[44] 84,147[45] 66,786[46]
2 語言 荷蘭語 葡萄牙語 俄語 烏爾都語 日語 合計(2016年10月30日)
文字數(2015年11月27日) 30,237[47] 25,938[48] 22,731[49] 14,978[50] 14,795[51] 10,612,003[52]

各個年代的文字數

1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代
文字數

(2015年11月27日)

39,842[53] 51,151[54] 79,476[55] 105,021[56] 127,649[57] 180,950[58]
2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代
文字數

(2015年11月27日)

210,574[59] 214,505[60] 285,984[61] 370,726[62] 504,000[63] 455,539[64]
3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代
文字數

(2015年11月27日)

185,876[65] 70,190[66] 85,062[67] 81,192[68] 125,977[69] 206,870[70]
4 年代 1980年代 1990年代 2000年代 2010年代
文字數

(2015年11月27日)

181,129[71] 272,848[72] 579,905[73] 855,253[74]

影像資料

讀卡機
網際網路檔案館的縮微膠片
網際網路檔案館的錄影帶

除了上述內容之外,網際網路檔案庫還收集了大量的數位媒體,這些數位媒體均符合美國公共領域CC授權協定。這些媒體檔案均會根據媒體類型(moving images、audio、text、etc.)被組織成集合,並根據各項標準被分入子集合。例如大都會藝術博物館提供的相關資料就會被分入一個子集,目前該集合相關資料的數量已經超過了140,000個[75]。每個主集合都含有一個「社群」子集合(以前被稱為「開源」)用於儲存公眾的貢獻。

音訊收藏

音訊檔案包括音樂,有聲讀物,新聞廣播,舊時廣播的節目和各種其他音訊檔。該系列中有超過200,000個免費數字錄音。子集包括有聲讀物和詩歌,Podcast,[76]非英語音訊等。[77]

Live Music Archive子集包括來自獨立音樂家的超過170,000個音樂會錄音,以及更為成熟的藝術家和音樂合奏,以及關於錄製他們的音樂會的寬鬆規則,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon還允許網際網路檔案館收藏他父親Warren Zevon的音樂會錄音。Zevon系列從1976年至2001年不等,包含126場音樂會,包括1,137首歌曲。[78]

布魯克林博物館

此系列包含大約3,000件布魯克林博物館的物品。[79]

鏡像網站

宕機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料[80]

註釋

  1. ^ Internet Archive Frequently Asked Questions. Internet Archive. [2013-04-13]. (原始內容存檔於2009-10-21). 
  2. ^ Internet Archive: Universal Access to all Knowledge. Internet Archive. [2013-04-13]. (原始內容存檔於2013-03-10). 

參考文獻

  1. ^ Internet Archive: About the Archive. Wayback Machine. 2000-04-08 [2016-03-13]. (原始內容存檔於2000-04-08). 
  2. ^ archive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始內容存檔於2018-11-05). 
  3. ^ Internet Archive: Offline Archive. archive.org. [2019-11-22]. (原始內容存檔於2019-10-29). 
  4. ^ archive.org Site Info. Alexa Internet. [2018年11月13日]. (原始內容存檔於2018年11月13日). 
  5. ^ Internet Archive: About IA. archive.org. [2022-02-23]. 
  6. ^ Internet Archive: Projects. Internet Archive. [2013-03-06]. (原始內容存檔於2013-03-01). 
  7. ^ Grotke, A. (2011). Web Archiving at the Library of Congress. Computers In Libraries, 31 no. 10 (December 2011), p. 15-19.
  8. ^ Womack, David. Who Owns History?. Cabinet Magazine. No. 10. Spring 2003 [2013-04-13]. (原始內容存檔於2013-03-19). 
  9. ^ "Members" International Internet Preservation Consortium. Netpreserve.org
  10. ^ "Internet Archive officially a library"頁面存檔備份,存於網際網路檔案館), May 2, 2007. Archive.org
  11. ^ Internet Archive 放大招,2400 款 MS-DOS 游戏任你玩. ifanr愛范兒. 2015-01-07 [2017-01-29]. (原始內容存檔於2017-02-02). 
  12. ^ 互联网真能帮人类历史存档吗?. 騰訊科技. 2015-01-24 [2016-10-30]. (原始內容存檔於2016-09-15). 
  13. ^ Internet Archive: In the Collections. Wayback Machine. 2000-06-06 [2016-03-15]. (原始內容存檔於2000-06-06). 
  14. ^ "Daisy Books for the Print Disabled"頁面存檔備份,存於網際網路檔案館), February 25, 2013. Internet Archive.
  15. ^ Kahle, Brewster (August 7, 2012). "Over 1,000,000 Torrents of Downloadable Books, Music, and Movies"頁面存檔備份,存於網際網路檔案館). Internet Archive Blogs.
  16. ^ 16.0 16.1 Van der Sar, Ernesto. Internet Archive Starts Seeding 1,398,875 Torrents. TorrentFreak. 2012-08-07 [2014-03-21]. (原始內容存檔於2012-08-08). 
  17. ^ "Hot List for bt1.us.archive.org (Updated August 7 2012, 7:31 pm PDT)"頁面存檔備份,存於網際網路檔案館). US Cluster. Internet Archive.
  18. ^ "Welcome to Archive torrents"頁面存檔備份,存於網際網路檔案館). Internet Archive.
  19. ^ Alexander, Kurtis. Internet Archive's S.F. office damaged in fire. San Francisco Chronicle. 2013-11-06 [2014-03-21]. (原始內容存檔於2013-12-12). 
  20. ^ Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. Internet Archive Blogs. 2013-11-06 [2014-03-21]. (原始內容存檔於2014-03-14). 
  21. ^ Shu, Catherine. Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch. 2013-11-06 [2014-03-21]. (原始內容存檔於2014-03-17). 
  22. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2005-12-31). 
  23. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2006-12-28). 
  24. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2007-12-28). 
  25. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2008-12-24). 
  26. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2009-12-20). 
  27. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2010-12-30). 
  28. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2011-08-30). 
  29. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2002-10-14). 
  30. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始內容存檔於2013-12-31). 
  31. ^ Internet Archive Blogs. blog.archive.org. [2018-06-10]. (原始內容存檔於2018-07-07) (美國英語). 
  32. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始內容存檔於2015-05-31). 
  33. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始內容存檔於2016-09-30). 
  34. ^ Goel, Vinay. Defining Web pages, Web sites and Web captures. Internet Archive. 2016-10-23 [2018-12-09]. (原始內容存檔於2018-12-09). 
  35. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始內容存檔於2017-06-01). 
  36. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始內容存檔於2018-12-09). 
  37. ^ Rossi, Alexis. Fixing Broken Links on the Internet. Internet Archive. 2013-10-25 [2013-12-29]. (原始內容存檔於2013-12-16). 
  38. ^ 38.0 38.1 Hoffelder, Nate (July 9, 2013). "Internet Archive Now Hosts 4.4 Million eBooks, Sees 15 Million eBooks Downloaded Each Month"頁面存檔備份,存於網際網路檔案館). The Digital Reader.
  39. ^ Kahle, Brewster (May 23, 2008). "Books Scanning to be Publicly Funded"頁面存檔備份,存於網際網路檔案館). Internet Archive Forums.
  40. ^ "Bulk Access to OCR for 1 Million Books" Archived 2012-11-28 at WebCite. Open Library Blog. November 24, 2008.
  41. ^ Internet Archive Search : (language:eng OR language:"English"). Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-15). 
  42. ^ Internet Archive Search : (language:fre OR language:"French"). Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-17). 
  43. ^ Internet Archive Search : (language:ger OR language:"German"). Internet Archive. [2015-11-27]. (原始內容存檔於2016-01-14). 
  44. ^ Internet Archive Search : (language:spa OR language:"Spanish"). Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-08). 
  45. ^ Internet Archive Search : (language:Chinese OR language:"chi") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-08). 
  46. ^ Internet Archive Search : (language:ara OR language:"Arabic"). Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-22). 
  47. ^ Internet Archive Search : (language:Dutch OR language:"dut") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-08). 
  48. ^ Internet Archive Search : (language:Portuguese OR language:"por") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-15). 
  49. ^ Internet Archive Search : (language:rus OR language:"Russian") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-19). 
  50. ^ Internet Archive Search : (language:urd OR language:"Urdu") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-15). 
  51. ^ Internet Archive Search : (language:Japanese OR language:"jpn") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-08). 
  52. ^ Internet Archive Search : mediatype:texts. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-05). 
  53. ^ Internet Archive Search : mediatype:texts AND date:[1800-01-01 TO 1809-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-09). 
  54. ^ Internet Archive Search : mediatype:texts AND date:[1810-01-01 TO 1819-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-26). 
  55. ^ Internet Archive Search : mediatype:texts AND date:[1820-01-01 TO 1829-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-15). 
  56. ^ Internet Archive Search : mediatype:texts AND date:[1830-01-01 TO 1839-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-09). 
  57. ^ Internet Archive Search : mediatype:texts AND date:[1840-01-01 TO 1849-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-26). 
  58. ^ Internet Archive Search : mediatype:texts AND date:[1850-01-01 TO 1859-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-17). 
  59. ^ Internet Archive Search : mediatype:texts AND date:[1860-01-01 TO 1869-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-13). 
  60. ^ Internet Archive Search : mediatype:texts AND date:[1870-01-01 TO 1879-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-15). 
  61. ^ Internet Archive Search : mediatype:texts AND date:[1880-01-01 TO 1889-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-16). 
  62. ^ Internet Archive Search : mediatype:texts AND date:[1890-01-01 TO 1899-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-11). 
  63. ^ Internet Archive Search : mediatype:texts AND date:[1900-01-01 TO 1909-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-18). 
  64. ^ Internet Archive Search : mediatype:texts AND date:[1910-01-01 TO 1919-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-19). 
  65. ^ Internet Archive Search : mediatype:texts AND date:[1920-01-01 TO 1929-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-09). 
  66. ^ Internet Archive Search : mediatype:texts AND date:[1930-01-01 TO 1939-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-09). 
  67. ^ Internet Archive Search : mediatype:texts AND date:[1940-01-01 TO 1949-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-26). 
  68. ^ Internet Archive Search : mediatype:texts AND date:[1950-01-01 TO 1959-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-16). 
  69. ^ Internet Archive Search : mediatype:texts AND date:[1960-01-01 TO 1969-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-15). 
  70. ^ Internet Archive Search : mediatype:texts AND date:[1970-01-01 TO 1979-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-09). 
  71. ^ Internet Archive Search : mediatype:texts AND date:[1980-01-01 TO 1989-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-09). 
  72. ^ Internet Archive Search : mediatype:texts AND date:[1990-01-01 TO 1999-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-11). 
  73. ^ Internet Archive Search : mediatype:texts AND date:[2000-01-01 TO 2009-12-31]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-03-26). 
  74. ^ Internet Archive Search : mediatype:texts AND date:[2010-01-01 TO 2015-11-27]. Internet Archive. [2015-11-27]. (原始內容存檔於2016-04-09). 
  75. ^ Metropolitan Museum of Art - Gallery Images: Free Image : Download & Streaming : Internet Archive. Internet Archive. [2014-12-04]. (原始內容存檔於2015-01-03). 
  76. ^ How to Host Podcast MP3 on Archive.org. TurboFuture. [2019-02-25]. (原始內容存檔於2017-08-04) (英語). 
  77. ^ Download & Streaming : Audio Archive : Internet Archive. archive.org. [2019-02-25]. (原始內容存檔於2019-02-24) (英語). 
  78. ^ Clarke, John. Warren Zevon Live Shows Hit the Web, Possible Film in the Works. Rolling Stone. 2009-06-03 [2019-02-25]. (原始內容存檔於2019-02-26) (美國英語). 
  79. ^ Brooklyn Museum : Free Image : Free Download, Borrow and Streaming : Internet Archive. archive.org. [2019-02-25]. (原始內容存檔於2019-02-24) (英語). 
  80. ^ International School of Information Science (ISIS). www.bibalex.org. International School of Information Science. [2016-10-30]. (原始內容存檔於2016-10-31). 

延伸閱讀

外部連結

參見

  • 網際網路檔案館存檔列表
  • 公共領域音樂
  • 網頁存檔
  • 數位圖書館