亚历山大图书馆成立于公元前3世纪,是古代最大的博物馆和图书馆。它是知识和奖学金的中心。那么这个角色在互联网时代扮演的角色呢?这是一个互联网档案。互联网档案馆是互联网时代的亚历山大图书馆。
互联网上的信息准确地说,与物理媒体不同,数字化信息不易存储,并且可以立即消失。网站等。当有很多地方现在已经消失时,可以看到互联网的早期阶段。互联网档案馆是一个由Brewster Kahle于1996年创立的非营利性组织,用于存储这些正在消失的网站。
Brewster Kale在麻省理工学院学习计算机并设计了WAIS,一种文本信息检索系统。他在1995年以1500万美元的价格出售了它并建立了自己的资产。 1996年,他亲自开始了互联网备份。这个名为互联网档案馆的项目被比作亚历山大图书馆,曾经是世界上同时拥有最多图书的图书馆。互联网档案馆的目标是让所有知识都随处可见。布鲁斯凯尔亲自收集了超过100亿个网页六年。
当然有一件事。 2007年,美国联邦调查局(FBI)发出一封信,要求用户提交用户名,地址,网站使用记录。但是,互联网档案馆提起诉讼,声称它是加利福尼亚州认可的图书馆,结果,FBI撤回了指控并同意开放部分文件。
起诉政府的图书馆很不寻常,但自事件发生以来,FBI和互联网档案之间的关系并没有恶化。相反,互联网档案馆向美国国会图书馆,美国国家图书馆提供网络克隆和书籍扫描等服务,专利局使用WAO系统。
回想起来,Internet Archive使用这个广域信息服务器(WAIS)来存储过去档案中的网页信息,以及数百万个电子书,电视节目,电影,音乐,文档和软件。例如,在1996年,雅虎网站允许您找出它是什么样的或知道像有价值的录音文件。
互联网档案馆总部位于加利福尼亚州旧金山,于2009年成为Presidio。该建筑本身建于1923年,二楼有一个小教堂。当然,与教堂的不同之处在于墙上有一个服务器机架。每台服务器的价格是60,000美元,一台10台的电脑配备368TB的驱动器。
这个房间内有计算机服务器,服务器有22年的互联网历史。互联网档案馆收集的数据包括数十亿页面和图像。互联网上有多达18亿个网页,但每两到五年翻一番。平均网页大约有100天的篇幅,在发布了几千页之后,即使在五分钟之后也被遗忘了。互联网档案馆的任务是存储如此庞大的网页。
到2018年,互联网档案馆已经记录了338亿条网页记录。互联网档案馆持有的数据量达到40PB。去年10月,互联网档案馆在几年内翻了两番,考虑到它达到了10PB。在40个BP中,63%可以使用WAIS检索。
如果你说40PB,它可能太大了。例如,地球上的人类发明了字母,并且比现代人物略少。据说美国最大的图书馆 – 美国图书馆的合并文本为28 TB。它小于Internet归档所拥有的数据量的0.1%。
Internet Archive每周收集7,000个Internet网页的副本。它以特定频率保存网页状态,并在特定时间累积存档中的网页内容。例如,WAIS可以在18年内通过187,000个快照检索CNN网页的内容。每周有5亿个新页面的新网页存储在Internet存档中。每周存储二千万条维基百科推文,二千万条推文和数百条新闻文章。
互联网档案馆中的所有这些巨大任务都是非营利性的。技术开发,软件开发服务器和运行机器人的系统等运营成本都取决于捐赠。 Internet Archive不仅收集和存储数据,还试图解决与Internet历史相关的道德问题。
当然,互联网正以每秒70TB的速度增长,即使只是简单计算。无论您拥有多大的服务器,都无法覆盖Internet存档中的所有内容。此外,电子邮件或云数据等个人数据不是Internet档案的存档。在这方面,因特网存档侧通过考虑优先级来判断要备份哪个网页。这包括捐款。此外,特定网站的存储级别取决于访问次数,这些标准包括YouTube,Wikipedia,Reddit和Twitter。它还针对世界各地的政府,非政府组织和新闻相关网站。互联网档案馆与600名专家和合作伙伴合作,以此原则为后盾。
通过WAIS的网页检索服务可以成为新闻传播时代的重要工具。这是因为如果正确的信息存储在Internet存档中,反之亦然,则可以帮助确定它是否为假。事实上,互联网档案馆宣布将于2016年11月选举特朗普总统当选,并宣布计划在美国政府未执政的国家当选后,安装互联网档案馆收集的数据副本。
古老的亚历山大图书馆的建立目的是收集来自世界各地的文学作品。互联网档案馆的目标是第二个亚历山大图书馆。显然,它将无法存储世界上所有的数据,但它将成为亚历山大图书馆最大的新时代。可在此处找到Internet档案。
Add comment