Archive.org:互联网档案馆

 

2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

网站名称:Internet Archive(http://www.archive.org/index.php)

上线时间:1996年

网站地点:美国加州(San Francisco, CA)

Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如GoogleYahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。我想即便是网易自己或者我们这些工作在网易的人都有无数页面从未看过、备份。

Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

 

虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。

最后,在2010年即将开始的时候,祝福所有网易科技和每日一站的网友们节日快乐!在2010年每日一站计划进行改版升级,也期待收到各位好的意见和建议(欢迎发邮件到tech2004@crop.netease.com,谢谢!)。(文飞翔)

 
 
Archive.org是一个非营利性数字图书馆,目标是“普及一切知识”,此网站存有26PB(大概两千七百万GB)大小的各种数字资料。
这个档案馆从1996年成立至今,收集了各种各样的网站,程序,应用,游戏,图片,语音等资料,其中存储的最多的是网页,截止现在他们已经存了两千八百亿个页面。
Archive.org的网页存储界面 而且每个小时都会抓去一次被收录网站的页面,让你清楚的知道发生的每一件事。 同时Archive.org一点都不流氓,遵守robots.txt爬虫协议,声明不允许被记录的网站他是不会抓取的~
比如百度申明不希望被收录,他就不收录
Robots协议是国际互联网界通行的道德规范,网站通过Robots协议告诉其他引擎哪些页面可以抓取,哪些页面不能抓取。
通过这个引擎你可以看到很多有趣好玩的东西,比如1999年刚刚成立,还是测试版的Google。
 
Archive.org:互联网档案馆

2009.12. ::    来源: 网易科技    作者:网易科技 ( 条评论 )

  2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

  网站名称:Internet Archive(http://www.archive.org/index.php)

  上线时间:1996年

  网站地点:美国加州(San Francisco, CA)

  Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

  但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

  此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

  以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。

  Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

  虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。
互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份” 一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。
 
 
 

Archive.org:互联网档案馆的更多相关文章

  1. 我是如何来做网站优化(Seo)的?(二)

    在上一篇文章<我是如何来做网站优化(Seo)的?(一)>讲述了网站优化几个注意项目. 在我们日常网站维护中,难免会使用到各种工具,文章的第二节我们就来讲讲这些工具. 网站提交通道 百度站长 ...

  2. 如何在 Flickr 上找到又酷,又有趣,且版权自由的照片?

    [编者按]本文作者为 Alex Walker,主要介绍在 Flickr 上进行照片搜索时的一些技巧.本文系国内 ITOM 管理平台 OneAPM 编译呈现. 我们一直都在寻找新奇的,与众不同的设计.图 ...

  3. 25个站长必备的SEO优化工具

    搜索引擎抓取内容模拟器 可以模拟蜘蛛抓取指定网页,包括Text.Link.Keywords及Description信息等.http://www.webconfs.com/search-engine-s ...

  4. 网站搜索引擎优化SEO策略及相关工具资源

    网站优化的十大奇招妙技 1. 选择有效的关键字: 关键字是描述你的产品及服务的词语,选择适当的关键字是建立一个高排名网站的第一步.选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字. ...

  5. Tiny C Compiler简介-wiki

    Tiny C Compiler(缩写为TCC.tCc或TinyCC)是一个用于x86(16/32位)或x86-64(64位)系统的C编译器,开发者为Fabrice Bellard.软件是设计用于低级计 ...

  6. NLP(二十二)利用ALBERT实现文本二分类

      在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子.但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题.因此 ...

  7. 类型检查和鸭子类型 Duck typing in computer programming is an application of the duck test 鸭子测试 鸭子类型 指示编译器将类的类型检查安排在运行时而不是编译时 type checking can be specified to occur at run time rather than compile time.

    Go所提供的面向对象功能十分简洁,但却兼具了类型检查和鸭子类型两者的有点,这是何等优秀的设计啊! Duck typing in computer programming is an applicati ...

  8. 谁能成为数据储存领域领头羊?永久数据存储--NGK的终极使命!

    区块链的目的是永远存储交易网络的历史.NGK技术团队能够永久存储其去中心化账本的副本.这是其日后能进行审计关键.一些著名的团队,如Solana和SKALE,现在正在为此与NGK进行最后的集成,我们预计 ...

  9. Docker基础和常用命令

    Docker基础和常用命令 一,Docker 简介 1.1,什么是 Docker Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,nam ...

随机推荐

  1. php的优势与缺点

    PHP即“超文本预处理器”,是一种通用开源脚本语言.PHP是在服务器端执行的脚本语言,与C语言类似,是常用的网站编程语言.PHP独特的语法混合了C.Java.Perl以及 PHP 自创的语法.利于学习 ...

  2. 转 python 字符串前加r

    在打开文件的时候open(r'c:\....') 加r和不加''r是有区别的 'r'是防止字符转义的 如果路径中出现'\t'的话 不加r的话\t就会被转义 而加了'r'之后'\t'就能保留原有的样子 ...

  3. Spring数据库连接池 c3p0、dbcp、spring-jdbc

    在用dbcp的时候 后面加上 destroy-method="close" 销毁的方法没事 但是用 spring的jdbc就会报错 提示找不到close这个方法  这是为什么? D ...

  4. 解决Linux下Svn检出Windows SVN服务器上项目SSL handshake failed: SSL error: Key usage violation in certificate has been detected.

    在Linux上检出windows SVN服务器上项目时出现了SSL handshake failed: SSL error: Key usage violation in certificate ha ...

  5. 耗时近一个月,终于录完了VUE.JS2.0前端视频教程!

    这次课录制的比较辛苦,圣诞节时原本已经快录制完成了,偶然的一次,播放了一下,感觉不满意,好几篇推倒重来,所以今天才结束. vue.js2.0是Vue.JS的最新版本,视频教程还不多,如果你看到了,学到 ...

  6. Codeforces 1093C (思维+贪心)

    题面 传送门 题目大意: 有一个长n(n为偶数)的序列a 已知a满足 \(a_1≤a_2≤⋯≤a_n\) 给出一个长度为\(\frac{n}{2}\) 的序列b,定义\(b_i=a_i+a_{n-i+ ...

  7. Codeforces Round #460 (Div. 2) B Perfect Number(二分+数位dp)

    题目传送门 B. Perfect Number time limit per test 2 seconds memory limit per test 256 megabytes input stan ...

  8. Beta阶段成果展示——第八组

    Beta阶段成果展示 游戏公网IP:http://119.29.32.204/krad.html(欢迎大家测试!) Beta阶段体现在成果上的工作主要为界面美化,玩家引导,按键封闭等等. 本文将以截图 ...

  9. GeneXus笔记本—常用函数(上)

    国庆放假没事怎么办?写点笔记充会儿电! ≖‿≖✧   哈哈哈 !!最近在参与公司的其中一个项目中,发现了一些函数自己没见过 也没使用过,但是这些函数都是GeneXus中自带的一些 这此记录的目的就是为 ...

  10. Deepin学习笔记

    更改更新源 1)sudo vim /etc/apt/sources.list 2)sudo apt-get update 3)  镜像源 http://mirrors.aliyun.com/deepi ...