Archive.org:互联网档案馆

 

2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

网站名称:Internet Archive(http://www.archive.org/index.php)

上线时间:1996年

网站地点:美国加州(San Francisco, CA)

Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如GoogleYahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。我想即便是网易自己或者我们这些工作在网易的人都有无数页面从未看过、备份。

Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

 

虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。

最后,在2010年即将开始的时候,祝福所有网易科技和每日一站的网友们节日快乐!在2010年每日一站计划进行改版升级,也期待收到各位好的意见和建议(欢迎发邮件到tech2004@crop.netease.com,谢谢!)。(文飞翔)

 
 
Archive.org是一个非营利性数字图书馆,目标是“普及一切知识”,此网站存有26PB(大概两千七百万GB)大小的各种数字资料。
这个档案馆从1996年成立至今,收集了各种各样的网站,程序,应用,游戏,图片,语音等资料,其中存储的最多的是网页,截止现在他们已经存了两千八百亿个页面。
Archive.org的网页存储界面 而且每个小时都会抓去一次被收录网站的页面,让你清楚的知道发生的每一件事。 同时Archive.org一点都不流氓,遵守robots.txt爬虫协议,声明不允许被记录的网站他是不会抓取的~
比如百度申明不希望被收录,他就不收录
Robots协议是国际互联网界通行的道德规范,网站通过Robots协议告诉其他引擎哪些页面可以抓取,哪些页面不能抓取。
通过这个引擎你可以看到很多有趣好玩的东西,比如1999年刚刚成立,还是测试版的Google。
 
Archive.org:互联网档案馆

2009.12. ::    来源: 网易科技    作者:网易科技 ( 条评论 )

  2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

  网站名称:Internet Archive(http://www.archive.org/index.php)

  上线时间:1996年

  网站地点:美国加州(San Francisco, CA)

  Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

  但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

  此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

  以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。

  Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

  虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。
互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份” 一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。
 
 
 

Archive.org:互联网档案馆的更多相关文章

  1. 我是如何来做网站优化(Seo)的?(二)

    在上一篇文章<我是如何来做网站优化(Seo)的?(一)>讲述了网站优化几个注意项目. 在我们日常网站维护中,难免会使用到各种工具,文章的第二节我们就来讲讲这些工具. 网站提交通道 百度站长 ...

  2. 如何在 Flickr 上找到又酷,又有趣,且版权自由的照片?

    [编者按]本文作者为 Alex Walker,主要介绍在 Flickr 上进行照片搜索时的一些技巧.本文系国内 ITOM 管理平台 OneAPM 编译呈现. 我们一直都在寻找新奇的,与众不同的设计.图 ...

  3. 25个站长必备的SEO优化工具

    搜索引擎抓取内容模拟器 可以模拟蜘蛛抓取指定网页,包括Text.Link.Keywords及Description信息等.http://www.webconfs.com/search-engine-s ...

  4. 网站搜索引擎优化SEO策略及相关工具资源

    网站优化的十大奇招妙技 1. 选择有效的关键字: 关键字是描述你的产品及服务的词语,选择适当的关键字是建立一个高排名网站的第一步.选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字. ...

  5. Tiny C Compiler简介-wiki

    Tiny C Compiler(缩写为TCC.tCc或TinyCC)是一个用于x86(16/32位)或x86-64(64位)系统的C编译器,开发者为Fabrice Bellard.软件是设计用于低级计 ...

  6. NLP(二十二)利用ALBERT实现文本二分类

      在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子.但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题.因此 ...

  7. 类型检查和鸭子类型 Duck typing in computer programming is an application of the duck test 鸭子测试 鸭子类型 指示编译器将类的类型检查安排在运行时而不是编译时 type checking can be specified to occur at run time rather than compile time.

    Go所提供的面向对象功能十分简洁,但却兼具了类型检查和鸭子类型两者的有点,这是何等优秀的设计啊! Duck typing in computer programming is an applicati ...

  8. 谁能成为数据储存领域领头羊?永久数据存储--NGK的终极使命!

    区块链的目的是永远存储交易网络的历史.NGK技术团队能够永久存储其去中心化账本的副本.这是其日后能进行审计关键.一些著名的团队,如Solana和SKALE,现在正在为此与NGK进行最后的集成,我们预计 ...

  9. Docker基础和常用命令

    Docker基础和常用命令 一,Docker 简介 1.1,什么是 Docker Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,nam ...

随机推荐

  1. 关于狗书《Flask web开发 基于python的Web开发应用实战》中加入用户隐私功能

    目前是第二次撸狗书,在用户页面这一块我个人觉得有些问题(基于交互设计).按理来说,我作为一个权限只有User的个人用户来说,肯定不喜欢让别人看到我的真实姓名,地址之类的敏感信息.所以我应该是可以设置成 ...

  2. vuejs基础-style样式

    在Vue中使用样式 使用class样式 数组 <h1 :class="['red', 'thin']">这是一个邪恶的H1</h1> 数组中使用三元表达式 ...

  3. c++ 由无向图构造邻接表,实现深度优先遍历、广度优先遍历。

    /* 首先,根据用户输入的顶点总数和边数,构造无向图,然后以用户输入的顶点 为起始点,进行深度优先.广度优先搜索遍历,并输出遍历的结果. */ #include <stdlib.h> #i ...

  4. Markdown列表中嵌套代码带来的问题

    目录 1.问题描述 2.原因查找 3.问题解决 使用Markdown时,在有序列表中嵌套代码块引发了有序列表编号中断(重新从1开始)的问题,最终已解决. 1.问题描述 代码: 1. title tex ...

  5. [已解决]报错: Error response from daemon: conflict

    报错内容: Error response from daemon: conflict: unable to delete f5b6ef70d79b (must be forced) - image i ...

  6. 对于nginx配置文件中的fastcgi_param相关参数的理解

    今天在ubuntu中搭建LNMP的时候,遇到了一个问题 在浏览器中访问.php文件的时候,nginx不能正常解析,页面只是空白,后来百度了一下,发现了问题 在nginx的配置文件nginx.conf中 ...

  7. MVC模型的基本原理及实现原理

    [转载]MVC架构在Asp.net中的应用和实现 摘要:本文主要论述了MVC架构的原理.优缺点以及MVC所能为Web应用带来的好处.并以“成都市信息化资产管理系统”框架设计为例,详细介绍其在Asp.n ...

  8. Codeforces Round #394 (Div. 2) - C

    题目链接:http://codeforces.com/contest/761/problem/C 题意:给定n个长度为m的字符串.每个字符串(字符串下标从0到m-1)都有一个指针,初始指针指向第0个位 ...

  9. hdu1231 最长连续子序列和

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1231 给定K个整数的序列{ N1, N2, ..., NK },其任意连续子序列可表示为{ Ni, N ...

  10. Hibernate与 MyBatis的区别

    第一章     Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架,它出身于sf.net,现在已经成为Jboss的一部分. Mybatis 是另外一种优秀 ...