Archive.org：互联网档案馆

2009年的最后一天，辞旧迎新，互联网也同样如此，在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史，这就是今天所介绍的网站“archive.org”（中文名：档案）——互联网档案馆的价值所在。

网站名称：Internet Archive（http://www.archive.org/index.php）

上线时间：1996年

网站地点：美国加州（San Francisco, CA）

Archive（archive.org）创建于1996年，由Alexa创始人布鲁斯特·卡利（Brewster Kahle）创办，是一个公益性质的计划。它通过定期收录和抓取全球网站的信息，并进行保存。当然犹如搜索引擎一样，大的网站比如Google、Yahoo等会每天备份一次，每次收录多个网页；而对于一些小的网站，比如个人blog则或许每年只收录一次，这时候不可避免地会丢失一些网页。

但Archive网站的创办者和工作团队非常值得我们尊敬，因为截至目前，他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

此外对于用户而言，通过Archive网站的“Take Me Back”，输入一个网站域名，就可以查看其过往的收录历史。当你点击进入的时候，一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的，他们已然成为历史。

以我们网易为例，目前Archive网站收录了25372个结果，包括从1998年12月1日到2008年4月6日的页面。我想即便是网易自己或者我们这些工作在网易的人都有无数页面从未看过、备份。

Archive为了更完善地收录网页和历史资料，也希望发动更多的网站和人们的参与，主动参与。此外其目前也从刚开始的收录网页，扩展到收录图片、音频、软件、视频等，希望真正成为一个全面的互联网档案馆。

虽然这个网站是在13年前就创办，但时值今日，其价值和意义也不言而喻，衷心期望它能够永久永久地保存下去。

最后，在2010年即将开始的时候，祝福所有网易科技和每日一站的网友们节日快乐！在2010年每日一站计划进行改版升级，也期待收到各位好的意见和建议（欢迎发邮件到tech2004@crop.netease.com，谢谢！）。（文飞翔）

Archive.org是一个非营利性数字图书馆，目标是“普及一切知识”，此网站存有26PB（大概两千七百万GB）大小的各种数字资料。

这个档案馆从1996年成立至今，收集了各种各样的网站，程序，应用，游戏，图片，语音等资料，其中存储的最多的是网页，截止现在他们已经存了两千八百亿个页面。

Archive.org的网页存储界面

而且每个小时都会抓去一次被收录网站的页面，让你清楚的知道发生的每一件事。

同时Archive.org一点都不流氓，遵守robots.txt爬虫协议，声明不允许被记录的网站他是不会抓取的~

比如百度申明不希望被收录，他就不收录

Robots协议是国际互联网界通行的道德规范，网站通过Robots协议告诉其他引擎哪些页面可以抓取，哪些页面不能抓取。

通过这个引擎你可以看到很多有趣好玩的东西，比如1999年刚刚成立，还是测试版的Google。

Archive.org：互联网档案馆

2009.12. ::    来源: 网易科技    作者:网易科技 ( 条评论 )

　　2009年的最后一天，辞旧迎新，互联网也同样如此，在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史，这就是今天所介绍的网站“archive.org”（中文名：档案）——互联网档案馆的价值所在。

　　网站名称：Internet Archive（http://www.archive.org/index.php）

　　上线时间：1996年

　　网站地点：美国加州（San Francisco, CA）

　　Archive（archive.org）创建于1996年，由Alexa创始人布鲁斯特·卡利（Brewster Kahle）创办，是一个公益性质的计划。它通过定期收录和抓取全球网站的信息，并进行保存。当然犹如搜索引擎一样，大的网站比如Google、Yahoo等会每天备份一次，每次收录多个网页；而对于一些小的网站，比如个人blog则或许每年只收录一次，这时候不可避免地会丢失一些网页。

　　但Archive网站的创办者和工作团队非常值得我们尊敬，因为截至目前，他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

　　此外对于用户而言，通过Archive网站的“Take Me Back”，输入一个网站域名，就可以查看其过往的收录历史。当你点击进入的时候，一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的，他们已然成为历史。

　　以我们网易为例，目前Archive网站收录了25372个结果，包括从1998年12月1日到2008年4月6日的页面。

　　Archive为了更完善地收录网页和历史资料，也希望发动更多的网站和人们的参与，主动参与。此外其目前也从刚开始的收录网页，扩展到收录图片、音频、软件、视频等，希望真正成为一个全面的互联网档案馆。

　　虽然这个网站是在13年前就创办，但时值今日，其价值和意义也不言而喻，衷心期望它能够永久永久地保存下去。

互联网档案馆就是保留所有网站信息的地方，这个档案馆和Alexa有着密切的关系，因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站，也接受主动加入的网站（如果你发现自己的网站没有被收录，可以主动添加到互联网档案馆）。互联网档案馆位于美国旧金山，与Alexa一样诞生于1996年，是一家非赢利性的信息资源数据库，面向全球用户，免费、公开其收集的全部互联网信息资料。自1996年成立起，The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站，其收录的网页数量和收集周期也不相同，一些大型网站可能每天都会被“备份” 一次，每次可能收录数十个以上的网页，而一些小型网站可能每年收录几次，每次只有几个网页。

Archive.org：互联网档案馆的更多相关文章

我是如何来做网站优化(Seo)的？（二）
在上一篇文章<我是如何来做网站优化(Seo)的?(一)>讲述了网站优化几个注意项目. 在我们日常网站维护中,难免会使用到各种工具,文章的第二节我们就来讲讲这些工具. 网站提交通道百度站长 ...
如何在 Flickr 上找到又酷，又有趣，且版权自由的照片？
[编者按]本文作者为 Alex Walker,主要介绍在 Flickr 上进行照片搜索时的一些技巧.本文系国内 ITOM 管理平台 OneAPM 编译呈现. 我们一直都在寻找新奇的,与众不同的设计.图 ...
25个站长必备的SEO优化工具
搜索引擎抓取内容模拟器可以模拟蜘蛛抓取指定网页,包括Text.Link.Keywords及Description信息等.http://www.webconfs.com/search-engine-s ...
网站搜索引擎优化SEO策略及相关工具资源
网站优化的十大奇招妙技 1. 选择有效的关键字: 关键字是描述你的产品及服务的词语,选择适当的关键字是建立一个高排名网站的第一步.选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字. ...
Tiny C Compiler简介-wiki
Tiny C Compiler(缩写为TCC.tCc或TinyCC)是一个用于x86(16/32位)或x86-64(64位)系统的C编译器,开发者为Fabrice Bellard.软件是设计用于低级计 ...
NLP（二十二）利用ALBERT实现文本二分类
在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子.但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题.因此 ...
类型检查和鸭子类型 Duck typing in computer programming is an application of the duck test 鸭子测试鸭子类型指示编译器将类的类型检查安排在运行时而不是编译时 type checking can be specified to occur at run time rather than compile time.
Go所提供的面向对象功能十分简洁,但却兼具了类型检查和鸭子类型两者的有点,这是何等优秀的设计啊! Duck typing in computer programming is an applicati ...
谁能成为数据储存领域领头羊?永久数据存储--NGK的终极使命！
区块链的目的是永远存储交易网络的历史.NGK技术团队能够永久存储其去中心化账本的副本.这是其日后能进行审计关键.一些著名的团队,如Solana和SKALE,现在正在为此与NGK进行最后的集成,我们预计 ...
Docker基础和常用命令
Docker基础和常用命令一,Docker 简介 1.1,什么是 Docker Docker 使用 Google 公司推出的 Go 语言进行开发实现,基于 Linux 内核的 cgroup,nam ...

随机推荐

tomcat中的server.xml文件配置了URIEncoding="UTF-8"需要注意的问题
1. get请求传递中文时本地连正式库访问都正常,正式环境下单独访问报错代码: 请求:project/projectInfo/export/?cks=’项目类型 public String ...
19.ThreadLocal方法解决代码不友好的问题
#ThreadLocal import threading #创建全局ThreadLocal loacl_school = threading.local() class Student(): def ...
get_date.sh
#!/usr/bin#####################################################################日期函数处理#获取某个月份的天数 getM ...
Markdown列表中嵌套代码带来的问题
目录 1.问题描述 2.原因查找 3.问题解决使用Markdown时,在有序列表中嵌套代码块引发了有序列表编号中断(重新从1开始)的问题,最终已解决. 1.问题描述代码: 1. title tex ...
《JAVA设计模式》之观察者模式(Observer)
在阎宏博士的<JAVA与模式>一书中开头是这样描述观察者(Observer)模式的: 观察者模式是对象的行为模式,又叫发布-订阅(Publish/Subscribe)模式.模型-视图(Mo ...
eclipse新建maven项目出错 pom.xml报错
问题: 1.新建项目后会提示一个这样的错 maven-compiler-plugin:3.1:compile(1 errors) maven-compiler-plugin:3.1:testCompi ...
mac下使用iterm实现自动登陆
1.通过brew安装sshpass(手动安装也可以) ①brew安装sshpass brew install https://raw.githubusercontent.com/kadwanev/bi ...
redis 命令大全
全局命令: 1.查看所有键:keys * 2.键总数:dbsize 3.检查键是否存在:exists key 4.删除键:del key [key ...] 5.键过期:expire key seco ...
Introduction to Sound Programming with ALSA
ALSA stands for the Advanced Linux Sound Architecture. It consists of a set of kernel drivers, an ap ...
2018-8-10-让-AE-输出-MPEG-
title author date CreateTime categories 让 AE 输出 MPEG lindexi 2018-08-10 19:17:19 +0800 2018-2-13 17: ...

Archive.org：互联网档案馆

Archive.org：互联网档案馆

Archive.org：互联网档案馆的更多相关文章

随机推荐

热门专题