Alexa是一家专门发布网站世界排名的网站,是亚马逊公司的一家子公司。Alexa每天在网上搜集多达几十亿的网址链接,而且为其中的每一个网站进行了排名。

Alexa通过Alexa官网查询好像TOP 500以后是需要付费的,网上也没有较完整列表,所以分享下。
数据爬取来源:http://stuffgate.com/stuff/website/
贴一小段:

  1. google.com
  2. youtube.com
  3. facebook.com
  4. baidu.com
  5. yahoo.com
  6. amazon.com
  7. wikipedia.org
  8. qq.com
  9. google.co.in
  10. twitter.com
  11. live.com
  12. taobao.com
  13. msn.com
  14. sina.com.cn
  15. yahoo.co.jp
  16. google.co.jp
  17. linkedin.com
  18. weibo.com
  19. bing.com
  20. yandex.ru
  21. vk.com
  22. hao123.com
  23. instagram.com
  24. ebay.com
  25. google.de
  26. amazon.co.jp
  27. mail.ru
  28. tmall.com
  29. 360.cn
  30. google.co.uk
  31. pinterest.com
  32. google.ru
  33. reddit.com
  34. google.com.br
  35. t.co
  36. netflix.com
  37. google.fr
  38. sohu.com
  39. paypal.com
  40. microsoft.com
  41. wordpress.com
  42. google.it
  43. google.es
  44. blogspot.com
  45. gmw.cn
  46. onclickads.net
  47. tumblr.com
  48. ok.ru
  49. imgur.com
  50. aliexpress.com
  51. xvideos.com
  52. stackoverflow.com
  53. apple.com
  54. google.com.mx
  55. imdb.com
  56. fc2.com
  57. google.com.hk
  58. ask.com
  59. amazon.de
  60. google.com.tr
  61. google.ca
  62. alibaba.com
  63. office.com
  64. rakuten.co.jp
  65. tianya.cn
  66. pornhub.com
  67. google.co.id
  68. diply.com
  69. github.com
  70. craigslist.org
  71. soso.com
  72. go.com
  73. xinhuanet.com
  74. nicovideo.jp
  75. amazon.co.uk
  76. pixnet.net
  77. bongacams.com
  78. blogger.com
  79. amazon.in
  80. outbrain.com
  81. cnn.com
  82. googleusercontent.com
  83. cntv.cn
  84. kat.cr
  85. jd.com
  86. google.pl
  87. google.com.au
  88. naver.com
  89. dropbox.com
  90. coccoc.com
  91. xhamster.com
  92. 360.com
  93. adobe.com
  94. china.com
  95. haosou.com
  96. microsoftonline.com
  97. whatsapp.com
  98. nytimes.com
  99. adnetworkperformance.com
  100. flipkart.com

完整的数据请见:
top-1000000-domains

有什么用呢?
我觉得可以用于一些字典采集工作,比如需要一个目录扫描的字典,可以爬取所有网站列表robots.txt文件,或对网站目录进行浅爬行,将爬行结果进行词频分析统计;
也可以对排名靠后的一些网站进行网站指纹、IP、WEB服务器版本等信息进行识别,将识别结果入库,对于研究一些特定数据会有帮助。

来源:http://www.rootat.net/2016/03/21/AlexaTop1000000/

Alexa TOP 100万的域名列表的更多相关文章

  1. 2014 年最热门的国人开发开源软件 TOP 100 - 开源中国社区

    不知道从什么时候开始,很多一说起国产好像就非常愤慨,其实大可不必.做开源中国六年有余,这六年时间国内的开源蓬勃发展,从一开始的使用到贡献,到推出自己很多的开源软件,而且还有很多软件被国外的认可.中国是 ...

  2. 2014 年最热门的国人开发开源软件TOP 100

    不知道从什么时候开始,很多一说起国产好像就非常愤慨,其实大可不必.做开源中国六年有余,这六年时间国内的开源蓬勃发展,从一开始的使用到贡献,到推出自己很多的开源软件,而且还有很多软件被国外认可.中国是开 ...

  3. 2014年国人开发的最热门的开源软件TOP 100

    不知道从什么时候开始,很多一说起国产好像就非常愤慨,其实大可不必.做开源中国六年有余,这六年时间国内的开源蓬勃发展,从一开始的使用到贡献,到推出自己很多的开源软件,而且还有很多软件被国外的认可.中国是 ...

  4. 【分享】2017 开源中国新增开源项目排行榜 TOP 100

    2017 年开源中国社区新增开源项目排行榜 TOP 100 新鲜出炉! 这份榜单根据 2017 年开源中国社区新收录的开源项目的关注度和活跃度整理而来,这份最受关注的 100 款开源项目榜单在一定程度 ...

  5. Netty 100万级高并发服务器配置

    前言 每一种该语言在某些极限情况下的表现一般都不太一样,那么我常用的Java语言,在达到100万个并发连接情况下,会怎么样呢,有些好奇,更有些期盼. 这次使用经常使用的顺手的netty NIO框架(n ...

  6. 100万并发连接服务器笔记之Java Netty处理1M连接会怎么样

    前言 每一种该语言在某些极限情况下的表现一般都不太一样,那么我常用的Java语言,在达到100万个并发连接情况下,会怎么样呢,有些好奇,更有些期盼.这次使用经常使用的顺手的netty NIO框架(ne ...

  7. fir.im Weekly - 不能错过的 GitHub Top 100 开源库

    好的工具&资源,会带来更多的灵感.本期 fir.im Weekly 精选了一些实用的 iOS,Android 的使用工具和源码分享,还有前端.UI方面的干货.一起来看下:) Swift 开源项 ...

  8. 全网扫描扫描10000端口后的优化脚本&域名列表指定端口的批量测试

    方法一: #coding=utf-8 import urllib2 import threading from time import ctime,sleep print "Start-Ti ...

  9. SQLServer如何快速生成100万条不重复的随机8位数字

    最近在论坛看到有人问,如何快速生成100万不重复的8位编号,对于这个问题,有几点是需要注意的: 1.    如何生成8位随机数,生成的数越随机,重复的可能性当然越小 2.    控制不重复 3.    ...

随机推荐

  1. Docker开启ssh服务

    一.准备 apt-get update       更新环境 apt-get install vim      安装vim vim  /etc/apt/source.list     更换软件源, 我 ...

  2. 【C#】获取"我的电脑"的名字,如This PC、这台计算机

    原文:[C#]获取"我的电脑"的名字,如This PC.这台计算机 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接: ...

  3. OD消息断点

    [文章作者]: icefisher[作者邮箱]: 181712814@qq.com[软件下载]: [软件名称]: echap518.exe(只是供学习的crackme)[加壳方式]: 里面直接有个un ...

  4. Redis数据类型及基本命令

    一.基础命令 提示:Redis不区分命令大小写 1.获得符合规则的键名列表 keys pattern    //pattern支持glob风格通配符格式 2.判断一个键是否存在 exists key  ...

  5. HTML A标签 href click事件冲突

    转自:https://blog.csdn.net/xinglu/article/details/45199337

  6. glup安装

    资料参考:http://www.w3ctrain.com/2015/12/22/gulp-for-beginners/ 1.在安装 node 的环境后: npm install gulp -g 全局安 ...

  7. 2019-11-26-Resharper-去掉注释拼写

    title author date CreateTime categories Resharper 去掉注释拼写 lindexi 2019-11-26 8:42:5 +0800 2018-09-04 ...

  8. 牛客练习赛49 B 筱玛爱阅读 (状压DP,子集生成)

    链接:https://ac.nowcoder.com/acm/contest/946/B 来源:牛客网 时间限制:C/C++ 1秒,其他语言2秒 空间限制:C/C++ 262875K,其他语言5257 ...

  9. 写了一个简单的 Mybatis

    写了一个简单的 Mybatis,取名 SimpleMybatis . 具备增删改查的基本功能,后续还要添加剩下的基本数据类型和Java集合类型的处理. 脑图中有完整的源码和测试的地址 http://n ...

  10. .NET界面控件DevExpress v19.1.3重磅来袭

    DevExpress Universal Subscription(又名DevExpress宇宙版或DXperience Universal Suite)是全球使用广泛的.NET用户界面控件套包,De ...