crawler_JVM_DNS_在爬虫中的应用

DNS解析：即由域名经过dns解析，跳转到真正服务器的地址，这个重复解析的耗时占请求很大比例。在设计爬虫时比较细粒度的控制下，需要考虑dns解析。 jdk从1.5往后对dns缓存有默认设置，

详见jdk源码，不过有部分细节还是需要自己去处理的。

JAVA本身对DNS的缓存时间是多久？

对于爬虫DNS解析耗时的疑问，第一反应Google之，大致有两种说法：
第1种：默认情况下networkaddress.cache.ttl=-1，代表永久缓存（配置文件路径： JAVA_HOME/jre/lib/security/java.security），就是在应用启动之后第一次DNS 解析成功的结果会一直cache到应用停止。显然在域名对应的IP有变更的时候，如果不重启应用就会造成故障。有部分同事以前也做过相关测试，认同这种说法。

第2种：jdk1.5和1.5之前的版本默认DNS 缓存时间是永久缓存，jdk 1.6以后与security manager策略有关，如果没有启用security manager ，默认DNS 缓存时间30秒。策略配置文件：JAVA_HOME/jre/lib/security/java.policy

测试code

 import java.net.InetAddress;

 /**

  * @declare: DNS缓存研究 <br>

  * @author: cphmvp

  * @version: 1.0

  * @date: 2014-3-17下午5:37:07

  */

 public class MyDNS {

     // jvm dns缓存研究

     public static void main(String[] args) throws Exception {

         String hostName = "www.baidu.com";

         String cacheTime = "10";

         java.security.Security.setProperty("networkaddress.cache.ttl",

                 cacheTime);

         for (int i = 0; i < 100; i++) {

             long time = System.currentTimeMillis();

             InetAddress addresses1[] = InetAddress.getAllByName(hostName);

             System.out.println("addresses1:   "

                     + String.valueOf(System.currentTimeMillis() - time) + "毫秒");

             for (InetAddress address : addresses1)

                 System.out.println(address);

         }

         // 当缓存时间为 0时，在一百次访问www.baidu.com 都有耗时情况【未考虑操作系统缓存】

25         // 当缓存时间为 10时，在一百次访问www.baidu.com ，只有第一次耗时，后99次不消耗dns查找时间

26         // 如果不设置 networkaddress.cache.ttl，默认为-1

27         // ，只有第一次耗时，后99次不消耗dns查找时间【后多少次都不在耗时，直至JVM重启】

     }

 }

默认JVM会缓存每一次DNS的查询结果，并且使缓存结果永远有效，直到你对该JVM重启为止。有时候业务需要系统能对域名切换及时而自动进行切换。这时候你就需要禁用或调整JVM的DNS缓存机制。

在独立运行程序中（非容器环境），可以在应用启动的时候通过以下代码完成：

//设置解析成功的域名记录JVM中缓存的有效时间，JVM默认是永远有效，这样一来域名IP重定向必须重启JVM，这里修改为3秒钟有效，0表示禁止缓存，-1表示永远有效
Security.setProperty("networkaddress.cache.ttl", "3");

//设置解析失败的域名记录JVM中缓存的有效时间，JVM默认是10秒，0表示禁止缓存，-1表示永远有效
Security.setProperty("networkaddress.cache.negative.ttl", "3");

代码中设置“networkaddress.cache.ttl”值的方式只适用于非容器环境，当应用部署与resin等容器中时该设置控制不了JVM的行为。可行的办法是通过在容器的启动参数中设置JDK系统变量“sun.net.inetaddr.ttl“或“sun.net.inetaddr.negative.ttl”，该参数跟“networkaddress.cache.ttl”和“networkaddress.cache.negative.ttl”的值定义一样，只是一个用于命令行，一个用于程序内部。具体操作方法：
修改httpd.sh，在"args="选项添加参数，如：-Dsun.net.inetaddr.ttl=0

如果非Resin容器的Java应用中同时配置了命令参数“sun.net.inetaddr.ttl”和Security属性“networkaddress.cache.ttl”，那么会以Security属性的设置为准。

结论：

方法一：设置jvm参数，制定缓存有效期

方法二：硬编码，java.security.Security.setProperty("networkaddress.cache.ttl",cacheTime); 设置有效期。

一般情况下我们不需要完全取消JVM的DNS缓存，只需要调小有效时间，经过一些测试发现一下结论：
1）1个域名对应一个IP和一个域名对应12个IP，DNS查询响应时间差别极少，后者占用cpu稍高一点点；
2）在高并发时，不做DNS缓存时的CPU耗用比做了3s缓存的CPU耗用要高3/4倍，实时DNS请求相当耗用CPU；
3）3s和30s缓存有效时间对dns查询响应时间的影响差别不大，cpu内存占用都比较接近；
4）建议使用3秒缓存，兼顾运维和性能,对于不常改动指向ip的域名，可以设置时间更长，以提高性能。

crawler_JVM_DNS_在爬虫中的应用的更多相关文章

采集爬虫中，解决网站限制IP的问题？ - wendi_0506的专栏 - 博客频道 - CSDN.NET
采集爬虫中,解决网站限制IP的问题? - wendi_0506的专栏 - 博客频道 - CSDN.NET undefined
crawler_网络爬虫中编码的正确处理与乱码的解决策略
转载: http://hi.baidu.com/erliang20088/item/9156132bdaeae8949c63d134 最近一个月一直在对nutch1.6版进行中等层次的二次开发,本来是 ...
跟着太白老师学python day11 闭包及在爬虫中的基本使用
闭包的基本概念: 闭包内层函数对外层函数的变量(不包括全局变量)的引用,并返回,这样就形成了闭包闭包的作用:当程序执行时,遇到了函数执行,它会在内存中开辟一个空间,如果这个函数内部形成了闭包, 那 ...
爬虫中之Requests 模块的进阶
requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个 ...
asyncio在爬虫中的使用
# -*- coding: utf-8 -*- # 协程基础.py import asyncio import time async def request(url): print("正在请 ...
python爬虫中scrapy框架是否安装成功及简单创建
判断框架是否安装成功,在新建的爬虫文件夹下打开盘符中框输入cmd,在命令中输入scrapy,若显示如下图所示,则说明成功安装爬虫框架: 查看当前版本:在刚刚打开的命令框内输入scrapy versio ...
网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包
1 引言在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以 ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
python学习(十八)爬虫中加入cookie
转载自:原文链接前几篇文章介绍了urllib库基本使用和爬虫的简单应用,本文介绍如何通过post信息给网站,保存登陆后cookie,并用于请求有权限的操作.保存cookie需要用到cookiejar ...

随机推荐

Android 随着输入框控件的清除功能ClearEditText,抄IOS输入框
今天给大家带来一个非常有用的小控件ClearEditText,就是在Android系统的输入框右边增加一个小图标,点击小图标能够清除输入框里面的内容,IOS上面直接设置某个属性就能够实现这一功能.可是 ...
chrome 关闭自己主动更新
一不小心,把chrome更新成了37, chrome 37不支持模态窗体[ window.showModalDialog() ],折腾死人了. 实在抵不住,仅仅好降级成36.0.1985.143m 至 ...
开源Math.NET基础数学类库使用(05)C#解析Delimited Formats数据格式
原文:[原创]开源Math.NET基础数学类库使用(05)C#解析Delimited Formats数据格式开源Math.NET基础数学类库使用系列文章总目录: 1.开源.NET基础数学计算组件 ...
Apache Commons Math3学习笔记（2） - 多项式曲线拟合(转)
多项式曲线拟合:org.apache.commons.math3.fitting.PolynomialCurveFitter类. 用法示例代码: // ... 创建并初始化输入数据: double[] ...
lua基金会【五岁以下儿童】I/O文件操作
--[[ lua操作相关文件I/O ]]-- --件,假设该文件不存在的话, --lua会帮助我们在你规定的文件夹下创建这个文件,前提是该文件夹要存在 --[[ 同一时候我们应该掌握写入文件的模式: ...
V离MWare至Openstack至FDIO
离VMWare至Openstack 至FDIO --软件虚拟化和硬件虚拟化相结合作者:廖恒以VMWare为代表的软件虚拟化技术在企业IT中已是耳熟能详的不争现实.据在HPISS任职的好友告知,V ...
mysql5.6设置主从报错1236，Increase max_allowed_packet on master，原因却是Binlog偏移量不对
在试Mysql5.6,搭了个主从: CHANGE MASTER TO MASTER_HOST='1.2.3.4', master_user='slave', master_password='xxxq ...
Android：ViewPager扩展的具体解释——导航ViewPagerIndicator（有图片缓存，异步加载图片）
我们已经用viewpager该. github那里viewpager扩展,导航风格更丰富.这个开源项目ViewPagerIndicator.非常好用,但样品是比较简单,实际用起来是非常不延长.例如,在 ...
数据库管理——安全管理——识别SQLServer中空密码或者弱密码的登录名
原文:数据库管理--安全管理--识别SQLServer中空密码或者弱密码的登录名原文译自: http://www.mssqltips.com/sqlservertip/2775/identify-b ...
Teams（uva11609+组合）
I - Teams Time Limit:1000MS Memory Limit:0KB 64bit IO Format:%lld & %llu Submit cid=7795 ...

crawler_JVM_DNS_在爬虫中的应用

crawler_JVM_DNS_在爬虫中的应用的更多相关文章

随机推荐

热门专题