关于java获取网页内容

最近项目需求，做一些新闻站点的爬取工作。
1.简单的jsoup爬取，静态页面形式；

String url="a.atimo.cn";//静态页面链接地址
Document doc = Jsoup.connect(url).userAgent("Mozilla").timeout(4000).get();

        if(doc!=null){

            Elements es = doc.select("div.comments>ul>li");//

            System.out.println(es);

            if(es!=null && es.size()>0){

                for (Element element : es) {

                    String link = element.select("div>h3").attr("href");

                    String title = element.select("div>h3").text();

                    String author = element.select("div.c-abstract>em").text();

                    String content = element.select("dd>a>div.icos>i:eq(1)").text();

                }

            }

        }

通过jsop解析返回Document 使用标签选择器，选择页面标签中的值，即可获取页面内容。

2.延时加载，有些网站存在延时加载，表格内容，或者嵌入页面形式的加载的页面；
属于jsop范围

        //构造一个webClient 模拟Chrome 浏览器

        String url = "https://www.cnblogs.com/atimo/";

        WebClient webClient = new WebClient(BrowserVersion.CHROME);

        //支持JavaScript

        webClient.getOptions().setUseInsecureSSL(true);

        webClient.getOptions().setJavaScriptEnabled(true);

        webClient.getOptions().setCssEnabled(false);

        webClient.getOptions().setActiveXNative(false);

        webClient.getOptions().setCssEnabled(false);

        webClient.getOptions().setThrowExceptionOnScriptError(false);

        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

        webClient.getOptions().setTimeout(3000000);

        HtmlPage rootPage = webClient.getPage(url);

        String html = rootPage.asXml();

        Document document = Jsoup.parse(html);

        Elements es = document.select("div.comments");//.select("#content_left");

        System.out.println(es);

        if(es!=null && es.size()>0){

            for (Element element : es) {

            String link = element.select("div.f13>a").attr("href");

            String title = element.select("div>h3>a").text();

            String text = element.select("div.c-abstract>em").text();

        }

        }

获取到的是Document 使用标签选择器，选择页面标签中的值，即可获取页面内容。

3.获取评论或其他内容，返回json数据；js请求
普通请求，只需要使用
HttpURLConnection connection = createRequest(url, "GET");
　　// 建立实际的连接 connection.connect();
发送GET请求过去json数据后解析即可；
4.js请求带请求头参数(部分为移动端请求)

            CloseableHttpClient https = HttpClients.createDefault();

            String url = "https://action=hene=124&devicetype=androidlag=zh_CN&nettyene=3&pass_ticwx_header=1";

            HttpGet httpPost = new HttpGet(url);

            httpPost.addHeader("Host", "mp.weixin.qq.com");

            httpPost.addHeader("x-wechat-uin", wechartCookie.getUin());

            httpPost.addHeader("x-", "参数");

            HttpResponse response = https.execute(httpPost);

            HttpEntity entitySort = response.getEntity();

            String html = EntityUtils.toString(entitySort, "utf-8");

请求头参数根据抓包工具拦截的请求时需要的参数变更；

关于java获取网页内容的更多相关文章

Java——获取网页内容并在本地生成HTML文件
使用java.net包下的URL类,可以将一个网页(链接)封装成一个URL对象. URL对象有一个openStream()方法,使用该方法可以获取该网页的输入流,我们可以通过读取输入流的方式获得网页的 ...
基于apache —HttpClient的小爬虫获取网页内容
今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 H ...
Java获取URL对应的资源
Java获取URL对应的资源认识IP.认识URL是进行网络编程的第一步.java.net.URL提供了丰富的URL构建方式,并可以通过java.net.URL来获取资源. 一.认识URL ...
【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用
最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获 ...
java获取https网站证书，附带调用https:webservice接口
一.java 获取https网站证书: 1.创建一个java工程,新建InstallCert类,将以下代码复制进去 package com; import java.io.BufferedReader ...
java获取图片原始尺寸
java获取图片原始尺寸 URL url = null; InputStream is = null; BufferedImage img = null; try { url = new URL(pi ...
C#获取网页内容的三种方式
C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用自:http: ...
java学习第13天( java获取当前时间,有关大数据的运算及精确数字运算,Date类)
一 java获取当前时间学习一个函数,得到当前时间的准确值 System.currectTimeMillis(). 可以得到以毫秒为单位的当前时间.它主要用于计算程序运行时间,long start= ...
Java获取Web服务器文件
Java获取Web服务器文件如果获取的是服务器上某个目录下的有关文件,就相对比较容易,可以设定死绝对目录,但是如果不能设定死绝对目录,也不确定web服务器的安装目录,可以考虑如下两种方式: 方法一: ...

随机推荐

持续集成之Jenkins+Gitlab实现持续集成
项目使用git+jenkins实现持续集成开始构建 General 源码管理我们安装的是Git插件,还可以安装svn插件我们将git路径存在这里还需要权限认证,否则会出现error 我们 ...
Cesium.js学习第三天（模型展示）
var viewer = new Cesium.Viewer('cs'); viewer.scene.primitives.add(Cesium.Model.fromGltf({ url : '/Ce ...
ringMVC——redirect重定向跳转传值
spring MVC框架controller间跳转,需重定向.有几种情况:不带参数跳转,带参数拼接url形式跳转,带参数不拼接参数跳转,页面也能显示. 首先先来介绍一下不带参数的重定向: ...
C51 单片机的中断号以及中断向量
1.外部中断0. 1:分别由引脚/INT0./INT1的电平信号引起. 2.定时/计数器0.1:分别由T0. T1的溢出引起. 3.串行口发送.接收:发送完一个字节或接收到一个字节引起. 上述共5个中 ...
能成为一名合格的Java架构师
原文地址:http://www.dalbll.com/Group/Topic/ArchitecturedDesign/4943 俗话说“没有见过好程序,怎么可能写出好程序”,同样,也可以说“不了解架构 ...
Oracle的分析函数
Oracle的分析函数row_number(),rank(),dense_rank()的用法与区别比如查询工资排名第7的员工信息,可以用分析函数来做. --查询工资排名第7的员工信息select * ...
由Oracle 11g SYSAUX 和 SYSTEM 表空间回收引发的联想
0x00--目的整理一下以前一个SYSTEM表空间和SYSAUX表空间使用率达到99%上限的处理思路和相关知识点,好记性不如烂笔头 0x01--表空间使用率现状通过查询可得知目前表空间使用情况如下 ...
Java设计模式六大原则-1
Java设计模式六大原则-1 做Java程序开发的每天都在使用JDK,Spring,SpringMvc,Mybatis,Netty,MINA等框架,但很少有人懂得背后的原理.即使打开跟下原码也是一头雾 ...
js中数组的api整理
首先列出所有的方法: join(), sort(), slice(), splice(), concat(), reverse(), push()+pop(), shift()+unshift(), ...
Qt 项目主进程接收Alarm 后在GUI上显示，并且可以有选择性输出文件
项目主进程接收报警后,将alarm msg 发送给代理, 并将其分发: else if (msg.name == "MesLCUalarmRep") { QString error ...

关于java获取网页内容

关于java获取网页内容的更多相关文章

随机推荐

热门专题