httpClient get方式抓取数据

/*
   * 爬取网页信息
   */
   private static String pickData(String url) {
       CloseableHttpClient httpclient = HttpClients.createDefault();
       try {
           HttpGet httpget = new HttpGet(url);
           CloseableHttpResponse response = httpclient.execute(httpget);
           try {
               // 获取响应实体
               HttpEntity entity = response.getEntity();
               // 打印响应状态
               if (entity != null) {
                   InputStream in = entity.getContent();
                   // byte[] b=new byte[in.available()];
                   // in.read(b);
                   BufferedReader br = new BufferedReader(new InputStreamReader(in, "gbk"));
                   String temp = "";
                   String s = "";
                   while ((temp = br.readLine()) != null) {
                       s = s + temp;
                   }
                   return s;
               } else {
                   String content = "热门综艺节目抓取失败,请检查";
                   ErrorLog el = new ErrorLog();
                   Remind remind = new Remind();
                   remind.remind(el.getVerietyLog(), content);
                   return null;
               }
           } finally {
               response.close();
           }
       } catch (ClientProtocolException e) {
           e.printStackTrace();
       } catch (ParseException e) {
           e.printStackTrace();
       } catch (IOException e) {
           e.printStackTrace();
       } finally {
           // 关闭连接,释放资源
           try {
               httpclient.close();
           } catch (IOException e) {
               e.printStackTrace();
           }
       }
       return null;
   }

/*
   * 使用jsoup解析网页信息
   */
   private static Variety analyzeHTMLByString(String html) {
       Variety v = new Variety();
       String[] arr = new String[3];
       Document document = Jsoup.parse(html);
       // document.select("meta").attr("charset", "utf-8");
       // System.out.println(document);
       Elements array = document.getElementsByClass("keyword");
       System.out.println(array.size());
       String content = "热门综艺节目抓取失败,请检查";
       ErrorLog el = new ErrorLog();
       if (array.size() == 0) {
           Remind remind = new Remind();
           remind.remind(el.getVerietyLog(), content);
           return null;
       }else{
           if (array.size() >= 3) {
               for (int i = 0; i < 3; i++) {
                   String name = array.get(i).child(0).text();
                   arr[i] = name;
               }
           } else {
               for (int i = 0; i < array.size(); i++) {
                   String name = array.get(i).child(0).text();
                   arr[i] = name;
               }
           }
           v.setHot1(arr[0]);
           v.setHot2(arr[1]);
           v.setHot3(arr[2]);
           return v;
       }

   }

httpClient get方式抓取数据的更多相关文章

使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
Cacti 抓取数据方式安装spine
安装好cacti后首先要设置获取数据的方式 Cacti 获取数据的方式有两种,1.监控端的脚本(可以是php, shell, perl 或其他脚本)2.或者 snmp 协议获取. Cacti 会在固定 ...
测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
C#抓取数据、正则表达式+线程池初步运用
去年底用多线程+HtmlAgilityPack.dll 写了一个抓取“慧聪网” 公司信息的小程序,代码惨不忍赌.好在能抓到数据,速度也能让人忍受就很久没管了. 最近这段时间把这个小程序发给同事看着玩 ...
PHP Curl模拟登录并抓取数据
使用PHP的Curl扩展库可以模拟实现登录,并抓取一些需要用户账号登录以后才能查看的数据.具体实现的流程如下(个人总结): 1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: ...
C#使用Selenium+PhantomJS抓取数据
本文主要介绍了C#使用Selenium+PhantomJS抓取数据的方法步骤,具有很好的参考价值,下面跟着小编一起来看下吧手头项目需要抓取一个用js渲染出来的网站中的数据.使用常用的httpclie ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据
接着上一遍,在用Selenium+phantomjs 抓取数据过程中发现,有时候抓取不到,所以又测试了用Selenium+浏览器驱动的方式:具体代码如下: #coding=utf-8import os ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...

随机推荐

Android（java）学习笔记104：Framework运行环境之启动SystemServer进程
1. SystemServer进程 SystemServer进程是zygote孵化出的第一个进程,该进程是从ZygoteInit.java的main函数中调用startSystemServe ...
【HHHOJ】NOIP2018 模拟赛（二十五）解题报告
点此进入比赛得分: \(100+100+20=220\)(\(T1\)打了两个小时,以至于\(T3\)没时间打了,无奈交暴力) 排名: \(Rank\ 8\) \(Rating\):\(+19\) ...
【洛谷4884】多少个1？（BSGS）
点此看题面大致题意: 求满足\(个111...111(N\text{个}1)\equiv K(mod\ m)\)的最小\(N\). 题目来源这题是洛谷某次极不良心的月赛的\(T1\),当时不会\( ...
面试中常见的 MySQL 考察难点和热点
基本架构 MySQL是典型的三层架构模式,在平常使用中对MySQL问题排查和优化,也应该针对具体问题,从对应的层解决问题服务层:经典的C/S架构,主要是处理连接和安全验证. 核心层:处理MySQL核 ...
IOS 网络－深入浅出（一）
首要我们以最为常用的UIImageView为例介绍实现原理: 1)UIImageView+WebCache: setImageWithURL:placeholderImage:options: 先显 ...
Jquery动态添加多行，返回数据至每一行中
<%@ Page Language="C#" AutoEventWireup="true" CodeBehind="sys_channel_ed ...
软件杯python-flask遇到的坑有感！
大三下,对于我考研的人来说,时间不要太紧张,参加软件杯也是系主任要求,题目是公共地点人流量的检测,个人还是个菜鸟,但是把遇到的一些大家可能不小心会出现的问题贴出来,困扰我很久,还没睡好觉!!! Que ...
java算法面试题：有数组a[n]，用java代码将数组元素顺序颠倒
package com.swift; import java.util.ArrayList; import java.util.Collections; import java.util.List; ...
Gender Equality in the Workplace【职场上的性别平等】
Gender Equality in the Workplace A new batch of young women - members of the so-called Millennial ge ...
Hie with the Pie POJ - 3311
Hie with the Pie POJ - 3311 The Pizazz Pizzeria prides itself in delivering pizzas to its customers ...

httpClient get方式抓取数据

httpClient get方式抓取数据的更多相关文章

随机推荐

热门专题