最近一直在做java爬虫，有些感悟心得，分享给大家；

首先，看完这篇文章，不能保证你成为大神，但是却可以让你懂得什么是爬虫，如何使用爬虫，如何利用http协议，侵入别人的系统，当然只是一些简单的教程，拿到一些简单的数据；

先上代码，在一步一步讲解：

这是一个工具类，不用详细看，网上哪里都能找到发送http请求的工具类，少包自己导

package com.df.util;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;

import org.apache.log4j.Logger;
import org.jsoup.Connection;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;

import com.df.controller.DFContorller;

public class HttpPosts {
   private final static Logger logger = Logger.getLogger(DFContorller.class);
   public static String sendPost(String url, String param) {
        PrintWriter out = null;
        BufferedReader in = null;
        String result = "";
        try {
            URL realUrl = new URL(url);
            // 打开和URL之间的连接
            URLConnection conn = realUrl.openConnection();
            // 设置通用的请求属性
            conn.setRequestProperty("accept", "*/*");
            conn.setRequestProperty("connection", "Keep-Alive");
            conn.setRequestProperty("user-agent",
                    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
            // 发送POST请求必须设置如下两行
            conn.setDoOutput(true);
            conn.setDoInput(true);
            // 获取URLConnection对象对应的输出流
            out = new PrintWriter(conn.getOutputStream());
            // 发送请求参数
            out.print(param);
            // flush输出流的缓冲
            out.flush();
            // 定义BufferedReader输入流来读取URL的响应
            in = new BufferedReader(
                    new InputStreamReader(conn.getInputStream(),"utf-8"));
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
           logger.info("发送 POST 请求出现异常！"+e);
            e.printStackTrace();
        }
        //使用finally块来关闭输出流、输入流
        finally{
            try{
                if(out!=null){
                    out.close();
                }
                if(in!=null){
                    in.close();
                }
            }
            catch(IOException ex){
                ex.printStackTrace();
            }
        }
        return result;
    }


      public static String sendGet(String url, String param) {
            String result = "";
            BufferedReader in = null;
            try {
                String urlNameString = url + "?" + param;
                URL realUrl = new URL(urlNameString);
                // 打开和URL之间的连接
                URLConnection connection = realUrl.openConnection();
                // 设置通用的请求属性
                connection.setRequestProperty("accept", "*/*");
                connection.setRequestProperty("connection", "Keep-Alive");
                connection.setRequestProperty("user-agent",
                        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
                connection.setRequestProperty("Cookie","PHPSESSID=27roc4d0ccd2cg4jbht80k8km2");
                // 建立实际的连接
                connection.connect();
                // 获取所有响应头字段
                Map<String, List<String>> map = connection.getHeaderFields();
                // 遍历所有的响应头字段
                for (String key : map.keySet()) {
                    System.out.println(key + "--->" + map.get(key));
                }
                // 定义 BufferedReader输入流来读取URL的响应
                in = new BufferedReader(new InputStreamReader(
                        connection.getInputStream(),"utf-8"));
                String line;
                while ((line = in.readLine()) != null) {
                    result += line;
                }
            } catch (Exception e) {
                System.out.println("发送GET请求出现异常！" + e);
                e.printStackTrace();
            }
            // 使用finally块来关闭输入流
            finally {
                try {
                    if (in != null) {
                        in.close();
                    }
                } catch (Exception e2) {
                    e2.printStackTrace();
                }
            }
            return result;
       }
}

---------------------------------------分割线

下面进入主题：首先你要先进入，你要去爬取网站的登录页面，查看页面源码，找到登录请求发送的方法名；一般来所，小型网站会直接写在from表面action里面，很容易找得到，中型的网站就不会写的这么直接了，找起来要费些功夫，可能在js里面，也可能不在这个页面，推荐使用抓包工具登陆一次，看抓到的请求信息，大型的网站，本人爬取过的京东商城后台，用游览器自带的f12，抓不到登录的信息，一闪即逝，最后想了很多招才搞到京东的登录接口；实现爬去；拿到了登录接口地址后；上代码

String data=HttpPosts.sendGet(登录地址（不带参数；String类型地址）,参数（如：user_id=6853&export=112）);（返回的登录状态，一般是json格式，他会高数你是否登录成功，有的是true，有的是1，视情况而定）选择get还是post，模仿登录页面的请求

然后再来一个请求获取cookie

Connection conn = Jsoup.connect("http://union.dftoutiao.com/admindata/getList/");
          conn.method(Method.GET);
          conn.followRedirects(false);
          Response response = conn.execute();
          System.out.println(response.cookies());

再讲cookie动态传入get或者post方法里面替换到写死的cookie；因为是测试所以写死了cookie，可以写成动态的；

之后再掉你要访问登录之后的页面，主页，或者是数据页面，里面一定要携带cookie，和http请求的基本参数信息，不然一定会被拦截的。

String data=HttpPosts.sendGet(登录地址（不带参数；String类型地址）,参数（如：user_id=6853&export=112）);访问方法同上；这回给你返回的就是他们的页面了，如何你找到了对面的某个数据接口，那就可以直接访问他，返回的就直接是数据，不然你还要解析，他的页面，很麻烦的。解析页面一般用jsoup。

其实这个等于另类的入侵，不需要知道对方的接口文档，用程序利用http协议直接访问对方的服务器，

拿到你想要的东西。当然有验证码的情况下，是很难的。这是爬虫基础。只是一带而过，讲的有些片面，不到之处多多海涵；

请为我点赞 thankyou

最近一直在做java爬虫，有些感悟心得，分享给大家；的更多相关文章

Java爬虫
作为一位Java爬虫的初学者,分享一下自己的心得.所用到的jar包 org.codehaus.jettison.jar jsoup-1.7.3.jar个人认为爬虫的实现机制:获取Docume对象-&g ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...
推荐几个优秀的java爬虫项目
java爬虫项目大型的: Nutch apache/nutch · GitHub 适合做搜索引擎,分布式爬虫是其中一个功能. Heritrix internetarchive/heritrix3 ...
如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）
我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置use ...
Java爬虫搜索原理实现
permike 原文 Java爬虫搜索原理实现没事做,又研究了一下爬虫搜索,两三天时间总算是把原理闹的差不多了,基本实现了爬虫搜索的原理,本次实现还是俩程序,分别是按广度优先和深度优先完成的,广度优 ...
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...
爬虫入门手写一个Java爬虫
本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...

随机推荐

python--DenyHttp项目（2）--ACM监考服务器端
服务器端: #coding:utf-8 ''' ServerGui.py 设置比赛开始时间设置比赛结束时间若时间无误启动监听服务 ''' import time import re import ...
hdu--1798--Doing Homework again(贪心)
Doing Homework again Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Oth ...
linux文件系统目录解析
Linux下的文件系统为树形结构,入口为/ 树形结构下的文件目录: 无论哪个版本的Linux系统,都有这些目录,这些目录应该是标准的.各个Linux发行版本会存在一些小小的差异,但总体来说,还是大体差 ...
175. Combine Two Tables【LeetCode】-LEFT JON 和RIGHT JOIN，两张表关联查询-java -sql入门
Table: Person +-------------+---------+ | Column Name | Type | +-------------+---------+ | PersonId ...
【NO.5】jmeter-结果文件
Jmeter的结果文件可以保存很多内容,你需要看哪个就勾选哪个,很简单是吧. 结果文件可以保存为2种形式:XML或者CSV.我印象里在书上提到过,如果保存为XML形式的结果文件,后续可以转化为表格便于 ...
let const 下篇
1.不存在变量提升在之前的js代码中,声明一个变量或者是函数,会存在变量提升的现象,也就是说变量可以在声明之前使用,值为undefined: es5: console.log(a); //undef ...
WebSphere服务器已启动但是初始化失败问题
--WebSphere服务器已启动但是初始化失败问题 -----------------------------------------------2014/03/06 经常有开发同事反映,环境用着用 ...
MySQL视图了解
视图是什么视图是一种虚拟存在的表,不会在数据库中实际存在.相比较普通的表,有如下优势简单:使用视图的用户完全不需要关心后面对应的表的结构.关联条件和筛选条件,对用户来说已经是过滤好的复合条件的结果 ...
Windows MDI(Multiple-Document Interface)
Windows多文档窗口编程中,需要注意的以下几点: 1.主窗口与文档窗口之间还有一个Client Window. 2.创建文档窗口.通常认为创建子窗口就用CreateWindow,但是MDI中创建文 ...
noip普及组2004 FBI树
FBI树描述我们可以把由"0"和"1"组成的字符串分为三类:全"0"串称为B串,全"1"串称为I串,既含" ...

最近一直在做java爬虫，有些感悟心得，分享给大家；

最近一直在做java爬虫，有些感悟心得，分享给大家；的更多相关文章

随机推荐

热门专题