package com.mieba.spider; import java.util.ArrayList; import java.util.List; import java.util.Vector; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.processor.PageProcessor; import us.codecraft.webm…
Java爬虫一键爬取结果并保存为Excel 将爬取结果保存为一个Excel表格 官方没有给出导出Excel 的教程 这里我就发一个导出为Excel的教程 导包 因为个人爱好 我喜欢用Gradle所以这里就弄Gradle配置 //爬虫包 compile group: 'us.codecraft', name: 'webmagic-core', version: '0.7.3' compile group: 'us.codecraft', name: 'webmagic-extension', ve…
目录: Java NIO 学习笔记(一)----概述,Channel/Buffer Java NIO 学习笔记(二)----聚集和分散,通道到通道 Java NIO 学习笔记(三)----Selector Java NIO 学习笔记(四)----文件通道和网络通道 Java NIO 学习笔记(五)----路径.文件和管道 Path/Files/Pipe Java NIO 学习笔记(六)----异步文件通道 AsynchronousFileChannel Java NIO 学习笔记(七)----N…
Java爬虫领域最强大的框架是JSoup:可直接解析具体的URL地址(即解析对应的HTML),提供了一套强大的API,包括可以通过DOM.CSS选择器,即类似jQuery方式来取出和操作数据.主要功能有: 从给定的URL.文件.字符串中,获得HTML代码. 然后通过DOM.CSS选择器(类jQuery方式)来查找.取出数据:先找到HTML元素,然后获取其属性.文本等. API初步学习: 上面提到了三种方式,获取HTML文档(JSoup的Document对象的结构是:<html><head…
最近在面试,发现Java爬虫对于小数据量数据的爬取的应用还是比较广,抽空周末学习一手,留下学习笔记 Java网络爬虫 简单介绍 爬虫我相信大家都应该知道什么,有什么用,主要的用途就是通过程序自动的去获取获取网上的信息数据,写爬出比较出色的就是PY,但是对于小排量的数据而言,java也是可以满足要求的: HttpClient发起请求 爬虫爬取网页上的数据和我们单独点击链接访问网页数据是同理的,是要使用Http协议访问网页的,这里我们使用Java的Http协议客户端HttpClient来实现抓取网页…
1.构造函数实现对象初始化流程的封装.方法封装了操作对象的流程.java中还可以使用private封装对象私有数据成员.封装的目的主要就是隐藏对象细节,将对象当做黑箱子进行操作. 2.在java命名规范中,取值方法的名称形式是固定的,也就是以get开头,之后接上首字母大写的单词. 3.如果没有声明权限修饰的成员,只有在相同包的类程序代码中才可以直接存取,也就是"包范围权限".如果想在其他包的类程序代码中存取某包的类或对象成员,则该类或对象成员必须是公开成员,在java中要使用publi…
通过反射方式复制对象: package cn.tx.reflect; import java.lang.reflect.Constructor; import java.lang.reflect.Field; import java.lang.reflect.Method; /** * 反射复制对象 * @author Administrator * */ public class ReflectLearn5 { public static void main(String[] args) th…
package com.mieba; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.processor.PageProcessor; public class SinaPageProcessor implements PageProcessor { public static final String URL_LIST = "http://blo…
一.HttpServletRequest介绍 HttpServletRequest对象代表客户端的请求,当客户端通过HTTP协议访问服务器时,HTTP请求头中的所有信息都封装在这个对象中,通过这个对象提供的方法,可以获得客户端请求的所有信息. 二.Request常用方法 2.1.获得客户机信息 getRequestURL方法返回客户端发出请求时的完整URL. getRequestURI方法返回请求行中的资源名部分. getQueryString 方法返回请求行中的参数部分. getPathInf…
Web服务器收到客户端的http请求,会针对每一次请求,分别创建一个用于代表请求的request对象.和代表响应的response对象.request和response对象即然代表请求和响应,那我们要获取客户机提交过来的数据,只需要找request对象就行了.要向客户机输出数据,只需要找response对象就行了. 一.HttpServletResponse对象介绍…