Java爬虫学习（2）之用对象保存文件demo（1）

 package com.mieba.spider;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.Vector;

 import us.codecraft.webmagic.Page;

 import us.codecraft.webmagic.Site;

 import us.codecraft.webmagic.processor.PageProcessor;

 import us.codecraft.webmagic.selector.Html;

 public class WanhoPageProcessor implements PageProcessor

 {

     private Site site = Site

             .me()

             .setTimeOut(10000)

             .setRetryTimes(3)

             .setSleepTime(1000)

             .setCharset("UTF-8");

     @Override

     public Site getSite()

     {

         // TODO Auto-generated method stub

         return site;

     }

     @Override

     public void process(Page page)

     {

         // TODO Auto-generated method stub

         //获取当前页的所有喜报

          List<String> list = page.getHtml().xpath("//div[@class='main_l']/ul/li").all();

         //要保存喜报的集合

         Vector<ArticleVo> voLst = new Vector<>();

       //遍历喜报

         String title;

         String content;

         String img;

         for (String item : list)

         {

             Html tmp = Html.create(item);

             //标题

             title = tmp.xpath("//div[@class='content']/h4/a/text()").toString();

             //内容

             content = tmp.xpath("//div[@class='content']/p/text()").toString();

             //图片路径

             img = tmp.xpath("//a/img/@src").toString();

             //加入集合

             ArticleVo vo = new ArticleVo(title, content, img);

             voLst.add(vo);

         }

       //保存数据至page中，后续进行持久化

         page.putField("e_list", voLst);

       //加载其它页

         page.addTargetRequests( getOtherUrls());

     }

     //其它页

     public List<String> getOtherUrls()

     {

          List<String> urlLsts = new ArrayList<>();

          for(int i=2;i<7;i++){

              urlLsts.add("http://www.wanho.net/a/jyxb/list_15_"+i+".html");

          }

         return urlLsts;

     }

 }

 package com.mieba.spider;

 import java.io.BufferedInputStream;

 import java.io.BufferedOutputStream;

 import java.io.File;

 import java.io.FileNotFoundException;

 import java.io.FileOutputStream;

 import java.io.FileWriter;

 import java.io.IOException;

 import java.io.InputStream;

 import java.io.PrintWriter;

 import java.net.MalformedURLException;

 import java.net.URL;

 import java.net.URLConnection;

 import java.util.Vector;

 import us.codecraft.webmagic.ResultItems;

 import us.codecraft.webmagic.Task;

 import us.codecraft.webmagic.pipeline.Pipeline;

 public class WanhoPipeline implements Pipeline

 {

     @Override

     public void process(ResultItems resultItems, Task arg1)

     {

         // TODO Auto-generated method stub

         // 获取抓取过程中保存的数据

         Vector<ArticleVo> voLst = resultItems.get("e_list");

         // 持久到文件中

         PrintWriter pw = null;

         try

         {

             pw = new PrintWriter(new FileWriter("wanho.txt", true));

             for (ArticleVo vo : voLst)

             {

                 pw.println(vo);

                 pw.flush();

                 saveImg(vo.getImg());

             }

         } catch (FileNotFoundException e)

         {

             e.printStackTrace();

         } catch (IOException e)

         {

             e.printStackTrace();

         } finally

         {

             pw.close();

         }

     }

     private void saveImg(String img)

     {

         // TODO Auto-generated method stub

         String imgUrl = "http://www.wanho.net" + img;

         InputStream is = null;

         BufferedInputStream bis = null;

         BufferedOutputStream bos = null;

         try

         {

             URL url = new URL(imgUrl);

             URLConnection uc = url.openConnection();

             is = uc.getInputStream();

             bis = new BufferedInputStream(is);

             File photoFile = new File("photo");

             if (!photoFile.exists())

             {

                 photoFile.mkdirs();

             }

             String imgName = img.substring(img.lastIndexOf("/") + 1);

             File saveFile = new File(photoFile, imgName);

             bos = new BufferedOutputStream(new FileOutputStream(saveFile));

             byte[] bs = new byte[1024];

             int len;

             while ((len = bis.read(bs)) != -1)

             {

                 bos.write(bs, 0, len);

             }

         } catch (MalformedURLException e)

         {

             // TODO: handle exception

             e.printStackTrace();

         } catch (IOException e)

         {

             e.printStackTrace();

         } finally

         {

             try

             {

                 bos.close();

             } catch (IOException e)

             {

                 e.printStackTrace();

             }

             try

             {

                 bis.close();

             } catch (IOException e)

             {

                 e.printStackTrace();

             }

             try

             {

                 is.close();

             } catch (IOException e)

             {

                 e.printStackTrace();

             }

         }

     }

 }

 package com.mieba.spider;

 public class ArticleVo

 {

     private String title;

     private String content;

     private String img;

     public String getTitle()

     {

         return title;

     }

     public void setTitle(String title)

     {

         this.title = title;

     }

     public String getContent()

     {

         return content;

     }

     public void setContent(String content)

     {

         this.content = content;

     }

     public String getImg()

     {

         return img;

     }

     public void setImg(String img)

     {

         this.img = img;

     }

     public ArticleVo(String title, String content, String img)

     {

         super();

         this.title = title;

         this.content = content;

         this.img = img;

     }

     @Override

     public String toString()

     {

         return "ArticleVo [title=" + title + ", content=" + content + ", img=" + img + "]";

     }

 }

package com.mieba.spider;

import us.codecraft.webmagic.Spider;

public class Demo

{

    public static void main(String[] args)

    { // 爬取开始

        Spider

        // 爬取过程

        .create(new WanhoPageProcessor())

        // 爬取结果保存

        .addPipeline(new WanhoPipeline())

        // 爬取的第一个页面

        .addUrl("http://www.wanho.net/a/jyxb/")

        // 启用的线程数

        .thread(5).run();

        }

    }

爬取到的照片

爬取到的简报

大家如果要使用代码，配置webmagic的依赖包即可使用。

Java爬虫学习（2）之用对象保存文件demo（1）的更多相关文章

Java爬虫一键爬取结果并保存为Excel
Java爬虫一键爬取结果并保存为Excel 将爬取结果保存为一个Excel表格官方没有给出导出Excel 的教程这里我就发一个导出为Excel的教程导包因为个人爱好我喜欢用Gradle所以这 ...
Java NIO 学习笔记（六）----异步文件通道 AsynchronousFileChannel
目录: Java NIO 学习笔记(一)----概述,Channel/Buffer Java NIO 学习笔记(二)----聚集和分散,通道到通道 Java NIO 学习笔记(三)----Select ...
Java 爬虫学习
Java爬虫领域最强大的框架是JSoup:可直接解析具体的URL地址(即解析对应的HTML),提供了一套强大的API,包括可以通过DOM.CSS选择器,即类似jQuery方式来取出和操作数据.主要功能 ...
半途而废的Java爬虫学习经历
最近在面试,发现Java爬虫对于小数据量数据的爬取的应用还是比较广,抽空周末学习一手,留下学习笔记 Java网络爬虫简单介绍爬虫我相信大家都应该知道什么,有什么用,主要的用途就是通过程序自动的去获 ...
《java JDK7 学习笔记》之对象封装
1.构造函数实现对象初始化流程的封装.方法封装了操作对象的流程.java中还可以使用private封装对象私有数据成员.封装的目的主要就是隐藏对象细节,将对象当做黑箱子进行操作. 2.在java命名规 ...
Java反射学习-5 - 反射复制对象
通过反射方式复制对象: package cn.tx.reflect; import java.lang.reflect.Constructor; import java.lang.reflect.Fi ...
Java爬虫学习（3）之用对象保存新浪微博博文
package com.mieba; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.c ...
java web学习总结(十) -------------------HttpServletRequest对象
一.HttpServletRequest介绍 HttpServletRequest对象代表客户端的请求,当客户端通过HTTP协议访问服务器时,HTTP请求头中的所有信息都封装在这个对象中,通过这个对象 ...
java web学习总结(七) -------------------HttpServletResponse对象(一)
Web服务器收到客户端的http请求,会针对每一次请求,分别创建一个用于代表请求的request对象.和代表响应的response对象.request和response对象即然代表请求和响应,那我们要 ...

随机推荐

C#从委托、lambda表达式到linq总结
前言本文总结学习C#必须知道的基础知识,委托.监视者模式.常用lambda表达式.linq查询,自定义扩展方法,他们之间有什么关系呢?匿名委托是如何演变成lambda表达式,lambda再如何导出l ...
SpringBoot整合ActiveMQ开启持久化
1.开启队列持久化只需要添加三行代码 jmsTemplate.setDeliveryMode(2); jmsTemplate.setExplicitQosEnabled(true); jmsTemp ...
在 myeclipse 引入项目
1.进入 myeclipse 在界面空白处,右键,出现如下图所示 2.选择 Import...,弹出如下图所示界面 3.双击上图红框内的内容,弹出如下图所示界面,然后点击按钮“Browse...”,选 ...
layui的跳转链接实现分页low
layui.use(['laypage', 'layer'], function(){ var laypage = layui.laypage ,layer = layui.layer; laypag ...
java exec python program
I find three methods, the first is using jython, the module of jython can transform the type of data ...
4 Values whose Sum is 0 UVA 1152
题目链接:https://vjudge.net/problem/UVA-1152 这题题意就是在四个集合内.每个集合分别里挑一个数a,b,c,d,求a+b+c+d=0有多少种选法. 暴力的话就是四重循 ...
java中拦截器与过滤器
注:文摘自网络,仅供自己参考 1.首先要明确什么是拦截器.什么是过滤器 1.1 什么是拦截器: 拦截器,在AOP(Aspect-Oriented Programming)中用于在某个方法或字段被访问之 ...
微信小程序中如何上传图片
本篇文章给大家带来的内容是关于微信小程序中如何上传图片(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 一.wxml文件 <text>上传图片</text ...
gogs迁移至gitlab
一.先来聊一聊迁移的思路,不管是gogs迁移至gitlab,还是gitlab迁移至gogs,亦或gitlab迁移至gitlab,手动迁移的步骤都是如下图所示(在gitlab上新建一个空项目就会有这样的 ...
react 渲染
目录 React渲染 createElement的三个参数 element如何生成真实节点 ReactDOMComponent 作用 ReactCompositeComponentWrapper 作用 ...

Java爬虫学习（2）之用对象保存文件demo（1）

Java爬虫学习（2）之用对象保存文件demo（1）的更多相关文章

随机推荐

热门专题