jsoup爬取图片到本地
因为项目需求,需要车辆品牌信息和车系信息,昨天用一天时间研究了jsoup爬取网站信息。项目是用maven+spring+springmvc+mybatis写的。
jsoup开发指南地址:http://www.open-open.com/jsoup/
这个是需要爬取网站的地址 https://car.autohome.com.cn/zhaoche/pinpai/
1.首先在pom.xml中添加依赖
因为需要把图片保存到本地所以又添加了commons-net包
- <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
- <dependency>
- <groupId>org.jsoup</groupId>
- <artifactId>jsoup</artifactId>
- <version>1.10.3</version>
- </dependency>
- <!-- https://mvnrepository.com/artifact/commons-net/commons-net -->
- <dependency>
- <groupId>commons-net</groupId>
- <artifactId>commons-net</artifactId>
- <version>3.3</version>
- </dependency>
2.然后是爬虫代码的实现
- @Controller
- @RequestMapping("/car/")
- public class CarController {
- //图片保存路径
- private static final String saveImgPath="C://imgs";
- /**
- * @Title: insert 品牌名称 和图片爬取和添加
- * @Description:
- * @param @throws IOException
- * @return void
- * @throws
- * @date 2018年1月29日 下午4:42:57
- */
- @RequestMapping("add")
- public void insert() throws IOException {
- //定义想要爬取数据的地址
- String url = "https://car.autohome.com.cn/zhaoche/pinpai/";
- //获取网页文本
- Document doc = Jsoup.connect(url).get();
- //根据类名获取文本内容
- Elements elementsByClass = doc.getElementsByClass("uibox-con");
- //遍历类的集合
- for (Element element : elementsByClass) {
- //获取类的子标签数量
- int childNodeSize_1 = element.childNodeSize();
- //循环获取子标签内的内容
- for (int i = 0; i < childNodeSize_1; i++) {
- //获取车标图片地址
- String tupian = element.child(i).child(0).child(0).child(0).child(0).attr("src");
- //获取品牌名称
- String pinpai = element.child(i).child(0).child(1).text();
- //输出获取内容看是否正确
- System.out.println("车标图片地址-----------" + tupian);
- System.out.println("品牌-----------" + pinpai);
- System.out.println();
- //把车标图片保存到本地
- String tupian_1 = "http:"+tupian;
- //连接url
- URL url1 = new URL(tupian_1);
- URLConnection uri=url1.openConnection();
- //获取数据流
- InputStream is=uri.getInputStream();
- //获取后缀名
- String imageName = tupian.substring(tupian.lastIndexOf("/") + 1,tupian.length());
- //写入数据流
- OutputStream os = new FileOutputStream(new File(saveImgPath, imageName));
- byte[] buf = new byte[1024];
- int p=0;
- while((p=is.read(buf))!=-1){
- os.write(buf, 0, p);
- }
- /**
- * 因为每个品牌下有多个合资工厂
- * 比如一汽大众和上海大众还有进口大众
- * 所有需要循环获取合资工厂名称和旗下
- * 车系
- */
- //获取车系数量
- int childNodeSize_2 = element.child(i).child(1).child(0).childNodeSize();
- /**
- * 获取标签下子标签数量
- * 如果等于1则没有其他合资工厂
- */
- int childNodeSize_3 = element.child(i).child(1).childNodeSize();
- if(childNodeSize_3==1){
- //循环获取车系信息
- for (int j = 0; j < childNodeSize_2; j++) {
- String chexi = element.child(i).child(1).child(0).child(j).child(0).child(0).text();
- System.out.println("车系-----------" + chexi);
- }
- }else{
- /**
- * 如果childNodeSize_3大于1
- * 则有多个合资工厂
- */
- //分别获取各个合资工厂旗下车系
- for (int j = 0; j < childNodeSize_3; j++) {
- int childNodeSize_4 = element.child(i).child(1).child(j).childNodeSize();
- /**
- * 如果j是单数则是合资工厂名称
- * 否则是车系信息
- */
- int k = j%2;
- if(k==0){
- //获取合资工厂信息
- String hezipinpai = element.child(i).child(1).child(j).child(0).text();
- System.out.println("合资企业名称-----------" + hezipinpai);
- }else{
- //int childNodeSize_5 = element.child(i).child(1).child(0).childNodeSize();
- //循环获取合资工厂车系信息
- for(int l = 0; l < childNodeSize_4; l++){
- String chexi = element.child(i).child(1).child(j).child(l).child(0).child(0).text();
- System.out.println("车系-----------" + chexi);
- }
- }
- }
- }
- System.out.println("************************");
- System.out.println("************************");
- }
- }
- }
- }
3.运行结果
4.
jsoup爬取图片到本地的更多相关文章
- Java jsoup爬取图片
jsoup爬取百度瀑布流图片 是的,Java也可以做网络爬虫,不仅可以爬静态网页的图片,也可以爬动态网页的图片,比如采用Ajax技术进行异步加载的百度瀑布流. 以前有写过用Java进行百度图片的抓取, ...
- python实现scrapy爬取图片到本地时的sha1摘要算法文件名
2017-03-29 Scrapy爬图片到本地应该会给图片自动生成sha1摘要算法文件名,我第一次用scrapy也不清楚太多,就在程序里自己写了一段实现这一功能的代码.需import hashlib ...
- PHP 爬取图片 保存本地
public function getImage($url,$filename='') { if($url == ''){ return false; } if($filename == ''){ $ ...
- scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地 爬取网站:斗鱼主播 完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
- 使用Scrapy爬取图片入库,并保存在本地
使用Scrapy爬取图片入库,并保存在本地 上 篇博客已经简单的介绍了爬取数据流程,现在让我们继续学习scrapy 目标: 爬取爱卡汽车标题,价格以及图片存入数据库,并存图到本地 好了不多说,让我们实 ...
- python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地 爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...
- Jsoup爬取带登录验证码的网站
今天学完爬虫之后想的爬一下我们学校的教务系统,可是发现登录的时候有验证码.因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化,所以我们每个页面都需要重 ...
- [python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
- 孤荷凌寒自学python第八十二天学习爬取图片2
孤荷凌寒自学python第八十二天学习爬取图片2 (完整学习过程屏幕记录视频地址在文末) 今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中. 一.我准备爬取一个有文 ...
随机推荐
- Linux : screen 工具详解
转自:http://www.cnblogs.com/mchina/archive/2013/01/30/2880680.html [ Screen 官方站点 ] 背景 系统管理员经常需要SSH 或者t ...
- AutoMapper 使用总结
初识AutoMapper 在开始本篇文章之前,先来思考一个问题:一个项目分多层架构,如显示层.业务逻辑层.服务层.数据访问层.层与层访问需要数据载体,也就是类.如果多层通用一个类,一则会暴露出每层的字 ...
- Java编程思想读书笔记(一)【对象导论】
2018年1月7日15:45:58 前言 作为学习Java语言的经典之作<Java编程思想>,常常被人提起.虽然这本书出版十年有余,但是内容还是很给力的.很多人说这本书不是很适合初学者,我 ...
- 【转】sublime text 3 显示空格和Tab
因为sublime text3确实太好用了所以也用它写代码了,可是在Python3第一步把preferences.sublime-setting-Default里面的"draw_white_ ...
- 数据对象转json与md5加密注意事项
项目中遇到将OC数据对象类型转化字符类型,然后进行MD5加密的技术流程,在转化字符数组到字符加密过程中遇到一些问题. 问题 转化后的字符进行md5加密,出现与服务器加密结果不匹配的情况 分析 在对代码 ...
- 阿里mysql同步工具otter的docker镜像
https://github.com/dearplain/otter_manager https://github.com/dearplain/otter_node 本人开发的小巧docker镜像,根 ...
- 【二分图】洛谷P1640连续攻击游戏
题目描述 lxhgww最近迷上了一款游戏,在游戏里,他拥有很多的装备,每种装备都有2个属性,这些属性的值用[1,10000]之间的数表示.当他使用某种装备时,他只能使用该装备的某一个属性.并且每种装备 ...
- 云服务器 远程mysql 无法连接
问题:mysql不管是用免安装版的,还是用直接安装的,还是用phpStudy直接发布的mysql服务.都只能用localhost登录,不能用服务器的ip进行远程访问 遇到这个问题.按照网上大家介绍的方 ...
- 微信小程序之获取验证码js
在微信小程序中怎样实现获取验证码的倒计时功能捏,倒计时的原理是一样一样的,就是某些地方需要注意. 第一步:结构 <view class='get-code' wx:if="{{!isS ...
- takes 3 positional arguments but 4 were given错误
之前写程序经常会碰到此类问题,确认发现并没有少参数.后来恍然大悟:函数为类下函数,定义时需要添加self参数. 但是!但是!为何Python给self赋值而你不必给self赋值? 创建了一个类MyCl ...