Java爬取百度图片Google图片Bing图片

先看看抓取的结果。

8个Java类：

Startup.java - main函数
ImageCrawler.java - Crawler基类
BaiduImageCrawler.java - 百度图片的具体爬取实现
GoogleImageCrawler.java - Google图片的具体爬取实现
BingImageCrawler.java - Bing图片的具体爬取实现
ImageWorker.java - 定时从Queue中取图片URL下载（默认开启100个）
ImageDownloader.java - 图片下载
MD5Checksum.java - 文件MD5计算（文件去重）

public class BaiduImageCrawler extends ImageCrawler {
//tn:resultjsonavatarnew
//ie:utf-8 字符编码（ie输入 oe输出）
//word:美女搜索关键字
//pn:60 开始条数
//rn:30 显示数量
//z:0 尺寸（0全部尺寸 9特大 3大 2中 1小）
//width:1024 自定义尺寸-宽
//height:768 自定义尺寸-高
//ic:0 颜色(0全部颜色 1红色 2黄色 4绿色 8青色 16蓝色 32紫色 64粉色 128棕色 256橙色 512黑色 1024白色 2048黑白)
//s:0 3头像图片
//face:0 1面部特写
//st:-1 -1全部类型 1卡通画 2简笔画
//lm:-1 (6动态图片 7静态图片)
//gsm:3c pn值的十六进制数
private static final String BAIDU_IMAGE_SEARCH_URL = "http://image.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word=%s&pn=%d&rn=%d&z=3&ic=0&s=0&face=0&st=-1&lm=-1&gsm=%s";
private static final int PAGE_SIZE = 60;
private static final String IMAGE_URL_REG = "\"objURL\":\"(https?://[^\"]+)\"";
private static final Pattern IMAGE_PATTERN = Pattern.compile(IMAGE_URL_REG);
@Override
public String getSearchUrl(String keyword, int page) {
int begin = page * PAGE_SIZE;
return String.format(BAIDU_IMAGE_SEARCH_URL, keyword, begin, PAGE_SIZE, Integer.toHexString(begin));
}
@Override
public int parseImageUrl(ConcurrentLinkedQueue<String> queue, StringBuffer data) {
int count = 0;
Matcher matcher = IMAGE_PATTERN.matcher(data);
while (matcher.find()) {
queue.offer(matcher.group(1));
count++;
}
return count;
}
}

public class GoogleImageCrawler extends ImageCrawler {
//tbm=isch
//q=美女搜索关键字
//ijn=0 页码(***Google只提供到0到8页数据！)
//start=0 开始条数
//tbs=isz:l 搜索条件
// 尺寸
// tbs=isz:l 大
// tbs=isz:m 中
// 颜色
// tbs=ic:color 彩色
// tbs=ic:gray 黑白
// tbs=ic:trans 透明
// 类型
// tbs=itp:face 脸部特写
// tbs=itp:photo 照片
// tbs=itp:clipart 剪贴画
// tbs=itp:lineart 素描画
// tbs=itp:animated 动画
// 条件组合
// tbs=isz:l,ic:color,itp:face
private static final String GOOGLE_IMAGE_SEARCH_URL = "https://www.google.com/search?tbm=isch&q=%s&ijn=%d&start=%d&tbs=isz:l";
private static final int PAGE_SIZE = 100;
private static final String IMAGE_URL_REG = "\"ou\":\"(https?://[^\"]+)\"";
private static final Pattern IMAGE_PATTERN = Pattern.compile(IMAGE_URL_REG);
@Override
public String getSearchUrl(String keyword, int page) {
int begin = page * PAGE_SIZE;
return String.format(GOOGLE_IMAGE_SEARCH_URL, keyword, page, begin);
}
@Override
public int parseImageUrl(ConcurrentLinkedQueue<String> queue, StringBuffer data) {
int count = 0;
Matcher matcher = IMAGE_PATTERN.matcher(data);
while (matcher.find()) {
queue.offer(matcher.group(1));
count++;
}
return count;
}
}

public class BingImageCrawler extends ImageCrawler {
//async=content
//q=美女搜索关键字
//first=118 开始条数
//count=35 显示数量
private static final String BING_IMAGE_SEARCH_URL = "http://www.bing.com/images/async?async=content&q=%s&first=%d&count=%d";
private static final int PAGE_SIZE = 35;
private static final String IMAGE_URL_REG = "imgurl:"(https?://[^,]+)"";
private static final Pattern IMAGE_PATTERN = Pattern.compile(IMAGE_URL_REG);
@Override
public String getSearchUrl(String keyword, int page) {
int begin = page * PAGE_SIZE;
return String.format(BING_IMAGE_SEARCH_URL, keyword, begin, PAGE_SIZE);
}
@Override
public int parseImageUrl(ConcurrentLinkedQueue<String> queue, StringBuffer data) {
int count = 0;
Matcher matcher = IMAGE_PATTERN.matcher(data);
while (matcher.find()) {
queue.offer(matcher.group(1));
count++;
}
return count;
}
}

Java爬取百度图片Google图片Bing图片的更多相关文章

JAVA爬取百度贴吧图片
package com.wang.xiaowei.utils; import com.sun.image.codec.jpeg.JPEGCodec; import com.sun.image.code ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
java爬取百度首页源代码
爬虫感觉挺有意思的,写一个最简单的抓取百度首页html代码的程序.虽然简单了一点,后期会加深的. package test; import java.io.BufferedReader; import ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
Python 爬虫实例（1）—— 爬取百度图片
爬取百度图片在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...
Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
selenium+chrome浏览器驱动-爬取百度图片
百度图片网页中中,当页面滚动到底部,页面会加载新的内容. 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片. from selenium im ...

随机推荐

【CF 678F】Lena and Queries
Time Limit: 2000 ms Memory Limit: 512 MB Description 初始有一个空集合 n个操作有三种操作,如下: 1 a b 表示向集合中插入二元组(a,b ...
elasticsearch-5.1.1使用snapshot接口备份索引
如果ES是集群,那么需要使用共享存储,支持的存储有:a.shared file systemb.S3c.HDFS 我使用的是第一种,NFS共享文件系统.这里要说一下权限问题,ES一般是使用 elast ...
JavaScript设计模式之策略模式
所谓"条条道路通罗马",在现实中,为达到某种目的往往不是只有一种方法.比如挣钱养家:可以做点小生意,可以打分工,甚至还可以是偷.抢.赌等等各种手段.在程序语言设计中,也会遇到这种类 ...
Linux基础六
用户账号管理基于账号身份对资源访问进行控制账户类别:用户账号,组账号识别方式:UID,GID 用户账号:超级用户root,系统用户,普通用户组账号:用来区分权限,不用于登陆基本组(私有组) ...
R+先知︱Facebook大规模时序预测『真』神器——Prophet（遍地代码图）
经统专业看到预测的packages都是很眼馋的.除了之前的forecast包,现在这个prophet功能也很强大.本packages是由机器之心报道之后,抽空在周末试玩几小时.一些基本介绍可见机器之心 ...
FusionCharts MSBar3D图
1.静态页面 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> ...
zTree实现地市县三级级联封装类
zTree实现地市县三级级联封装类 Province.java: /** * @Title:Province.java * @Package:com.gwtjs.model * @Descriptio ...
错误代码： 1248 Every derived table must have its own alias
1.错误描述 1 queries executed, 0 success, 1 errors, 0 warnings 查询:SELECT stu_id, (SELECT stu_name FROM t ...
芝麻HTTP：Scrapy-Splash的安装
Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具,本节来介绍它的安装方式. Scrapy-Splash的安装分为两部分.一个是Splash服务的安装,具体是通过Dock ...
Mysql简单笔记
对oracle还是比较熟悉的,对mysql也是零散的有些了解,今天看了下,简单总结: 1.查看mysql版本:mysqladmin --version2.查看mysql进程:ps -ef|grep m ...

Java爬取 百度图片Google图片Bing图片

Java爬取 百度图片Google图片Bing图片的更多相关文章

随机推荐

热门专题

Java爬取百度图片Google图片Bing图片

Java爬取百度图片Google图片Bing图片的更多相关文章