目的:

通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village)

主网站链接:

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html

主要jar包:

http://jsoup.org/packages/jsoup-1.8.1.jar

之前一节我们说过java爬虫从网络上利用jsoup获取网页文本,也就是说我们可以有三种方法获取html,一是根据url链接,而是从本地路径获取,三是通过字符串解析成html文档

在这里,我们利用前两种搭配使用:

先看本地是否存在需要的网页,如果不存在就通过url获取并保存在本地(下次就可以不需要重新从网络加载)

我们先建一个类叫做Html类,具体内容如下:

package Product;
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.ArrayList;
import java.util.Arrays; import org.jsoup.*;
import org.jsoup.nodes.*;
import org.jsoup.select.*;
public class Html { //根据url从网络获取网页文本
public Document getHtmlTextByUrl(String url)
{
Document doc = null;
try {
//doc = Jsoup.connect(url).timeout(5000000).get();
int i = (int) (Math.random()*1000); //做一个随机延时,防止网站屏蔽
while(i!=0) 
{ i--; }
doc= Jsoup.connect(url).data("query", "Java")
.userAgent("Mozilla") .cookie("auth", "token")
.timeout(300000) .post();
} catch (IOException e)
{ e.printStackTrace();
try {
doc = Jsoup.connect(url).timeout(5000000).get();
}
catch (IOException e1)
{ // TODO Auto-generated catch block e1.printStackTrace(); } } return doc;
} //根据本地路径获取网页文本,如果不存在就通过url从网络获取并保存 public Document getHtmlTextByPath(String name,String url)
{
String path = "D:/Html/" +name+".html";
Document doc = null ;
File input = new File(path);
String urlcat = url;
try {
doc = Jsoup.parse(input, "GBK");
if(!doc.children().isEmpty())
{
doc=null; System.out.println("已经存在"); }
}
catch (IOException e)
{
System.out.println("文件未找到,正在从网络获取.......");
doc = this.getHtmlTextByUrl(url);
//并且保存到本地
this.Save_Html(url, name); } return doc; } //此处为保存网页的函数
//将网页保存在本地(通过url,和保存的名字)
public void Save_Html(String url,String name) {
try {
name = name+".html";
// System.out.print(name);
File dest = new File("D:/Html/" +name);//D:\Html
//接收字节输入流
InputStream is;
//字节输出流
FileOutputStream fos = new FileOutputStream(dest); URL temp = new URL(url);
is = temp.openStream(); //为字节输入流加缓冲
BufferedInputStream bis = new BufferedInputStream(is);
//为字节输出流加缓冲
BufferedOutputStream bos = new BufferedOutputStream(fos); int length; byte[] bytes = new byte[1024*20];
while((length = bis.read(bytes, 0, bytes.length)) != -1){
fos.write(bytes, 0, length);
} bos.close();
fos.close();
bis.close();
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}


这样通过Html这个类,调用getHtmlTextByPath函数,传入我们的链接和想要保存的名称,接下就可以对这个网页文本提取信息

并将整个网页下载到我们的本地。

看到我们的网站是这样的:

利用谷歌浏览右键检查元素,我们注意观察黄色标记的部分:

     

我们发现这些文本信息和超链接信息在tr 下的td下的a标签内,利用我们的jsoup可以直接获取到这些信息,详情请看:

//根据元素属性获取某个元素内的elements列表
public Elements getEleByClass(Document doc,String className)
{
Elements elements= null;
elements = doc.select(className);//这里把我们获取到的html文本doc,和工具class名,注意<tr class="provincetr">
return elements; //此处返回的就是所有的tr集合
}

我们在调用的时候,就直接把我们获取的html文本,以及"tr.provincertr"作为参数传入,在来解析tr集合内部的信息,

也就是td中两个a标签href和文本内容:比如href="12.html"  北京

代码如下:

//获取省 、市 、县等的信息
public ArrayList getProvince(String name,String url ,String type)
{ ArrayList result= new ArrayList();
//"tr.provincetr"
String classtype = "tr."+type+"tr";
//从网络上获取网页
// Document doc = this.getHtmlTextByUrl(url);
//从本地获取网页,如果没有则从网络获取
Document doc2 = this.getHtmlTextByPath(name,url);
System.out.println(name);
if(doc2!=null){
Elements es =this.getEleByClass(doc2,classtype); //tr的集合
for(Element e : es) //依次循环每个元素,也就是一个tr
{
if(e!=null){
for(Element ec : e.children()) //一个tr的子元素td,td内包含a标签
{
String[] prv = new String[4]; //身份的信息: 原来的url(当前url) 名称(北京) 现在url(也就是北京的url) 类型(prv)省
if(ec.children().first()!=null)
{
//原来的url
prv[0]=url; //就是参数url
//身份名称
System.out.println(ec.children().first().ownText());
prv[1]=ec.children().first().ownText(); //a标签文本 如:北京
//身份url地址
//System.out.println(ec.children().first().attr("href"));
//http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html
String ownurl=ec.children().first().attr("abs:href"); //北京的url
//因为如果从本地取得话,会成为本地url,所以保留第一次从网络上的url,保证url不为空
if(ownurl.length()<10)
{ connectOrcl c = new connectOrcl();
ownurl = c.selectOne(prv[1]); //从数据库中取,这是另一个调用数据库函数,根据名称取url
}
prv[2]=ownurl; //如:北京自己的url
System.out.println(prv[2]);
//级别
prv[3]=type; //就是刚刚传的类型,后面会有city 、county等
//将所有身份加入list中
result.add(prv);}
}}
}
}
return result; //反回所有的省份信息集合,存数据库,字段类型为: baseurl name ownurl levelname(type) updatetime
}

java获取本机的名称和ip

//获取本机名称和IP
public static void main(String[] args) {
InetAddress ia=null;
try {
ia = ia.getLocalHost();
String localname=ia.getHostName();
String localip=ia.getHostAddress();
System.out.println("本机名称是:"+ localname);
System.out.println("本机的ip是 :"+localip);
} catch (UnknownHostException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

java获取本机的屏幕分辨率,DPI,以及屏幕尺寸

屏幕分辨率:比如1366*768

DPI:意思是说一英寸多少个象素

屏幕的物理尺寸:屏幕的物理大小还需要知道屏幕的dpi ,然后用象素除以dpi 就可以得到多少英寸了

//获取电脑屏幕信息
public static void getScreen()
{
Dimension screensize = Toolkit.getDefaultToolkit().getScreenSize();
int width = (int)screensize.getWidth();
int height = (int)screensize.getHeight();
System.out.println("宽的像素:"+width+"高的像素:"+height);
//获取屏幕的dpi
int dpi = Toolkit.getDefaultToolkit().getScreenResolution();
System.out.println(dpi);
//根据dpi和像素,可以计算物理尺寸
System.out.println("宽:"+width/dpi+"高:"+height/dpi);
}

 

Java爬虫项目实战(一)的更多相关文章

  1. 推荐几个优秀的java爬虫项目

    java爬虫项目   大型的: Nutch apache/nutch · GitHub 适合做搜索引擎,分布式爬虫是其中一个功能. Heritrix internetarchive/heritrix3 ...

  2. Java高级项目实战03:CRM系统数据库设计

    接上一篇:Java高级项目实战02:客户关系管理系统CRM系统模块分析与介绍 欢迎点击回顾,接下来我们说说 CRM系统数据库设计. 我们根据产品的原型搞以及UI组的设计稿, 接下来就要设计数据库, 一 ...

  3. Java高级项目实战02:客户关系管理系统CRM系统模块分析与介绍

    本文承接上一篇:Java高级项目实战之CRM系统01:CRM系统概念和分类.企业项目开发流程 先来CRM系统结构图: 每个模块作用介绍如下: 1.营销管理 营销机会管理:针对企业中客户的质询需求所建立 ...

  4. 简易的java爬虫项目

    简易的java爬虫项目 本项目仅供java新手学习交流,由于本人也是一名java初学者,所以项目中也有很多不规范的地方,希望各位高手不吝赐教,在评论区指出我的不足,我会虚心学习: 成果预览: 在开始讲 ...

  5. Java Web项目实战第1篇之环境搭建

    写在前面的话 从今天开始一个Java Web实战项目,参考自 http://blog.csdn.net/eson_15/article/details/51277324 这个博客(非常感谢博主的分享精 ...

  6. Go语言之高级篇Beego框架之爬虫项目实战

    一.爬虫项目 1.爬虫基础 a.网页上面会有相同的数据 b.去重处理 布隆过滤器哈希存储 c.标签匹配: 正则表达式beautiful soup或lxml这种标签提取库 d.动态内容 phantomj ...

  7. JAVA Drp项目实战—— Unable to compile class for JSP 一波三折

    交代下背景.电脑系统是64位的,用的是64位的Tomcat.安装是32位的Myeclipse10,java环境也是32位的.Tomcat在開始启动时会报这样一个错误,"Can't load ...

  8. Java Drp项目实战—— 环境搭建

    概要 我们要開始一个关于Java项目的开发,那么我们就须要搭建一个关于Java开发的环境,那么搭建一个Java开发环境,都须要些什么东东,又有些什么注意事项呢. 过程 我先将我搭建Java环境的软件和 ...

  9. Java Drp项目实战——Web应用server

    引言 Web应用server如今非常多人都在用,但是究竟什么是Web应用server呢,它与Webserver有什么关系,它与应用server又是什么关系,它是他们两种中的当中一种,还是简单的两种se ...

随机推荐

  1. 8.19 extjs jar 包使用。

    一.文件结构在ExtJS官网下载好4.0的开发包解压后,我们得到如图的文件结构 文件/文件夹名作用builds  压缩后的ExtJS代码,体积更小,更快docs  开发文档examples  官方演示 ...

  2. springmvc 整合shiro

    1.引用maven <dependency> <groupId>org.apache.shiro</groupId> <artifactId>shiro ...

  3. 使用delphi 开发多层应用(二十四)KbmMW 的消息方式和创建WIB节点

    KbmMW 中支持基于UDP的消息广播,也支持TCP/IP hub/spoke 方式,还有 基于UDP或者TCP/IP 的点对点的消息传输. 1.基于UDP的消息广播

  4. 2018.07.18 [NOI2018]归程(return)(kruskal重构树)

    传送门 新鲜出炉的noi2018试题. 下面讲讲这题的解法: 首先要学习一个叫做kruskal重构树的东东. 听名字就知道跟kruskal算法有关,没错,原来的kruskal算法就是用并查集实现的,但 ...

  5. HDU 5957 Query on a graph (拓扑 + bfs序 + 树剖 + 线段树)

    题意:一个图有n个点,n条边,定义D(u,v)为u到v的距离,S(u,k)为所有D(u,v)<=k的节点v的集合 有m次询问(0<=k<=2): 1 u k d:将集合S(u,k)的 ...

  6. Codeforces777A Shell Game 2017-05-04 17:11 59人阅读 评论(0) 收藏

    A. Shell Game time limit per test 0.5 seconds memory limit per test 256 megabytes input standard inp ...

  7. hdu 1058

    这道题有很多种做法,但是思路大都是一样的,代码有点类似于poj2591这道题. 题意:问因子只含有2,3,5,7的第k个数是什么? #include<stdio.h> int f[5843 ...

  8. 分离 桂林电子科技大学第三届ACM程序设计竞赛

    链接:https://ac.nowcoder.com/acm/contest/558/H 来源:牛客网 时间限制:C/C++ 1秒,其他语言2秒 空间限制:C/C++ 262144K,其他语言5242 ...

  9. [LeetCode 题解] Search in Rotated Sorted Array

    前言 [LeetCode 题解]系列传送门: http://www.cnblogs.com/double-win/category/573499.html 题目描述 Suppose an array ...

  10. 拒绝“高冷”词汇!初学C#中的委托

    有一天,你写了好多好多带“形参”的构造函数(就是“方法”,同义),而且需要向这些构造函数里传递同样的“实参”,然后你就憨憨地一个一个函数的调用并赋予同样的“实参”,这一天就这么过去了... 又过了几天 ...