Java使用Jsoup获得新闻联播所有文字稿

Jsoup的maven坐标：

		<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->

		<dependency>

		    <groupId>org.jsoup</groupId>

		    <artifactId>jsoup</artifactId>

		    <version>1.11.3</version>

		</dependency>

Java代码：

package com.zifeiy.test;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStreamWriter;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class XinwenGetter {

	private static List<String> urlList = new ArrayList<String>();

	private static OutputStreamWriter out;

	private static void getUrlList() throws IOException {

		for (int i = 1; i <= 44; i ++) {

			String url = null;

			if (i == 0) {

				url = "http://www.xwlbo.com/txt.html";

			} else {

				url = "http://www.xwlbo.com/txt_" + i + ".html";

			}

			Document doc = Jsoup.connect(url).get();

			Elements xwlistElements = doc.getElementsByClass("xwlist");

			Elements aElements = xwlistElements.get(0).select("a");

			for (Element element : aElements) {

				String resUrl = element.attr("href");

				urlList.add(resUrl);

			}

		}

	}

	private static void solve(String url) throws IOException {

		Document doc = Jsoup.connect(url).get();

		System.out.println("handling " + doc.title() + " ...");

		out.write("<h3>" + doc.title() + "</h3>\r\n");

		Elements textElements = doc.getElementsByClass("text_content");

		Elements pElements = textElements.get(0).select("p");

		for (Element pElement : pElements) {

//			System.out.println(pElement);

			out.write(pElement.toString() + "\r\n");

		}

		out.write("<hr>\r\n");

	}

	public static void main(String[] args) throws IOException {

		getUrlList();

		File file = new File("D:/新闻联播大全.html");

		if (file.exists() == true) file.delete();

		out = new OutputStreamWriter(new FileOutputStream(file, true), "UTF-8");

		for (String url: urlList) {

			solve(url);

		}

        out.close();

	}

}

Java使用Jsoup获得新闻联播所有文字稿的更多相关文章

CSDN Androidclient开展(两):基于如何详细解释Java使用Jsoup爬行动物HTML数据
文章引用鸿扬大大的链接具体介绍怎样使用Jsoup包抓取HTML数据,是一个纯javaproject,并将其打包成jar包.希望了解怎样用java语言爬虫网页的能够看下. 杂家前文就又介绍用HTTP訪问 ...
java爬虫--jsoup简单的表单抓取案例
分析需求: 某农产品网站的农产品价格抓取网站链接:点击打开链接页面展示如上: 标签展示如上: 分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据. ...
java 利用jsoup 爬取知乎首页问题
今天学了下java的爬虫,首先要下载jsoup的包,然后导入,导入过程:首先右击工程:Build Path ->configure Build Path,再点击Add External JARS ...
Java错误：结束的字符文字
编译器为NetBeans 在学习java的时候突然出现了以下错误错误代码是: Gen <Integer ,String> a = new Gen <Integer, String& ...
【图片识别】Java中使用tess4J进行图片文字识别（支持中文）（转）
http://blog.csdn.net/wsk1103/article/details/54173282 java中识别文字比较简单,使用的软件是tesseractocr(使用的版本是3.02,3以 ...
Java使用Jsoup之爬取博客数据应用实例
导入Maven依赖  <dependency> <g ...
（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息
Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...
Java使用Jsoup简单解析页面
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内容.它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出 ...

随机推荐

Flume拦截器、监控器
一.拦截器 1.拦截器:拦截器主要作用在source和channel之间,用于给event设置header消息头,如果没有设置拦截器,则event中只有message. 常见的拦截器有: Timest ...
SIGAI机器学习第十八集线性模型2
之前讲过SVM,是通过最大化间隔导出的一套方法,现在从另外一个角度来定义SVM,来介绍整个线性SVM的家族. 大纲: 线性支持向量机简介L2正则化L1-loss SVC原问题L2正则化L2-loss ...
Acwing P283 多边形题解
Analysis 总体来说是一个区间DP 此题首先是一个环,要你进行删边操作,剩下的在经过运算得到一个最大值注意事项: 1.删去一条边,剩下的构成一条线,相当于求此的最大值,经典区间DP该有的样子: ...
PostgreSQL 恢复大法 - 恢复部分数据库、跳过坏块、修复无法启动的数据库
转载自:https://yq.aliyun.com/articles/582880 背景一个较大的数据库,如何只恢复一部分数据(例如只恢复某个DB). 如果访问有坏块的表. 如何从无法启动的数据库中 ...
segfault at 0 ip sp error 14
error 14从未见过.谁能帮我解答什么情况才会出现这个,而且怎么定位崩溃函数地址? 备忘: segfault at 引起故障的地址ip 指令的内存地址sp 堆栈指针地址, 及栈顶指针err is ...
模板 - 数学 - 数论 - Miller-Rabin算法
使用Fermat小定理(Fermat's little theorem)的原理进行测试,不满足 \(2^{n-1}\;\mod\;n\;=\;1\) 的n一定不是质数:如果满足的话则多半是质数,满足上 ...
Bootstrap selectpicker 下拉框多选获取选中value和多选获取文本值
1.页面代码: 页面引入: bootstrap-select.min.css和 bootstrap-select.min.js. defaults-zh_CN.min.js文件,并初始化下拉选项框. ...
Java8 拼接字符串 StringJoiner
StringJoiner1.简单的字符串拼接输出:HelloWorld 注:当我们使用StringJoiner(CharSequence delimiter)初始化一个StringJoiner的时候 ...
Preventing CSRF With Ajax
https://stackoverflow.com/a/24394578/3782855 You don't need the ValidationHttpRequestWrapper solutio ...
BeanDefinitionParserDelegate与资源解析
继续上一次的分析 XmlBeanDefinitionReader.java 中 1.registerBeanDefinitions方法 documentReader.registerBeanDefin ...

Java使用Jsoup获得新闻联播所有文字稿

Java使用Jsoup获得新闻联播所有文字稿的更多相关文章

随机推荐

热门专题