使用Newspaper3k框架快速抓取文章信息

一、框架介绍

Newspaper是一个python3库,但是Newspaper框架并不适用于实际工程类新闻信息爬取工作，框架不稳定，爬取过程中会有各种bug，例如获取不到url、新闻信息等，但对于想获取一些新闻语料的朋友不妨一试，简单方便易上手，且不需要掌握太多关于爬虫方面的专业知识。

这是 Newspaper 的github链接:

https://github.com/codelucas/newspaper

这是 Newspaper文档说明的链接:

https://newspaper.readthedocs.io/en/latest/

这是 Newspaper快速入门的链接:

https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html

安装方法：

pip3 install newspaper3k

二、功能

主要功能如下:

多线程文章下载框架
新闻网址识别
从html中提取文本
从html中提取顶部图像
从html中提取所有图像
从文本中提取关键字
从文本中提取摘要
从文本中提取作者
Google趋势术语提取。
使用10种以上语言（英语，中文，德语，阿拉伯语……）

介绍:

1.建立新闻来源

import newspaper

web_paper = newspaper.build("http://www.sxdi.gov.cn/gzdt/jlsc/", language="zh", memoize_articles=False)

注：文章缓存：默认情况下，newspaper缓存所有以前提取的文章，并删除它已经提取的任何文章。此功能用于防止重复的文章和提高提取速度。可以使用memoize_articles参数选择退出此功能。

2.提取文章的url

for article in web_paper.articles:

    print(article.url)

output:

http://www.sxdi.gov.cn/gzdt/jlsc/2019101220009.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019101119998.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019100919989.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019100819980.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019092919940.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019092919933.html

....

3.提取源类别

for category in web_paper.category_urls():

    print(category)

output:

http://www.sxdi.gov.cn/gzdt/jlsc/....

4.提取源提要

for feed_url in web_paper.feed_urls():

    print(feed_url)

5.提取源品牌和描述

print(web_paper.brand)  # 品牌

print(web_paper.description) # 描述

print("一共获取%s篇文章" % web_paper.size())  # 文章的数目

6.下载文章

from  newspaper import Article

article = Article("http://www.sol.com.cn/", language='zh')  # Chinese

article.download()

7.解析文章并提取想要的信息

article.parse()  #网页解析

print("title=",article.title)    # 获取文章标题

print("author=", article.authors)   # 获取文章作者

print("publish_date=", article.publish_date)   # 获取文章日期

print("top_iamge=",article.top_image)   # 获取文章顶部图片地址

print("movies=",article.movies)   # 获取文章视频链接

print("text=",article.text,"\n")     # 获取文章正文

article.nlp()

print('keywords=',article.keywords)#从文本中提取关键字

print("summary=",article.summary)# 获取文章摘要

print("images=",article.images)#从html中提取所有图像

print("imgs=",article.imgs)

print("html=",article.html)#获取html

简单例子:

import newspaper

from newspaper import Article

def spider_newspaper_url(url):

    """

    默认情况下，newspaper缓存所有以前提取的文章，并删除它已经提取的任何文章。

    使用memoize_articles参数选择退出此功能。

    """

    web_paper = newspaper.build(url, language="zh", memoize_articles=False)

    print("提取新闻页面的url！！！")

    for article in web_paper.articles:

    # 获取新闻网页的url

        print("新闻页面url:", article.url)

# 调用spider_newspaper_information函数获取新闻网页数据

        spider_newspaper_information(article.url)

    print("一共获取%s篇文章" % web_paper.size())  # 文章的数目

# 获取文章的信息

def spider_newspaper_information(url):

    # 建立链接和下载文章

    article = Article(url, language='zh')  # Chinese

    article.download()

    article.parse()

# 获取文章的信息

    print("title=", article.title)  # 获取文章标题

    print("author=", article.authors)  # 获取文章作者

    print("publish_date=", article.publish_date)  # 获取文章日期

    # print("top_iamge=", article.top_image)  # 获取文章顶部图片地址

    # print("movies=", article.movies)  # 获取文章视频链接

    print("text=", article.text, "\n")  # 获取文章正文

    print("summary=", article.summary)  # 获取文章摘要

if __name__ == "__main__":

    web_lists = ["http://www.sxdi.gov.cn/gzdt/jlsc/","http://www.people.com.cn/GB/59476/"]

    for web_list in web_lists:

        spider_newspaper_url(web_list)

使用Newspaper3k框架快速抓取文章信息的更多相关文章

PHP快速抓取快递信息
<?php header("Content-type:text/html;charset=utf-8"); /** * Express.class.php 快递查询类 * @ ...
.net抓取网页信息 - Jumony框架使用1
往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...
Jumony快速抓取网页
Jumony快速抓取网页 --- Jumony使用笔记--icode 作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.c ...
[原创]adb使用教程v1.0-----by-----使用logcat快速抓取android崩溃日志
原文再续,书接上回:<使用logcat快速抓取android崩溃日志>中提到的工具包可以下载拉~ <使用logcat快速抓取android崩溃日志>:http://www.cn ...
[原创]adb使用教程v1.1.0-----by-----使用logcat快速抓取android崩溃日志
原文再续,书接上回:<使用logcat快速抓取android崩溃日志>中提到的工具包可以下载拉~ <使用logcat快速抓取android崩溃日志>:http://www.cn ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16
这是简易数据分析系列的第 16 篇文章. 这期课程我们讲一个用的较少的 Web Scraper 功能--抓取属性信息. 网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息.我们拿豆瓣电影 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...

随机推荐

2015 JSOI冬令营训练彩色格子题解
解析棋盘上黑白格染色.曼哈顿距离偶数:奇偶性相同. 枚举有几种颜色分到白格,组合数计算即可. 注意预处理,时间还是比较宽裕的. 为了不重复计数,考虑枚举严格用了i种颜色,我们再枚举分配j种给白集合. ...
math库的使用
math库简介 math库是Python提供的内置数学内函数库,因为复数类型常用于科学计算,一般计算并不常用,因此math库不支持复数类型,仅支持整数和浮点数运算,math库一共提供4个数学常数和44 ...
Cycone IV的DDR2硬件设计前验证
打算使用Cyclone IV的FPGA挂DDR2,按照流程,先使用Quartus跑IP,跑引脚分配,综合OK了再设计硬件,这部分主要是DM和DQS信号比较头疼,研究了好久才找到方法. 在Intel官网 ...
Python中使用高德API实现经纬度转地名
场景高德API提供给开发者们一些常用功能的接口,其中有一种叫地理/逆地理编码能实现地名查询经纬度和经纬度查地名. 实现高德API平台: https://lbs.amap.com/ 注册并登陆找 ...
4.1、顺序栈的实现（java实现）
1.实现源码 public class SeqStack { private final int MaxSize = 8; private int top; //栈顶 private Object s ...
用button 属性来保存字符串地址
我用到for循环创建button 通过点击不同的按钮拿到每个button对应的链接地址,因为button的个数也是通过后台数据返回.上代码: //保存到数组 _array = [Article mj ...
python+selenium六：隐式等待
python+selenium六:隐式等待 # 隐式等待 # 全局生效,只写一次即可(仅当前页面)# 若有页面切换,需sleep等待新页面出现后,再使用此方法 # 如:在35秒内,等待操作完成,完 ...
HTML-css样式引用方式
1.使用行内样式表语法:在标签内部写入一个style属性. 优点:没有样式表文件,在某些时候可以提高效率: 优先级高. 缺点:多个页面难以共享样式,不利于代码复用: HTML和CSS代码混杂,不利于 ...
php tp5 composer
## php tp5 composer安装tp5.1需要先去装个Apache或者Nginx,再装个php环境.一般Windows可以直接使用xmapp.然后tp5好像python的django啊... ...
[Leetcode][动态规划] 第935题骑士拨号器
一.题目描述国际象棋中的骑士可以按下图所示进行移动: 我们将 “骑士” 放在电话拨号盘的任意数字键(如上图所示)上,接下来,骑士将会跳 N-1 步 ...

使用Newspaper3k框架快速抓取文章信息

一、框架介绍

https://github.com/codelucas/newspaper

安装方法：

二、功能

多线程文章下载框架

新闻网址识别

从html中提取文本

从html中提取顶部图像

从html中提取所有图像

从文本中提取关键字

从文本中提取摘要

从文本中提取作者

Google趋势术语提取。

使用10种以上语言（英语，中文，德语，阿拉伯语……）