新闻类爬虫库：Newspaper

newspaper库是一个主要用来提取新闻内容及分析的Python爬虫框架。此库适合抓取新闻网页。操作简单易学，即使对完全没了解过爬虫的初学者也非常的友好，简单学习就能轻易上手，除此之外，使用过程你不需要考虑HTTP Header、IP代理，也不需要考虑网页解析，网页源代码架构等问题。

我们以https://www.wired.com/为例，进行演示。

获取新闻

import newspaper

from newspaper import Article

from newspaper import fulltext

url = 'https://www.wired.com/'

paper = newspaper.build(url, language="en", memoize_articles=False)

输出新闻对象

<newspaper.source.Source object at 0x7fe82c98c1d0>

默认情况下，newspaper 缓存所有以前提取的文章，并删除它已经提取的任何文章，使用 memoize_articles 参数选择退出此功能。

提取新闻URL

提取站点页面的新闻URL

import newspaper

from newspaper import Article

from newspaper import fulltext

url = 'https://www.wired.com/'

paper = newspaper.build(url, language="en", memoize_articles=False)

for article in paper.articles:

    print(article.url)

输出内容

提取新闻分类

支持提取站点下的新闻分类

for category in paper.category_urls():

    print(category)

提取新闻内容：Article

文章对象是新闻文章的抽象。例如，新闻Source将是Wired，而新闻Article是其站点下的Wired文章，这样就可以提取出新闻的标题、作者、插图、内容等。

article = Article('https://www.wired.com/story/preterm-babies-lonely-terror-of-a-pandemic-nicu/')

article.download()

article.parse()

print("title=", article.title)

print("author=", article.authors)

print("publish_date=", article.publish_date)

print("top_iamge=", article.top_image)

print("movies=", article.movies)

print("text=", article.text)

print("summary=", article.summary)

下载解析

我们选取其中一篇文章为例，如下所示：

first_url = paper.articles[0]

first_url.download()

first_url.parse()

print(first_url.title)

print(first_url.publish_date)

print(first_url.authors)

print(first_url.top_image)

print(first_url.summary)

print(first_url.movies)

print(first_url.text)

解析html

通过 requests 库获取文章 html 信息，用 newspaper 进行解析，如下所示：

html = requests.get('https://www.wired.com/story/preterm-babies-lonely-terror-of-a-pandemic-nicu/').text

print('获取的原信息-->', html)

text = fulltext(html, language='en')

print('解析后的信息', text)

结合nlp

通过使用nlp方法，可以从文本中提取自然语言属性。

first_article = paper.articles[1]

first_article.download()

first_article.parse()

first_article.nlp()

print(first_article.summary)

print(first_article.keywords)

多任务

当我们需要从多个渠道获取新闻信息时可以采用多任务的方式，如下所示：

import newspaper

from newspaper import news_pool

lr_paper = newspaper.build('https://lifehacker.com/', language="en")

wd_paper = newspaper.build('https://www.wired.com/', language="en")

ct_paper = newspaper.build('https://www.cnet.com/news/', language="en")

papers = [lr_paper, wd_paper, ct_paper]

# 线程数为 3 * 2 = 6

news_pool.set(papers, threads_per_source=2)

news_pool.join()

print(lr_paper.articles[0].html)

其他

hot()返回Google上最热门的术语列表。

popular_urls()返回热门新闻来源网址的列表。

newspaper.hot()

newspaper.popular_urls()

新闻类爬虫库：Newspaper的更多相关文章

基于php编写的新闻类爬虫，插入WordPress数据库
这个爬虫写的比较久远,很久没有更新博客了. 1.首先思路是:通过php的curl_setopt()函数可以方便快捷的抓取网页. 2.什么样的新闻吸引人呢,当然的热点新闻了.这里选百度的搜索风云榜,获取 ...
GNE: 4行代码实现新闻类网站通用爬虫
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容.标题.作者.发布时间.正文中的图片地址和正文所在的标签源代码.GNE在提 ...
强大的金融类图表库 TradingView 使用分享
这段时间刚好做币圈交易所,运用到了现在最火的金融类图表库 -- TradingView ,就是强大,基本上现在的火币网(https://www.huobi.com),币安网(https://www.b ...
13.CrawlSpider类爬虫
1.CrawlSpider介绍 Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spider类的设 ...
music-api-next：一款支持网易、xiami和QQ音乐的JS爬虫库
音乐,无界让音乐无界如果你苦于挑选一个全方位.多平台.简便易用的音乐爬虫库,music-api-next是不二选择. 特性: 支持网易.虾米和QQ三大主流音乐平台支持音乐关键词搜索支持音乐链接 ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...
爬虫笔记之刷小怪练级：yymp3爬虫（音乐类爬虫）
一.目标爬取http://www.yymp3.com网站歌曲相关信息,包括歌曲名字.作者相关信息.歌曲的音频数据.歌曲的歌词数据. 二.分析 2.1 歌曲信息.歌曲音频数据下载地址的获取随便打开一 ...
Python3 常用爬虫库的安装
Python3 常用爬虫库的安装 1 简介 Windows下安装Python3常用的爬虫库:requests.selenium.beautifulsoup4.pyquery.pymysql.pymon ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...

随机推荐

图像分割论文 | DRN膨胀残差网络 | CVPR2017
文章转自:同作者个人微信公众号[机器学习炼丹术].欢迎交流沟通,共同进步,作者微信:cyx645016617 论文名称:'Dilated Residual Networks' 论文链接:https:/ ...
SQL -去重Group by 和Distinct的效率
经实际测试,同等条件下,5千万条数据,Distinct比Group by效率高,但是,这是有条件的,这五千万条数据中不重复的仅仅有三十多万条,这意味着,五千万条中基本都是重复数据. 为了验证,重复数据 ...
Java 给Word不同页面设置不同背景
Word文档中,可直接通过[设计]-[页面颜色]页面颜色,通过Java代码可参考如下设置方法: 1. 设置单一颜色背景 doc.getBackground().setType(BackgroundTy ...
DDD的实体、值对象、聚合根的基类和接口：设计与实现
1 前置阅读在阅读本文章之前,你可以先阅读: 什么是DDD 2 实现值对象值对象有两个主要特征:它们没有任何标识.它们是不可变的. 我们举个例子:小明是"浙江宁波"人,小红也是 ...
让绝对定位的div居中
最近看到一个问题就是让绝对定位的div居中,在尝试了top:50%:left:50%:后发现,居中是有问题的并不是想象中的样子需要再加两句margin-top:-盒子高度的一般px margin- ...
jdk安装逻辑学习笔记
一.三个重要变量很多软件需要用到jdk,安装的时候主要用到三个变量,那这三个变量的代表逻辑又是什么呢? 1.JAVA_HOME(JDK的安装目录)这个变量值选择的是jdk的安装目录 2.classp ...
CSS补充2
浮动是css里面布局最多的一个属性效果:两个元素并排了,并且两个元素都能够设置宽度和高度四个特性: 1.浮动的元素脱标 2.浮动的元素互相贴靠 3.浮动的元素有"字围"效果 4. ...
springboot项目-声明式事务失效
1.项目背景集成了shiro配置 2. 项目分析由于ShiroFilterFactoryBean实现了FactoryBean接口,所以它会提前被初始化.又因为SecurityManager,Sec ...
editplus 5.0 破解
先安装软件,安装步骤就不解释了,很傻瓜式的,一直下一步就行. 到了最重要的一步,请看仔细了!!! 在两个输入框中分别输入注册名 Vovan 注册码 3AG46-JJ48E-CEACC-8E6 ...
docker版mysql的使用和配置（1）——docker的基本操作
最近实在是忙成狗,其他的内容等稍微闲一点了一起更新. 这篇主要是讲docker版的mysql的使用和配置信息.因为实习公司需要搞一个docker做测试环境用,还需要包括基本的依赖.最重要的是,因为这个 ...

新闻类爬虫库：Newspaper

获取新闻

提取新闻URL

提取新闻分类

提取新闻内容：Article

下载解析

解析html

结合nlp

多任务

其他

新闻类爬虫库：Newspaper的更多相关文章

随机推荐

热门专题