9个用来爬取网络站点的 Python 库

上期入口：10个不到500行代码的超牛Python练手项目

1️⃣Scrapy

一个开源和协作框架，用于从网站中提取所需的数据。以快速，简单，可扩展的方式。

官网：https://scrapy.org/

相关课程推荐：Python 网站信息爬虫

2️⃣cola

一个分布式爬虫框架。

GitHub：https://github.com/chineking/cola

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

官网：https://demiurge.readthedocs.io/en/v0.2/

4️⃣feedparser

通用 feed 解析器。

官网：https://pythonhosted.org/feedparser/

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。使用 Grab，您可以构建各种复杂性的 Web scraper，从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。与 HTML 文档的 DOM 树交互。

官网：https://grablib.org/en/latest/

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

GitHub：https://github.com/MechanicalSoup/MechanicalSoup

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。使用 Portia 可以注释一个网页以识别您想要提取的数据，Portia 将根据这些注释了解如何从类似页面中抓取数据。

GitHub：https://github.com/scrapinghub/portia

8️⃣pyspider

一个强大的爬虫系统。

官网：http://docs.pyspider.org/

9️⃣RoboBrowser

一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。

官网：https://scrapy.org/

【关于技术清单】技术清单是由实验楼整合、梳理的一系列知识点合辑；每辑都有MD，PDF和思维导图多样呈现，并提供下载。本期为Python系列，包含5篇精选清单，下载方式如下：

相关阅读

8个爽滑的Windows小软件，不好用你拿王思葱砸死我

60人，42天，死磕机器学习，结果如下。

武侠版编程语言...Java像张无忌还是令狐冲？

大量机器学习&深度学习资料

技术变现，到底怎么变？

9个用来爬取网络站点的 Python 库的更多相关文章

Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页
通过网站地图爬取目标站点的所有网页使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python 爬取网络小说清洗并下载至txt文件
什么是爬虫网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引.网络爬虫可以 ...
解决：Python爬取https站点时SNIMissingWarning和InsecurePlatformWarning
今天想利用Requests库爬取糗事百科站点,写了一个请求,却报错了: 后来参考kinsomy的博客,在cmd中pip install pyopenssl ndg-httpsclient pyasn1 ...
Python+Requests+Xpath（解析）爬取某站点简历图片（数据分析三）
1.环境安装 pip install lxml 2.解析原理使用通用爬虫爬取网页数据实例化etree对象,且将页面数据加载到该对象中使用xpath函数结合xpath表达式进行标签定位和指定数据提 ...
Selenium&PhantomJS 完成爬取网络代理
Selenium模块是一套完整的Web应用程序测试系统,它包含了测试的录制(SeleniumIDE).编写及运行(Selenium Remote Control)和测试的并行处理(Selenimu G ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
Java爬取网络博客文章
前言近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
使用BeautifulSoup爬取“0daydown”站点的信息（2）——字符编码问题解决
上篇中的程序实现了抓取0daydown最新的10页信息.输出是直接输出到控制台里面.再次改进代码时我准备把它们写入到一个TXT文档中.这是问题就出来了. 最初我的代码例如以下: #-*- coding ...

随机推荐

刨根问底 | Elasticsearch 5.X集群多节点角色配置深入详解【转】
转自:https://blog.csdn.net/laoyang360/article/details/78290484 1.问题引出 ES5.X节点类型多了ingest节点类型. 针对3个节点.5个 ...
Activiti 工作流变量的修改方法
修改方法: //此方法的更新会同时更新 ru_ 和 hi_的数据 @Override public Map<String, Object> updateProcessFormValue(S ...
C#函数的默认参数——填坑记
昨天踩了一个坑.默认参数 + 增量发布的坑. 过程是这样的. 1. 有一个底层的方法,格式形如 void Test<T>(int p1, string p2, Func<T> ...
hdoj：2075
A|B? Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submis ...
Sword libcurl回调函数相关知识
libcurl响应回调函数说明 libcurl在默认情况下,回调里面会将数据分段的返回,不会一下子将发送端的数据全部塞到回调函数里面, 经过源码分析回调函数和curl_easy_perform是在 ...
使用 maven 自动将源码打包并发布
1.maven-source-plugin 访问地址在 pom.xml 中添加下面的内容,可以使用 maven 生成 jar 的同时生成 sources 包 <plugin> & ...
Logstash安装和使用
Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据.转换数据,然后将数据发送到您最喜欢的 “存储库” 中.(我们的存储库当然是 Elasticsearch.) 作用:集中.转 ...
Cxf weblogic 报错： when resolving method "javax.xml.bind.JAXBElement
Cxf weblogic 报错: when resolving method "javax.xml.bind.JAXBElement ============================ ...
java源码中的注解
spring框架源码中充满了注解,如果对注解不是很了解,阅读源码就寸步难行,下面我们来看看annotation.https://blog.csdn.net/briblue/article/detail ...
thinkphp5中使用phpmailer实现发送邮件功能(转载)
一.开启SMTP服务(使用php发送邮件需要用到SMTP服务,这里以163邮箱的SMTP服务为例). 1.登录163邮箱,在首页上找到“设置”. 2.选择开启的服务,一般都全选,POP3/SMTP/I ...