采用requests库构建简单的网络爬虫

Date: 2019-06-09

Author: Sun

我们分析格言网 https://www.geyanw.com/，通过requests网络库和bs4解析库进行爬取此网站内容。

项目操作步骤

创建项目文件夹

--geyanwang

   ---spiders  # 保存我们爬虫代码

      ---- geyan.py # 爬虫的代码

   ---doc   # 操作步骤说明文档

创建虚拟环境

cd   geyanwang/

virtualenv spider  --python=python3  # 创建venv虚拟环境

安装依赖库

$ source venv/bin/activate

(spider) $ pip install requests

(spider) $ pip install lxml

(spider) $ pip install bs4

编写代码 spiders/geyan.py

# -*- coding: utf-8 -*-

__author__ = 'sun'

__date__ = '2019/6/19 下午2:22' 

from bs4 import BeautifulSoup as BSP4

import requests

g_set = set()

def store_file(file_name, r):

	html_doc = r.text

	with open("geyan_%s.html"%file_name, "w") as f:

		f.write(html_doc)

def download(url, filename='index'):

	'''

	:param url: 待下载页面地址

	:return: 页面内容

	'''

	r = requests.get(url)   #发送url请求，得到url网页内容

	store_file(filename, r)

	return r

def parse_tbox(tbox, base_domain):

	'''

	解析某个小说类别

	:param tbox:

	:param base_domain:

	:return:

	'''

	tbox_tag = tbox.select("dt a")[0].text

	print(tbox_tag)

	index = 0

	li_list = tbox.find_all("li")

	for li in li_list:

		link = base_domain + li.a['href']

		print("index:%s, link:%s" % (index, link))

		index += 1

		if link not in g_set:

			g_set.add(link)

			filename = "%s_%s" % (tbox_tag, index)

			sub_html = download(link, filename)

def parse(response):

	'''

	对页面进行解析

	:param response: 页面的返回内容

	:return:

	'''

	base_domin = response.url[:-1]

	g_set.add(base_domin)

	#print(base_domin)

	html_doc = response.content

	soup = BSP4(html_doc, "lxml")

	tbox_list = soup.select("#p_left   dl.tbox")  #小说

	[parse_tbox(tbox, base_domin)  for tbox in tbox_list]

def main():

	base_url = "https://www.geyanw.com/"

	response = download(base_url)

	parse(response)

if __name__ == "__main__":

	main()

运行上述代码，会产生一堆的html文件至本地

作业

上述geyan.py文件中只处理了首页

如何按照类别分页爬取相关内容，采用多线程实现

eg:

https://www.geyanw.com/lizhimingyan/

https://www.geyanw.com/renshenggeyan/

将爬取的网页以文件夹命名不同的方式进行保存至本地

采用requests库构建简单的网络爬虫的更多相关文章

python3.6 urllib.request库实现简单的网络爬虫、下载图片
#更新日志:#0418 爬取页面商品URL#0421 更新添加爬取下载页面图片功能#0423 更新添加发送邮件功能# 优化爬虫异常处理.错误页面及空页面处理# 优化爬虫关键字黑名单.白名单,提 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
python requests库的简单使用
requests是python的一个HTTP客户端库,跟urllib,urllib2类似,但比urllib,urllib2更加使用简单. 1. requests库的安装在你的终端中运行pip安装命令即 ...
在python3中使用urllib.request编写简单的网络爬虫
转自:http://www.cnblogs.com/ArsenalfanInECNU/p/4780883.html Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要 ...
一只简单的网络爬虫（基于linux C/C++）————开篇
最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息 ...
使用scrapy-redis构建简单的分布式爬虫
前言 scrapy是python界出名的一个爬虫框架.Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 虽然scr ...
一只简单的网络爬虫（基于linux C/C++）————socket相关及HTTP
socket相关建立连接网络通信中少不了socket,该爬虫没有使用现成的一些库,而是自己封装了socket的相关操作,因为爬虫属于客户端,建立套接字和发起连接都封装在build_connect中 ...
一只简单的网络爬虫（基于linux C/C++）————Url处理以及使用libevent进行DNS解析
Url处理爬虫里使用了两个数据结构来管理Url 下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列 //维护url原始字符串 typedef struct Surl { char * ...

随机推荐

爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
Golang - 处理json
目录 Golang - 处理json 1. 编码json 2. 解码json Golang - 处理json 1. 编码json 使用json.Marshal()函数可以对一组数据进行JSON格式的编 ...
痛苦的Windows下的temp目录
2007不能运行了,错误: [MSBuild Error] “DCC”任务意外失败. System.Configuration.ConfigurationErrorsException: 配置系统未能 ...
执行计划中Using filesort,Using temporary相关语句的优化解决
昨天听开发人员提到,相关的彩票网页当中一个页面刷新的很慢,特别是在提取数据的时候,今天早上一到,便去找开发人员要去相关的也没进行浏览,窥探哪些数据出现了问题,开发人员使用PHP开发,所以我用IE很容易 ...
UVA Jin Ge Jin Qu hao 12563
Jin Ge Jin Qu hao (If you smiled when you see the title, this problem is for you ^_^) For those who ...
MySQL优化之——为用户开通mysql权限
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46627263 为用户开通mysql权限: grant all privileges ...
formValidator向struts2 ajax传參验证
话不多说,直接上代码页面head里面的formvalidator验证配置 <script type="text/javascript"> $(document).re ...
Vultr好server不敢独享
Vultr是一家美国2014年成立的新公司.瞬间红遍世界,他是干什么的?他是serverVPS(Virtual Private Server)提供商,这个价格真实惊人的廉价5美金/月.折合人民币30元 ...
[think in java]第12章通过异常处理错误
异常处理是java中唯一正式的错误报告机制. 而且通过编译器强行运行. 异常參数抛出异常与方法正常返回值的差别:异常返回的"地点"与普通方法调用返回的"地点" ...
Mac上搭建android环境：Android Studio+GreenVPN
1.下载Android Studio,https://developer.android.com/sdk/index.html 2.使用GreenVPN,感觉还能够.18/月.http://www.g ...

采用requests库构建简单的网络爬虫

项目操作步骤

采用requests库构建简单的网络爬虫的更多相关文章

随机推荐

热门专题