Date: 2019-06-09

Author: Sun

我们分析格言网 https://www.geyanw.com/, 通过requests网络库和bs4解析库进行爬取此网站内容。

项目操作步骤

  1. 创建项目文件夹

    --geyanwang
    ---spiders # 保存我们爬虫代码
    ---- geyan.py # 爬虫的代码
    ---doc # 操作步骤说明文档
  2. 创建虚拟环境

    cd   geyanwang/
    virtualenv spider --python=python3 # 创建venv虚拟环境
  3. 安装依赖库

    $ source venv/bin/activate
    (spider) $ pip install requests
    (spider) $ pip install lxml
    (spider) $ pip install bs4
  4. 编写代码 spiders/geyan.py

# -*- coding: utf-8 -*-
__author__ = 'sun'
__date__ = '2019/6/19 下午2:22' from bs4 import BeautifulSoup as BSP4 import requests g_set = set() def store_file(file_name, r):
html_doc = r.text
with open("geyan_%s.html"%file_name, "w") as f:
f.write(html_doc) def download(url, filename='index'):
'''
:param url: 待下载页面地址
:return: 页面内容
'''
r = requests.get(url) #发送url请求,得到url网页内容 store_file(filename, r)
return r def parse_tbox(tbox, base_domain):
'''
解析某个小说类别
:param tbox:
:param base_domain:
:return:
'''
tbox_tag = tbox.select("dt a")[0].text
print(tbox_tag) index = 0
li_list = tbox.find_all("li")
for li in li_list:
link = base_domain + li.a['href']
print("index:%s, link:%s" % (index, link))
index += 1
if link not in g_set:
g_set.add(link)
filename = "%s_%s" % (tbox_tag, index)
sub_html = download(link, filename) def parse(response):
'''
对页面进行解析
:param response: 页面的返回内容
:return:
'''
base_domin = response.url[:-1]
g_set.add(base_domin)
#print(base_domin)
html_doc = response.content
soup = BSP4(html_doc, "lxml")
tbox_list = soup.select("#p_left dl.tbox") #小说
[parse_tbox(tbox, base_domin) for tbox in tbox_list] def main():
base_url = "https://www.geyanw.com/"
response = download(base_url)
parse(response) if __name__ == "__main__":
main()
  1. 运行上述代码,会产生一堆的html文件至本地

作业

上述geyan.py文件中只处理了首页

如何按照类别分页爬取相关内容,采用多线程实现

eg:

https://www.geyanw.com/lizhimingyan/

https://www.geyanw.com/renshenggeyan/

将爬取的网页以文件夹命名不同的方式进行保存至本地

采用requests库构建简单的网络爬虫的更多相关文章

  1. python3.6 urllib.request库实现简单的网络爬虫、下载图片

    #更新日志:#0418 爬取页面商品URL#0421 更新 添加爬取下载页面图片功能#0423 更新 添加发送邮件功能# 优化 爬虫异常处理.错误页面及空页面处理# 优化 爬虫关键字黑名单.白名单,提 ...

  2. Python:requests库、BeautifulSoup4库的基本使用(实现简单的网络爬虫)

    Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...

  3. Java实现一个简单的网络爬虫

    Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...

  4. python requests库的简单使用

    requests是python的一个HTTP客户端库,跟urllib,urllib2类似,但比urllib,urllib2更加使用简单. 1. requests库的安装在你的终端中运行pip安装命令即 ...

  5. 在python3中使用urllib.request编写简单的网络爬虫

    转自:http://www.cnblogs.com/ArsenalfanInECNU/p/4780883.html Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要 ...

  6. 一只简单的网络爬虫(基于linux C/C++)————开篇

    最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息 ...

  7. 使用scrapy-redis构建简单的分布式爬虫

    前言 scrapy是python界出名的一个爬虫框架.Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 虽然scr ...

  8. 一只简单的网络爬虫(基于linux C/C++)————socket相关及HTTP

    socket相关 建立连接 网络通信中少不了socket,该爬虫没有使用现成的一些库,而是自己封装了socket的相关操作,因为爬虫属于客户端,建立套接字和发起连接都封装在build_connect中 ...

  9. 一只简单的网络爬虫(基于linux C/C++)————Url处理以及使用libevent进行DNS解析

    Url处理 爬虫里使用了两个数据结构来管理Url 下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列 //维护url原始字符串 typedef struct Surl { char * ...

随机推荐

  1. js中二维数组的创建方法 2017-04-04 14:50 120人阅读 评论(0) 收藏

    法一:var myarr=[[0,1,2],[1,2,3]]; 将[0,1,2]看做原来的0,将[1,2,3]看做原来的1,而二者又分别为子数组 如myarr[0][1]=1,myarr[1][1]= ...

  2. 1.sts的下载安装

    sts的官方下载如下: http://spring.io/tools3/sts/all/ 将下载后的压缩文件解压,在解压后的sts-bundle下的sts-3.9.1RELEASE目录中STS.exe ...

  3. js借助JSONP实现百度搜索框提示效果

    主要借助百度搜索的API,调用时会存在跨域问题,需要通过JSONP来解决这个问题,代码如下(代码中部分使用ES6语法): HTML <input type="text" id ...

  4. 用户命令行方式连MYSQL数据库

    现在是手工入门,就不太依赖IDE,使用MYSQL的JDBC的JAR包连数据库的方式如下: 演示文件内容: package cc.openhome; import java.sql.*; public ...

  5. [bzoj1002][FJOI2007]轮状病毒_递推_高精度

    轮状病毒 bzoj-1002 FJOI-2007 Description 轮状病毒有很多变种,所有轮状病毒的变种都是从一个轮状基产生的.一个N轮状基由圆环上N个不同的基原子和圆心处一个核原子构成的,2 ...

  6. 断路器-Hystrix的深入了解

    前言 高可用相关的技术以及架构,对于大型复杂的分布式系统,是非常重要的.而高可用架构中,非常重要的一个环节,就是如何将分布式系统中的各个服务打造成高可用的服务,从而足以应对分布式系统环境中的各种各样的 ...

  7. netty 学习记录一

    近期在学习netty相关知识,认为<netty 权威指南>这本书还是挺好的,适合我这样的刚開始学习的人.加上netty本身自带的很多样例,学起来还是挺有兴趣的.简单记录下, 一般serve ...

  8. eclipse配置默认的jdk

    1.window-preferences-java-Installed JREs-Add-Standard VM-[添加jre6或jre7的路径]

  9. 【整合篇】Activiti业务与流程的整合

    对于不管是Activtit还是jbpm来说,业务与流程的整合均类似.启动流程是绑定业务.流程与业务的整合放到动态代理中 [java] view plain copy print" style ...

  10. POJ 3723 Tree(树链剖分)

    POJ 3237 Tree 题目链接 就多一个取负操作,所以线段树结点就把最大和最小值存下来,每次取负的时候,最大和最小值取负后.交换就可以 代码: #include <cstdio> # ...