python网络爬虫（7）爬取静态数据详解

目的

爬取http://seputu.com/数据并存储csv文件

导入库

lxml用于解析解析网页HTML等源码，提取数据。一些参考：https://www.cnblogs.com/zhangxinqi/p/9210211.html

requests请求网页

chardet用于判断网页中的字符编码格式

csv用于存储文本使用。

re用于正则表达式

from lxml import etree

import requests

import chardet

import csv

import re

获取网页

生成网页头带入到request.get中，可以模拟浏览器。其中的网页头，可以在浏览器控制台，network下查找到。

user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

headers={'User-Agent':user_agent}

r=requests.get('http://seputu.com/',headers=headers)

判断并转换编码

r.encoding=chardet.detect(r.content)['encoding']

解析网页

html=etree.HTML(r.text)

提取网页信息

浏览器打开对应网站，找到要提取的标签，通过元素审查，完成html文本内容的抽取。

这里抽取的内容为h2_title，href，title内容。title通过正则表达式完成分组，并进行数据提取。

注意的是：python正则表达式部分，不支持部分的零宽断言语法，采用分组方案，避开了可能出现的错误！

如以下代码会出错：

import re

box_title='[2012-5-23 21:14:42] 盗墓笔记 贺岁篇 真相'

pattern=re.compile(r'(?<=\[.*\]\s).*')

result1=re.search(pattern, box_title)

rows存储了二维数据，用于写入csv文件。

div_mulus=html.xpath('.//*[@class="mulu"]')

rows=[]

for div_mulu in div_mulus:

    div_h2=div_mulu.xpath('./div[@class="mulu-title"]/center/h2/text()')

    if len(div_h2)>0:

        h2_title=div_h2[0]

        a_s=div_mulu.xpath('./div[@class="box"]/ul/li/a')

        for a in a_s:

            href=a.xpath('./@href')[0]

            box_title=a.xpath('./@title')[0]

            pattern=re.compile(r'\s*\[(.*)\]\s+(.*)')

            result1=re.search(pattern, box_title)

            rows.append([h2_title,result1.group(2),href,result1.group(1)])

            pass

        pass

    pass

存储数据

建立header一维数据，配合之前rows二维数据，通过w权限，配合writer方法，完成一维、二维的数据写入

通过最后的输出，标记正常完成。

headers=['title','real_title','href','date']

with open('text.csv','w') as f:

    f_csv=csv.writer(f,)

    f_csv.writerow(headers)

    f_csv.writerows(rows)

print('finished')

python网络爬虫（7）爬取静态数据详解的更多相关文章

python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
python爬取疫情数据详解
首先逐步分析每行代码的意思: 这是要引入的东西: from os import path import requests from bs4 import BeautifulSoup import js ...
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务.使用多个进程协同完成一个任务,提高了数据爬取的效率. 以百度百科的一条为起点,抓取百度百科2000左右词条数据. 说明参阅模仿了:https: ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
python3编写网络爬虫19-app爬取
一.app爬取前面都是介绍爬取Web网页的内容,随着移动互联网的发展,越来越多的企业并没有提供Web页面端的服务,而是直接开发了App,更多信息都是通过App展示的 App爬取相比Web端更加容易 ...

随机推荐

[CSP-S模拟测试]:Weed（线段树）
题目描述 $duyege$的电脑上面已经长草了,经过辨认上面有金坷垃的痕迹.为了查出真相,$duyege$准备修好电脑之后再进行一次金坷垃的模拟实验.电脑上面有若干层金坷垃,每次只能在上面撒上一层高度 ...
[CSP-S模拟测试]:那一天我们许下约定（DP+组合数学）
题目传送门(内部题2) 输入格式每个测试点有多组测试数据.对于每组数据,有一行共三个整数$N$,$D$,$M$含义如题.输入结束标识为$“0 0 0”$ (不含引号). 输出格式对于每组数据,输出 ...
系统芯片 SoC
SoC的定义多种多样,由于其内涵丰富.应用范围广,很难给出准确定义.一般说来, SoC称为系统级芯片,也有称片上系统,意指它是一个产品,是一个有专用目标的集成电路,其中包含完整系统并有嵌入软件的全部内 ...
SRS之RTMP的TCP线程（即监听线程）
本文分析的是 SRS 针对 rtmp 的端口建立的 tcp 线程.具体建立过程: SRS之监听端口的管理:RTMP RTMP 的 TCP 线程中各个类之间 handler 的关系图 1. RTMP之T ...
WebService：asp.net类库中添加WebService引用出现问题解决方法
ylbtech-WebService:asp.net类库中添加WebService引用出现问题解决方法 1.返回顶部 1. 在Web项目内添加WebService的引用是件很简单的事情,今天在类库中添 ...
pandas之数据选择
pandas中有三种索引方法:.loc,.iloc和[],注意:.ix的用法在0.20.0中已经不建议使用了 import pandas as pd import numpy as np In [5] ...
Flyway：数据库版本迁移工具的介绍
目录 Flyway介绍 Flyway的工作模式 Flyway的使用场景命令行使用Maven或Gradle插件 migrate clean info validate baseline Java A ...
联想 ThinkPad 笔记本 Fn 键关闭与启用方法
联想 ThinkPad 笔记本 Fn 键关闭与启用方法 [最快捷的方式] 按 Fn + Esc 键,进行切换启用或者关闭 Fn 功能键 So easy!!! ^_^
EncryptFac 加解密小工具
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
ES5与ES6常用语法教程之 ②解构语法糖、声明变量异同
js常用语法系列教程如下 es5与es6常用语法教程(1) es5与es6常用语法教程(2) es5与es6常用语法教程(3) es5与es6常用语法教程(4) es5与es6常用语法教程(5) es ...