xpath解析html标签

最近忙一个需求：把一个字符串形式的html文档转化成excel。

分解需求：

① 实现语言 ———— python

② html解析 ———— 用 lxml库的etree工具，xpath方式解析文档树

③ 写excel ———— 用 xlwt库写excel

代码片段：

# -*- coding:utf-8 -*-
from __future__ import unicode_literals
import os, sys
reload(sys)
sys.setdefaultencoding('utf8')
import MySQLdb
import json
import xlwt
from lxml import etree

# 解析html字符串的方法

def change(data):
html = etree.HTML(str(data))
divs = html.xpath('//div[@class="content"]/div')
img_top = divs[0].xpath('./img/@src')
p_top_tmp_list = divs[0].xpath('./p/text()')

... ...

# 写excel的方法

def write_excel(filename, data):
book = xlwt.Workbook() #创建excel对象
sheet = book.add_sheet('sheet1') #添加一个表
c = 0 #保存当前列
for d in data: #取出data中的每一个元组存到表格的每一行
for index in range(len(d)): #将每一个元组中的每一个单元存到每一列
sheet.write(c,index,d[index])
c += 1
book.save(filename) #保存excel

xpath解析html标签的更多相关文章

爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
xpath解析数据
xpath解析数据 """ xpath 也是一种用于解析xml文档数据的方式 xml path w3c xpath搜索用法在 XPath 中,有七种类型的节点:元素.属 ...
xpath 解析及案例
xpath解析编码流程: 1.实例化一个etree对象,且将页面源码加载到该对象中 2.使用xpath函数,且在函数中必须作用一个xpath表达式进行标签的定位 3.使用xpath进行属性和文本的提 ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
@1-4使用Xpath解析豆瓣短评
使用Xpath解析豆瓣短评 Python爬虫(入门+进阶) DC学院本节课程主要介绍解析神器Xpath是什么.Xpath如何安装及使用,以及使用实际的例子讲解Xpath如何解析豆瓣短评的网页 ...
BeautifulSoup与Xpath解析库总结
一.BeautifulSoup解析库 1.快速开始 html_doc = """ <html><head><title>The Dor ...
爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
爬虫--XPATH解析
今天说一下关于爬取数据解析的方式---->XPATH,XPATH是解析方式中最重要的一种方式 1.安装:pip install lxml 2.原理 1. 获取页面源码数据 2.实例化一个etr ...
数据的查找和提取[2]——xpath解析库的使用
xpath解析库的使用在上一节,我们介绍了正则表达式的使用,但是当我们提取数据的限制条件增多的时候,正则表达式会变的十分的复杂,出一丁点错就提取不出来东西了.但python已经为我们提供了许多用于解 ...

随机推荐

Android studio中修改xml文件无效问题
昨天遇到的这个问题,在修改布局xml文件后保存,但运行时布局却并没有被修改,也就是说我的修改无效,今天参照了这篇文章中的方法终于解决了: https://blog.csdn.net/l_o_s/art ...
[CTSC2008]网络管理 [树剖+整体二分]
这题的复杂度可以到达惊人的\(\log^4\)据说还能跑过去(差点没吓死我直接二分+树剖树套树(\(n \log^4 n\)) 一个\(\log\)也不少的4\(\log\) 但是我有个\(\log ...
一个简易git服务器的搭建
查看本机ssh公钥,生成公钥查看ssh公钥方法: 1. 打开git bash窗口 2. 进入.ssh目录: cd ~/.ssh 3. 找到id_rsa.pub文件: ls 4. 查看公钥:cat i ...
用友UAP NC 单据新增数据时抛出"流程平台缓存中不存在该单据或交易类型=HB06"
正常单据新增时,抛出异常"流程平台缓存中不存在该单据或交易类型=HB06"
Winform递归绑定树节点
/// <summary> /// 绑定树节点 /// </summary> /// <param name="pid"></param& ...
HTTP 协议的 8 种请求类型介绍
HTTP 协议的 8 种请求类型介绍 HTTP 协议中共定义了八种方法或者叫“动作”来表明对 Request-URI 指定的资源的不同操作方式,具体介绍如下: OPTIONS:返回服务器针对特定资源所 ...
C语言 sizeof（）用法介绍
本文转自https://www.cnblogs.com/huolong-blog/p/7587711.html 1. 定义 sizeof是一个操作符(operator). 其作用是返回 ...
jsonp 完成跨域请求注意事项
jsonp 不支持post方式请求跨域数据可以使用get方式请求 !jsonp 不支持post方式请求跨域数据可以使用get方式请求 !jsonp 不支持post方式请求跨域数据可以使用get方 ...
Spring Boot整合Dubbo2.x，解决其中遇到的坑
Dubbo了解 a high-performance, java based open source RPC framework. Dubbo官网源码文档快速知道用法本地服务 Spring 配 ...
java 学习（day2）时钟类
看过python的面向对象,所以入手java总的来说还是比较快的. 看视频学习之后写了一个简单的时钟一个时钟有两部分组成小时和分钟.再大一些还有月,日. 分析一下就是,上述这些属性到达一个值之后,就 ...

xpath解析html标签

xpath解析html标签的更多相关文章

随机推荐

热门专题