利用xpath来解析douban电影相对应的信息

from lxml import etree

import requests

url = "https://movie.douban.com/chart"

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"}

response = requests.get(url,headers = headers)

html_str = response.content.decode()

#print(response)

html = etree.HTML(html_str)

#将html_str文本转化为对象

print(html)

#1.获取所有电影的url

# url_list = html.xpath("//div[@class = 'indent']/div/table//div[@class='pl2']/a/@href")

#利用xpath来获取在tabal下面中class为pl2中a的href的值

#print(url_list)

#2.获取所有图片的地址

# img_list = html.xpath("//div[@class = 'indent']/div/table/tr/td/a/img/@src")

#print(img_list)

# img = html.xpath("//div[@class = 'indent']/div/table//a[@class='nbg']/img/@src")

#print(img)

#上面两个功能一样，只要找到相应位置的字段值里面含有class，就可以利用//快速定位。

#3.需要每部电影里对应的参数

ret1 = html.xpath("//div[@class = 'indent']/div/table")

print(ret1)

for table in ret1:

    item = {}

    #标题

    item["title"] = table.xpath(".//div[@class='pl2']/a/text()")[0].replace("/","").strip()

    # 去字典里面的第一个数值，且将/符号用控制符来替代，并且将外皮全部剥去。

    #电影地址

    item["url"] = table.xpath(".//a[@class='nbg']/@href")

    #图片

    item["img"] = table.xpath(".//a[@class='nbg']/img/@src")[0]

    #评分

    item["grade"] = table.xpath(".//div[@class='star clearfix']/span[@class = 'rating_nums']/text()")

    item["comment"] = table.xpath(".//div[@class = 'star clearfix']/span[@class = 'pl']/text()")

    print(item)

这样就能解析出电影的信息了。

利用xpath来解析douban电影相对应的信息的更多相关文章

Python如何利用Xpath进行解析
用Python做网络爬虫的时候,会对网页的信息进行提取,笔者接触的有正则表达式,BeautifulSoup,Xpath,前面两个都是在国内能够使用的,而Xpath是Chrome的一个插件,因此需要“F ...
利用XPath解析带有xmlns的XML文件
在.net中,编写读取xml 的程序中提示"未将对象引用设置到对象的实例",当时一看觉得有点奇怪.为什么在读取xml数据的时候也要实例化一个对象.google了才知道,xml文件中 ...
用Xpath选择器解析网页（lxml）
在<爬虫基础以及一个简单的实例>一文中,我们使用了正则表达式来解析爬取的网页.但是正则表达式有些繁琐,使用起来不是那么方便.这次我们试一下用Xpath选择器来解析网页. 首先,什么是XPa ...
XPath 爬虫解析库
XPath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的 ...
私有云方案——利用阿里云云解析实现DDNS
各位都是程序员,工作中是不是遇到个类似情况.在家里研究的一些开源代码或写的一些demo或试验代码,在工作中正好需要参考一下,但是在家里的电脑上. 虽然这些都可以用云 ...
使用XPath对象解析xml文件
使用XPath对象解析xml文件 1.DocumentBuilderFactory类工厂API,使应用程序能从XML文档获取生成DOM对象树的解析器其构造方法受保护,用newInstance() ...
截取HTML中的JSON数据并利用GSON进行解析(Android)
截取HTML中的JSON数据并利用GSON进行解析(Android) 前言最近在做的一个Android项目,需要自行搭建服务器,队友选择买了阿里云的服务器ESC产品,在数据获取上,我们采用了Andr ...
在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
如何利用Xpath抓取京东网商品信息
前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~ HTML文件其实就是由一组尖括号构成的 ...

随机推荐

Learning to Rank之RankNet算法简介
排序一直是信息检索的核心问题之一, Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank ...
Flask Web 开发错误页面自定义
如果要自定义错误画面,无法大多数情况是自定义404和500的情况首先,要在路由中设置通过app.error_handler这个装饰器来绑定响应函数 @main.errorhandler(404) ...
Horizon代码的层次结构
Horizon中包含多个dashboard,每个dashboard又包含多个panel,每个panel有可以包含多个Tab.
INNODB索引与算法
在之前的博文中简单提到了索引的分类与索引的可选择性查看:Click HERE 这片博客主要包含内容:索引组织表,索引算法B+树简单介绍索引组织表在innodb存储引擎中,表都是根据主键顺序组织存放 ...
20135320赵瀚青LINUX第四章读书笔记
概述什么是进程调度进程调度:在可运行态进程之间分配有限处理器时间资源的内核子系统. 一.调度策略 4.1进程类型 I/O消耗型进程:大部分时间用来提交I/O请求或是等待I/O请求,经常处于可运行状 ...
ubuntu下各类快捷键汇总记录
一.环境 Ubuntu 16.04 二.快捷键汇总如下 2.1 将图形界面下的terminal最大化:ctrl+super+向上的方向键 2.2 将图形界面下的terminal最小化:ctrl+sup ...
RabbitMQ 流程以及一些命令
流程: producer&Consumer producer指的是消息生产者,consumer消息的消费者. Queue 消息队列,提供了FIFO的处理机制,具有缓存消息的能力.rabbitm ...
HDU 4489 The King’s Ups and Downs
http://acm.hdu.edu.cn/showproblem.php?pid=4489 题意:有n个身高不同的人,计算高低或低高交错排列的方法数. 思路:可以按照身高顺序依次插进去. d[i][ ...
在Angular中定义共享的Providers
转自:https://segmentfault.com/a/1190000010700308 有时,你需要在 Angular 应用中创建一个共享模块,该模块定义了功能模块和lazy-loaded模块可 ...
[Err] 1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'number primary key,
如题,mysql建表语句报错分析:就是一个语法错误,具体问题具体分析本例中,直接赋值过来的 sql建表语句,直接粘贴到mysql数据库运行,报错! 经查询,mysql中 number类型的定义有如 ...

利用xpath来解析douban电影相对应的信息

利用xpath来解析douban电影相对应的信息的更多相关文章

随机推荐

热门专题