requests结合xpath爬取豆瓣最新上映电影

# -*- coding: utf-8 -*-

"""

豆瓣最新上映电影爬取

# ul = etree.tostring(ul, encoding="utf-8").decode("utf-8")

"""

import requests

from lxml import etree

#1.抓取目标网站页面

def getHtml(url):

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

        'Referer': 'https://movie.douban.com/',

        'Accept': 'application/json, text/javascript, */*; q=0.01'

    }

    resp = requests.get(url, headers=headers)

    # print(resp.text)#返回的是经过解码后的字符串，是str（unicode）类型，有时候会出现解码为乱码的情况，这时就需要自己指定解码方式

    # print(resp.content)#返回的是一个原生的字符串，就是从网页上抓取的没有经过处理的字符串，是bytes类型

    text = resp.text

    return text    

#2.将抓取的网页根据一定规则进行提取

def extractData(text):

    html = etree.HTML(text)

    #1拿到第一个class='lists'的ul元素

    ul = html.xpath("//ul[@class='lists']")[0]

    #2获取每一部电影的信息，ul标签下的所有li标签

    lis = ul.xpath("./li")

    movies = []#用于存放所有电影的列表

    for li in lis:

        #获取li的data-title属性

        title = li.xpath("@data-title")[0]#电影名称

        score = li.xpath("@data-score")[0]#评分

        duration = li.xpath("@data-duration")[0]#持续时间

        director = li.xpath("@data-director")[0]#导演

        actors = li.xpath("@data-actors")[0]#演员

        thumnail = li.xpath(".//img/@src")[0]#.代表当前标签，拿到所有电影的缩略图

        # 构造成字典

        movie = {

            'title': title, 'score': score,

            'duration': duration, 'director': director,

            'actors': actors, 'thumnail': thumnail

        }

        movies.append(movie)

    return movies

if __name__ == "__main__":

    url = "https://movie.douban.com/cinema/nowplaying/beijing/"

    text = getHtml(url)

    print(extractData(text))

requests结合xpath爬取豆瓣最新上映电影的更多相关文章

爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
requests+lxml+xpath爬取豆瓣电影
(1)lxml解析html from lxml import etree #创建一个html对象 html=stree.HTML(text) result=etree.tostring(html,en ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
requests+lxml+xpath爬取电影天堂
1.导入相应的包 import requests from lxml import etree 2.原始ur url="https://www.dytt8.net/html/gndy/dyz ...
python爬取豆瓣top250的电影数据并存入excle
爬取网址: https://movie.douban.com/top250 一:爬取思路(新手可以看一下) : 1:定义两个函数,一个get_page函数爬取数据,一个save函数保存数据,mian中 ...

随机推荐

C#吾日三省吾身
全局变量与局部变量区别: 全局变量声明完毕后,就算不手动初始化赋值,也是有默认值的; 但是局部变量声明完毕后,如果不给它手动赋值,是无法直接使用这个变量的. 尽量避免少的装箱拆箱: ; .ToStri ...
第四周课程总结&试验报告2
试验报告2 写一个名为Rectangle的类表示矩形.其属性包括宽width.高height和颜色color,width和height都是double型的,而color则是String类型的.要求该类 ...
我的python学习之旅——安装python
windows下载安装: 1.下载安装包: 访问官方网站:https://www.python.org/downloads/ 下载自己想要的版本安装,这里下载当前最新版3.8: 选择64位的Windo ...
python中的并发执行
一. Gevent实例 import gevent import requests from gevent import monkey # socket发送请求以后就会进入等待状态,gevent更改了 ...
springboot2.X版本得@Transactional注解事务不回滚不起作用
参考文章 https://my.oschina.net/happyBKs/blog/1624482 https://blog.csdn.net/u011410529/article/detail ...
福建工程学院第十四届ACM校赛M题题解 fwt进阶，手推三进制fwt
第九集,结束亦是开始题意: 大致意思就是给你n个3进制的数字,让你计算有多少对数字的哈夫曼距离等于i(0<=i<=2^m) 思路: 这个是一个防ak题,做法是要手推公式的fwt 大概就这 ...
面试常考的js题目（一）
1.找出dom文档中某个元素下面的所有文字(面试写的一塌糊涂,回来重写的) 1.返回回数组形式的 function getText(ele) { if (ele.nodeType === 3) { r ...
第一章 T-SQL查询和编程基础 T-SQL语言基础(1)
T-SQL查询和编程基础(1) 1.1 理论背景 SQL是为查询和管理关系型数据库管理系统(RDBMS)中的数据而专门设计的一种标准语言. RDBMS是一种基于关系模型的数据库管理系统,关系模型则是一 ...
面向对象-this关键字的概述和应用
/* 我们曾经说过:定义名字要做到见名知意. this:是当前类的对象引用.简单的记,它就代表当前类的一个对象. 注意:谁调用这个方法,在该方法内部的this就代表谁. this的场景: 解决局部变量 ...
100、神器的 routing mesh （Swarm07）
参考https://www.cnblogs.com/CloudMan6/p/7930321.html 上一节我们提到了 swarm 的 routing mesh .当外部访问任意节点的8080端口 ...

requests结合xpath爬取豆瓣最新上映电影

requests结合xpath爬取豆瓣最新上映电影的更多相关文章

随机推荐

热门专题