初识python 之爬虫：爬取豆瓣电影最热评论

主要用到lxml的etree解析网页代码，xpath获取HTML标签。

代码如下：

 1 #!/user/bin env python

 2 # author:Simple-Sir

 3 # time:2019/7/17 22:08

 4 # 获取豆瓣网正在上映电影最热评论

 5 import requests

 6 from lxml import etree

 7

 8 # 伪装浏览器

 9 headers ={

10     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

11     'Referer':'https://movie.douban.com/'

12 }

13 # 获取首页网页信息并解析

14 url = 'https://movie.douban.com/cinema/nowplaying/chengdu/'

15

16 def getUrlText(url):

17     respons = requests.get(url,headers=headers)  # 获取网页信息

18     urlText = respons.text

19     html = etree.HTML(urlText)  # 使用lxml解析网页

20     return html

21

22 # 提取电影名称及详情地址链接列表

23 def getWallUrl(url):

24     hrefUrl = getUrlText(url)

25     ul = hrefUrl.xpath('//ul[@class="lists"]')[0]  # 获取ul标签

26     liList = ul.xpath('./li')  # # 获取li标签列表

27     liHrefs = []

28     for li in liList:

29         liHref = li.xpath('.//@href')[0]

30         name = li.xpath('@data-title')[0]

31         msg = {

32             name:liHref

33         }

34         liHrefs.append(msg)

35     return liHrefs

36

37 # 解析电影详情地址

38 def downPL(url):

39     moveUrl = getWallUrl(url)

40     n=0

41     for murl in moveUrl:

42         n+=1

43         for d in murl:

44             plHtml = getUrlText(murl[d])

45             plTextFull = plHtml.xpath('//div[@id="hot-comments"]//span[@class="hide-item full"]//text()')

46             plTextShort = plHtml.xpath('//div[@id="hot-comments"]//span[@class="short"]//text()')

47             if(len(plTextFull)==0 and len(plTextShort)>0):

48                 print('正在写入《{}》的评论。'.format(d))

49                 with open('豆瓣评论.txt','a+',encoding='utf-8') as fp:

50                     fp.write('{}、《{}》的最热评论是：\n{}\n\n'.format(n,d,plTextShort[0]))

51             elif(len(plTextFull)>0):

52                 print('正在写入《{}》的评论。'.format(d))

53                 with open('豆瓣评论.txt','a+',encoding='utf-8') as fp:

54                     fp.write('{}、《{}》的最热评论是：\n{}\n\n'.format(n,d,plTextShort[0]))

55             else:

56                 print('正在写入《{}》的评论。'.format(d))

57                 with open('豆瓣评论.txt','a+',encoding='utf-8') as fp:

58                     fp.write('{}、《{}》暂无评论！\n\n'.format(n,d))

59     return print('{}部电影的所有评论已全部写入“豆瓣评论.txt”，请查看。'.format(n))

60

61 if __name__ == '__main__':

62     downPL(url)

获取豆瓣网正在上映电影最热评论

执行效果：

文件详情：

初识python 之爬虫：爬取豆瓣电影最热评论的更多相关文章

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统.谷歌浏览器目的:爬取豆瓣电影排行榜中电影的title.链接地址.图片.评价人数.评分等网址:https:// ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
Scrapy-redis分布式爬虫爬取豆瓣电影详情页
平时爬虫一般都使用Scrapy框架,通常都是在一台机器上跑,爬取速度也不能达到预期效果,数据量小,而且很容易就会被封禁IP或者账号,这时候可以使用代理IP或者登录方式爬,然而代理IP很多时候都很鸡肋, ...
Python爬虫-爬取豆瓣电影Top250
#!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import BeautifulSoup import re ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...

随机推荐

MFC入门示例之单选框、复选框
设置默认选中一个单选按钮,OnInitDialog()函数中添加: CheckRadioButton(IDC_RADIO1, IDC_RADIO2, IDC_RADIO2); 按钮事件处理 1 voi ...
SVM中的软间隔最大化与硬间隔最大化
参考文献:https://blog.csdn.net/Dominic_S/article/details/83002153 1.硬间隔最大化对于以上的KKT条件可以看出,对于任意的训练样本总有ai= ...
如何用Serverless让SaaS获得更灵活的租户隔离和更优的资源开销
关于SaaS和Serverless,相信关注我的很多读者都已经不陌生,所以这篇不会聊它们的技术细节,而将重点放在SaaS软件架构中引入Serverless之后,能给我们的SaaS软件带来多大的收益. ...
解放双手，自动生成“x.set(y.get)”，搞定vo2dto转换
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言给你机会,你也不中用啊这些年从事编程开发以来,我好像发现了大部分研发那些不愿意干的 ...
学习笔记--html篇（2）
html学习--2 canvas . svg 区别 canvas: 依赖分辨率不支持文本渲染能力文本渲染能力弱支持保存图像为png.jpg等格式适合图像密集开发(游戏) SVG 不依赖分辨率 ...
【dva】如何监听异步请求是否完成(页面loading)
方案1.你可以在model里面操作在model里面的state里面声明一个变量state,默认是false,effect函数执行开始就将其改为true,然后等call()然后结束后又将其改为fals ...
Vue2使用Axios发起请求教程详细
当你看到该文章时希望你已知晓什么是跨域请求以及跨域请求的处理,本文不会赘述本文后台基于Springboot2.3进行搭建,Controller中不会写任何业务逻辑仅用于配合前端调试 Controll ...
Oracle不等于符号过滤null情况
在Oracle查询过程中,条件查询时,用"<>"操作符进行查询会过滤掉字段为null的记录. 一.不使用"<>"操作符查询:select ...
🍃【Spring专题】「原理系列」SpringMVC的运行工作原理（补充修订）
承接相关之前的SpringMVC的框架技术的流程分析初始化流程(initStrategies) 执行流程寻找相关HandlerMapping 请求到DispatcherServlet类进行执行相关 ...
c++指针常量和常量指针概述
个人理解,欢迎指正这个简单,简单,简单(不要有心里压力:认为很难) 本文将会解决: A.变与不变 B.判断指针常量和常量指针. C.常量指针指针常量.本文不涉及. 1.概述 A.指针: 说到底,还 ...

初识python 之 爬虫：爬取豆瓣电影最热评论

初识python 之 爬虫：爬取豆瓣电影最热评论的更多相关文章

随机推荐

热门专题

初识python 之爬虫：爬取豆瓣电影最热评论

初识python 之爬虫：爬取豆瓣电影最热评论的更多相关文章