1. import requests
  2. from bs4 import BeautifulSoup
  3. import re
  4. import traceback
  5.  
  6. def GetHtmlText(url):
  7. for i in range(0,1): #尝试两次
  8. try:
  9. r=requests.get(url)
  10. r.encoding = 'utf-8'
  11. r.raise_for_status();
  12. return r.text;
  13. except:
  14. traceback.print_exc()
  15. continue
  16. return
  17.  
  18. def GetMovieInfo(url):
  19. movieDict={}
  20. for page in range(0,10):
  21. try:
  22. page_url = '?start='+str(page*25)
  23. html = GetHtmlText(url+page_url)
  24. Soup = BeautifulSoup(html, 'html.parser')
  25. movie = Soup.find(name="ol",class_='grid_view') #所有电影信息
  26. movieList = movie.find_all(name='li') #电影信息列表
  27. for single in movieList: #循环单页的电影信息
  28. num = single.find(name='em').string #电影排名
  29. title1 = single.find_all(name='span',class_='title')
  30. title2 = single.find(name='span',class_='other').string
  31. if len(title1)==2:
  32. movieTitle = title1[0].string+title1[1].string+title2.string
  33. else:
  34. movieTitle = title1[0].string+title2.string
  35. classBD = single.find(name='div',class_='bd').contents #我也不知道为什么bs给我返回7个节点
  36. movieActor = classBD[1].text
  37. movieRating = re.findall(r'\d?\.\d?',str(classBD[3]))[0]
  38. movieQuote = classBD[5].text
  39. movieDict['num'] = num
  40. movieDict['movieTitle'] = movieTitle
  41. movieDict['actor'] = movieActor
  42. movieDict['rating'] = movieRating
  43. movieDict['quote'] = movieQuote
  44. printMovieInfo(movieDict)
  45. except:
  46. traceback.print_exc()
  47.  
  48. def printMovieInfo(Info):
  49. try:
  50. with open('/home/why/py/movieInfo.txt','a',encoding='utf-8') as f:
  51. f.write(str(Info['num']+Info['movieTitle']+'\n'+Info['actor']+'\n评分:'+Info['rating']+'\n评价:'+Info['quote']+'\n'))
  52. except:
  53. traceback.print_exc()
  54.  
  55. def main():
  56. base_url = 'https://movie.douban.com/top250'
  57. GetMovieInfo(base_url)
  58. main()

结果:

记一次python爬虫实战,豆瓣电影Top250爬虫的更多相关文章

  1. <爬虫实战>豆瓣电影TOP250(三种解析方法)

    1.豆瓣电影排行.py # 目标:爬取豆瓣电影排行榜TOP250的电影信息 # 信息包括:电影名字,上映时间,主演,评分,导演,一句话评价 # 解析用学过的几种方法都实验一下①正则表达式.②Beaut ...

  2. 【Python爬虫】:使用高性能异步多进程爬虫获取豆瓣电影Top250

    在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...

  3. [Python] 豆瓣电影top250爬虫

    1.分析 <li><div class="item">电影信息</div></li> 每个电影信息都是同样的格式,毕竟在服务器端是用 ...

  4. Python:python抓取豆瓣电影top250

    一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...

  5. Python抓取豆瓣电影top250!

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound  一直对爬虫感兴趣,学了python后正好看到 ...

  6. python爬取豆瓣电影Top250(附完整源代码)

    初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析 我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...

  7. 零基础爬虫----python爬取豆瓣电影top250的信息(转)

    今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...

  8. 爬虫实战 豆瓣音乐top250 xpath

    刷知乎时刷到一篇爬取豆瓣音乐top250的,然后看了看,感觉自己的爬虫又更上一层楼了哈啊哈哈,尤其是发现xpath这么好用的东西. 不过也有一个感慨,就是有很多种方式都可以获得想要的数据,对于入门的新 ...

  9. Python 爬取豆瓣电影Top250排行榜,爬虫初试

    from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error # ...

随机推荐

  1. ElasticSearch—分页查询

    ElasticSearch查询—分页查询详解 Elasticsearch中数据都存储在分片中,当执行搜索时每个分片独立搜索后,数据再经过整合返回.那么,如何实现分页查询呢? 按照一般的查询流程来说,如 ...

  2. 实验吧—Web——WP之 头有点大

    3. 首先看一下 .net framework 9.9 并没有9.9版本 可以考虑浏览器伪装用户代理 就得了解User-Agent ???何为user-agent User-Agent是Http协议中 ...

  3. python lambda匿名函数

    Python的一个很重要的方面就是:函数式编程(functional programming),即可以再原本传递参数和值的地方传递函数. lambda x: x%3 == 0 和以下等价: def b ...

  4. 用pthon来写个跳板机

    用pthon来写个跳板机   1.需求 程序一:1.后台管理- 堡垒机上创建用户和密码(堡垒机root封装的类,UserProfile表)- .bashrc /usr/bin/python3 /dat ...

  5. C经典案例

    1. C中可变参数函数作为函数参数: void media_debug_set_handler(struct media_device *media, void (*debug_handler)(vo ...

  6. dns over https 简单测试(docker 运行)

      dns over https 已经成为了标准了,给予我们的dns 解析添加了安全的支持 测试项目使用docker && docker-compose 运行 一张参考图 环境准备 d ...

  7. laravel获取参数

    测试url如下 http://127.0.0.1:8888/testApp/public/testInput?aaa=1&bbb=2 测试代码 Route::get('/testInput', ...

  8. file_get_contents failed to open stream: HTTP request failed(一个字符决定成败)

    file_get_contents 开始成功了.后来不知怎么的就报错,调试半天没发现什么问题. 结果.里面多了一个"空格"就报错.去掉空格就好了,你们仔细找找吧.

  9. npm使用入门(package.json)

    npm使用入门 crazygit 关注 2017.03.10 18:31 字数 1773 阅读 1617评论 0喜欢 10 NPM是什么 npm npm makes it easy for JavaS ...

  10. android 自定义radiogroup的两种方式

    这里先备注下 listview+radiobutton实现  浅显易懂 http://www.haolizi.net/example/view_3312.html 在radiogoup原生态源码的基础 ...