python爬虫抓取豆瓣电影

抓取电影名称以及评分，并排序（代码丑炸）

 import urllib

 import re

 from bs4 import BeautifulSoup

 def get(p):

     t=0

     k=1

     n=1

     book_score=[]

     book_a=[]

     while t<=p:

         print "正在获取第%d页..."%k

         k=k+1

         url="https://movie.douban.com/tag/%s?start=%d&type=T"%('%E5%8A%A8%E7%94%BB',t)

         res = urllib.urlopen(url)

         soup = BeautifulSoup(res.read(),"html.parser")

         book_div = soup.find(attrs={"class":"article"})

         book_score.extend(book_div.findAll(attrs={'class':'rating_nums'}))

         book_a.extend(book_div.findAll(attrs={"style":"font-size:12px;"}))

         t=t+20

     return book_score,book_a

 p=input("输入页数")

 a,b=get((p-1)*20)

 t=0

 y=[]

 x=[]

 for i in a:

     y.append((i.string))

 for i in b:

     x.append(i)

 u=min(len(x),len(y))

 for i in range(u):

     for j in range(i+1,u):

         if(y[i]<y[j]):

             t=y[j]

             y[j]=y[i]

             y[i]=t

             t=x[j]

             x[j]=x[i]

             x[i]=t

 for i in range(u):

     print y[i],x[i].string

爬取结果：

输入页数2
正在获取第1页...
正在获取第2页...
9.3 瓦力(台) / 太空奇兵·威E(港)
9.2 神隐少女(台) / Spirited Away
9.2 优兽大都会(港) / 动物方城市(台)
9.0 Tenkû no shiro Rapyuta / Laputa: Castle in the Sky
8.9 冲天救兵(港) / 天外奇迹(台)
8.8 狮子王3D
8.8 古鲁家族(港/台) / 克鲁德一家
8.8 萤火之社 / Hotarubi no mori e
8.8 呼啸山城 / 霍尔的移动城堡
8.8 海洋幻想曲(台) / Le Chant de la Mer
8.8 甲铁城的卡巴内里 / 甲铁城的尸人
8.8 魔法公主 / 幽灵少女
8.7 破坏王拉尔夫 / 破坏王大冒险
8.7 借物少女艾莉缇(台) / 借东西的小矮人亚莉亚蒂(港)
8.7 驯龙记(港)
8.7 玩转脑朋友(港) / 脑筋急转弯(台)
8.6 怪兽公司(港) / 怪物公司
8.6 大英雄联盟(港) / 大英雄天团(台)
8.5 卑鄙的我 / 坏蛋奖门人(港)
8.5 秒速五厘米 / 秒速5公分
8.5 我叫坂本我最屌
8.4 小羊肖恩大电影 / 超级无敌羊咩咩大电影之咩最劲(港)
8.4 月亮守护者
8.4 冰河世纪 / 冰原历险记
8.3 魔雪奇缘(港) / 冰雪大冒险
8.3 大圣归来 / 猴王
8.2 海底奇兵 / 寻找尼莫
8.1 卑鄙的我2 / 坏蛋奖门人2(港)
8.1 The Little Prince
8.0 怪兽电力公司2：怪兽大学 / 怪物公司2：怪物大学
8.0 熊猫阿宝2 / 阿宝正传2
7.9 与森林共舞(台) / 丛林之书
7.9 熊猫阿宝 / 阿宝正传
7.8 熊猫阿宝3 / 阿宝正传3
7.7 怪物的孩子(台) / Bakemono no Ko
7.5 尖叫旅社2(台) / 鬼灵精怪大酒店2(港)
7.3 小黄人 / 迷你兵团(港)
7.2 愤怒鸟大电影(港) / 愤怒鸟玩电影(台)
7.1 恐龙大时代(港) / 美好的恐龙世界

python爬虫抓取豆瓣电影的更多相关文章

Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序
抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统.谷歌浏览器目的:爬取豆瓣电影排行榜中电影的title.链接地址.图片.评价人数.评分等网址:https:// ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
Python爬虫-爬取豆瓣电影Top250
#!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import BeautifulSoup import re ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...

随机推荐

转：VC++获取屏幕大小第一篇像素大小GetSystemMetrics
VC++获取屏幕大小第一篇像素大小 GetSystemMetrics>和<VC++获取屏幕大小第二篇物理大小GetDeviceCaps 上>和<VC++获取屏幕大小第三篇物理 ...
什么是PWM、PFM及VFM
做电源设计的大都知道PWM和PFM这两个概念.而VFM模式是在大功率輸出時為PWM模式在輕負載輸出時變為PFM模式的一種混合開關模式.目前开关电源的控制技术主要就是这三种:1.脉冲宽度调制器(PWM) ...
Linux下配置QT环境
一.下载Qt源码包到本机,然后解压缩 #tar zxvf qt-x11-opensource-src-4.3.2.tar.gz -C /usr/local //将qt-x11-opensource-s ...
BZOJ1639: [Usaco2007 Mar]Monthly Expense 月度开支
1639: [Usaco2007 Mar]Monthly Expense 月度开支 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 529 Solved: ...
.OCX、.dll文件注册命令Regsvr32的使用
1.打开文件,打开需要注册的OCX文件或dll文件,2.然后根据需要进行OCX文件或DLL文件的注册和反注册 DLL.OCX注册方法--文件Regsvr32用法及情况介绍使用过activex的人都知 ...
Android中程序包的相关操作
//获取系统中已经安装的应用程序 List<PackageInfo> packageinfos=this.getPackageManager().getInstalledPackages( ...
SPOJ3267--D-query （树状数组离线操作）
题意查询区间 [l,r]内有多少个不同的数字先把所有询问按右端点进行排序,然后离线操作.如果该位置的数字已经出现过那么把前一个位置-1,当前位置+1.扫一遍输出. #include <cs ...
[LeetCode] Course Schedule I (207) & II (210) 解题思路
207. Course Schedule There are a total of n courses you have to take, labeled from 0 to n - 1. Some ...
[LeetCode] 237. Delete Node in a Linked List 解题思路
Write a function to delete a node (except the tail) in a singly linked list, given only access to th ...
powerdesigner 字段大小写转换\id 自增
转换:tools --> model options-->naming convention name code 自增: 在你所要设为自增型的键上(比如你的id)双击 ,弹出一个Colu ...

python爬虫抓取豆瓣电影

python爬虫抓取豆瓣电影的更多相关文章

随机推荐

热门专题