前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者：404notfound

一直对爬虫感兴趣，学了python后正好看到某篇关于爬取的文章，就心血来潮实战一把吧。当然如果你学的不好，建议可以先去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！

实现目标：抓取豆瓣电影top250，并输出到文件中

1.找到对应的url：https://movie.douban.com/top250

2.进行页面元素的抓取：

3.编写代码：

　　第一步：实现抓取第一个页面；

　　第二步：将其他页面的信息也抓取到；

　　第三步：输出到文件；

4.代码：

import sys
import io
from selenium import webdriver

#改变标准输出，解决输出到文件时遇到的编码问题。
# 如果输出到控制行，不要加这一行
# sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

class DouBan:
    #初始化driver对象，打开页面，最大化页面
    def __init__(self):
        self.driver=webdriver.Chrome()
        self.driver.get('https://movie.douban.com/top250')
        self.driver.maximize_window()

    # 分页判断，默认显示第一页，输出第一页后，点击下一页按钮，再输出。总共10页
    def get_content(self):
        for page in range(1,10):
            #获取元素定位： 对当前页面中 单个电影元素进行定位
            movie = self.driver.find_elements_by_class_name('info')

           # for循环：循环输出当前页面中单部影片的电影信息（text输出元素的文本内容）；
            i = 1
            for item in movie:
                #输出格式： 电影序号 +  电影介绍  +换行展示
                print(str(i+ page*25-25)+":　"+item.text+'')
                print("")
                i+=1

            # 判断：如果当前页面码小于10，则查找页码的元素，并点击页码。否则不用进行查找，因为最多点击第10页；
            # 获取底部的页签元素（采用了format格式输出，根据当前页面做加1操作）
            if page<10:
                page_but = self.driver.find_element_by_xpath('//div[@class="paginator"]//a[contains(text(),{0})]'.format(page + 1))
                page_but.click()
            else:
                pass

if __name__ == '__main__':
    DouBan().get_content()

5.结果：

1）控制台输出部分截图：

2）如果想要输出到文件，执行命令并重定向到TXT文件中：

python xxxx.py >d:/out_test.txt

6.遇到的问题：

1.多页时，for循环的数字设置，来回试几次就可以了，不难。

2.输出到文件中

真的很简单，不知道你们都懂了没？如果没懂可以去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！有问题留言问我吧~

Python抓取豆瓣电影top250!的更多相关文章

Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250: import re import requests def main(url): global num headers = {"Use ...
python爬取豆瓣电影Top250（附完整源代码）
初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
Python 爬取豆瓣电影Top250排行榜，爬虫初试
from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error # ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...

随机推荐

Chrome Extension 小试牛刀
自从有了Chrome以后,就喜欢上了这个浏览器,从此IE 886了. 以前作爬虫,做登录,做数据采集,做数据处理等各种功能,后来H5出来后,出现了,除了Session/Cookie 出了Local S ...
Git常用命令（基础）
Workspace:工作区 Index / Stage:暂存区 Repository:仓库区(或本地仓库) Remote:远程仓库一.新建代码库 # 在当前目录新建一个Git代码库 $ git in ...
netty源码解析(4.0)-29 Future模式的实现
Future模式是一个重要的异步并发模式,在JDK有实现.但JDK实现的Future模式功能比较简单,使用起来比较复杂.Netty在JDK Future基础上,加强了Future的能力,具体体现在: ...
自学python的高效学习方法【python秘籍】
随着互联网的发展,数据科学概念的普及,Python火得一塌糊涂,为此很多小伙伴想学这门语言,苦于没有正确的学习方法,大部分都放弃了,所以我想总结下经验来帮助大家高效学完python技术!第一.首先学习 ...
前端与算法 leetcode 7. 整数反转
目录 # 前端与算法 leetcode 7. 整数反转题目描述概要提示解析解法算法传入测试用例的运行结果执行结果 GitHub仓库 # 前端与算法 leetcode 7. 整数反转题 ...
【algo&ds】7.最短路径问题
单源最短路径问题:从某固定源点出发,求其到所有其他顶点的最短路径 (有向)无权图:BFS (有向)有权图:Dijkstra算法多源最短路径问题:求任意两顶点间的最短路径直接将单源最短路算法调用|V ...
理解Redis的反应堆模式
1. Redis的网络模型 Redis基于Reactor模式(反应堆模式)开发了自己的网络模型,形成了一个完备的基于IO复用的事件驱动服务器,但是不由得浮现几个问题: 为什么要使用Reactor模式呢 ...
Pod镜像拉取策略imagePullPolicy
默认值是IfNotPresent Always 总是拉取: 首先获取仓库镜像信息, 如果仓库中的镜像与本地不同,那么仓库中的镜像会被拉取并覆盖本地. 如果仓库中的镜像与本地一致,那么不会拉取镜像. 如 ...
AntDeploy一键发布netcore3.0Windows服务到远程服务器
*:first-child { margin-top: 0 !important; } .markdown-body>*:last-child { margin-bottom: 0 !impor ...
Java工作流系统-驰骋BPM工作流引擎的工作模式
关键字:驰骋工作流引擎流程引擎工作模式流程中间件工作模式工作流快速开发平台工作流流设计业务流程管理 asp.net 开源工作流bpm工作流系统 java工作流主流框架自定义工 ...

Python抓取豆瓣电影top250!

前言

Python抓取豆瓣电影top250!的更多相关文章

随机推荐

热门专题