概述：

爬取豆瓣影评数据步骤：

1、获取网页请求

2、解析获取的网页

3、提速数据

4、保存文件

源代码：

# 1、导入需要的库

import urllib.request

from bs4 import BeautifulSoup

# 随机数的库

import random

# 时间库

import time

# 表格库

import csv

# 2、分多个浏览器访问豆瓣网，防止访问多页时被拒绝

# 每个浏览器在请求数据的时候，请求头是不一样

# 计算机命名规则：驼峰命名法

# url：传值过来的访问地址

def getRequest(url):

    # 谷歌浏览器

    header1 = {

        "Host":"movie.douban.com",

        "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"

    }

    # 火狐浏览器

    header2 = {

        "Host": "movie.douban.com",

        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:73.0) Gecko/20100101 Firefox/73.0"

    }

    # 将浏览器装入列表里

    list = [header1,header2]

    # 随机取一个请求头  len(list)-1：列表长度-1

    index = random.randint(0,len(list)-1)

    # 随机用一个请求头，开始访问地址

    req = urllib.request.Request(url=url,headers=list[index])

    # 返回结果

    return req

# 封装函数，爬取数据

def getData(url,commentAll):

    # 获取处理后的请求

    req = getRequest(url)

    # 打开网址

    html = urllib.request.urlopen(req)

    # 读取数据(data得到所有数据)

    data = html.read()

    # 输出爬取到的所有数据，进制形式显示

    # print(data)

    # 定义soup对象，解析网页

    soup = BeautifulSoup(data,"html.parser")

    # 找到装有所有评论的id名为comments的div

    # ["数据"]  数组里只有一个元素----数据

    comments = soup.select("#comments")[0]

    # print(comments)

    # 读取到每一条评论，div的class名为comment-item

    items = comments.select(".comment-item")

    # print(items)

    # 循环遍历每一条评论

    for i in items:

        # 找到装着用户名和星级的span标签，class名为comment-info

        info = i.select(".comment-info")[0]

        # print(info)

        # 读出用户名的a标签里面的字符串用户名 [<a></a>]

        # author = info.select("a")[0].string  数据在列表里

        author = info.find("a").string

        # print(author)

        # 取星级，找到装着星级的span标签，读取title值

        # ["看过"，星级，时间]

        star = info.select("span")[1]["title"]

        # print(star)

        # 取评论，找到class名为short的p标签

        short = i.select(".short")[0].string

        # print(short)

        # 将 用户名、星级、评论 装入在字典里面

        talk = {"author":author,"star":star,"short":short}

        # print(talk)

        # 将字典类型的数据，加到列表里面

        commentAll.append(talk)

    # 返回整个列表

    return commentAll

# 封装函数，把数据装入表格中

def writeInto(commentAll):

    # 打开表格  as从命名 file

    # 参数1：表格名称

    # 参数2："a+"追加模式  "w"写入模式   "r"读取模式

    # w：writer   r：read  a：append

    # wb二进制，不带b就是文本

    # 参数3：数据格式为utf-8

    # 参数4：newline 新行，空行

    with open("douban.csv","a+",encoding="utf-8",newline="") as file:

        # 向表格写入数据

        writer = csv.writer(file)

        # 数据在commentAll列表，循环遍历列表，读取数据

        for i in commentAll:

            # 读取每一个字段  用户名、星级、评论

            info = [i["author"],i["star"],i["short"]]

            # 把数据写入表格

            writer.writerow(info)

        # 关闭表格

        file.close()

# 函数的入口

# 直接输入main，有提示

if __name__ == '__main__':

    # 初始化一个空列表,将得到的所有数据

    commentAll = []

    # range()产生序列 0.1.2,爬取3页

    for i in range(0,3):

        # 爬取的网页地址

        # limit=20 每一页读取20条数据

        # start = 80  从第几条读取数据 20-39  40-59  60-79 80-99

        url = "https://movie.douban.com/subject/25931446/comments?start=%d&limit=20&sort=new_score&status=P"%(i*20)

        # 调用函数，爬取数据

        getData(url,commentAll)

        # 每爬取一个页面数据，休息10秒，防止被封号

        time.sleep(10)

    # 调用函数，爬取完数据，装入表格

    writeInto(commentAll)

    # 将表格用 记事本 打开，另存为ANSI格式

    # 如果你要操作数据，还要转回utf-8

效果图：

作者

1、作者个人网站

2、作者CSDN

3、作者博客园

4、作者简书

【python数据挖掘】爬取豆瓣影评数据的更多相关文章

Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统.谷歌浏览器目的:爬取豆瓣电影排行榜中电影的title.链接地址.图片.评价人数.评分等网址:https:// ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
Python3.5爬取豆瓣电视剧数据并且同步到mysql中
#!/usr/local/bin/python # -*- coding: utf-8 -*- # Python: 3.5 # Author: zhenghai.zhang@xxx.com # Pro ...
[超详细] Python3爬取豆瓣影评、去停用词、词云图、评论关键词绘图处理
爬取豆瓣电影<大侦探皮卡丘>的影评,并做词云图和关键词绘图第一步:找到评论的网页url.https://movie.douban.com/subject/26835471/comments ...

随机推荐

Liunx创建到部署ASP.NET Core项目从零开始-----使用Centos7
一.搭建环境 1..注册Microsoft密钥和源执行命令:sudo rpm -Uvh https://packages.microsoft.com/config/centos/7/packages ...
python下的selenium和chrome driver的安装
selenium是一款支持多种语言.多种浏览器.多个平台的开源web自动化测试软件,测试人员可用python.java等语言编写自动化脚本,使得浏览器可以完全按照你的指令运行,大大节省了测试人员用鼠标 ...
Windows 10搭建Apache2.4 + PHP7 + MySQL环境
一.准备 1.资源 Apache https://www.apachelounge.com/download/ PHP http://windows.php.net/download#php-7.0 ...
虚拟机 ubuntu系统忘记密码如何进入
重启虚拟机按住shift键会出现下面的界面按住‘e’进入下面的界面往下翻更改红框勾到的字符串为: rw init=/bin/bash 然后按F10进行引导然后输入 :”passwd” ...
按照相应的格式获取系统时间并将其转化为SQL中匹配的(date)时间格式
在获取时间时需要对时间格式进行设置,此时就需要用到SimpleDateFormat 类 SimpleDateFormat df = new SimpleDateFormat("yyyy-MM ...
Codeforces_711_A
http://codeforces.com/problemset/problem/711/A 忙了一天没做题,做到水题,我这水平也只能做水题了= = ! #include<iostream> ...
P4174 [NOI2006]最大获利 (最大权闭合子图)
P4174 [NOI2006]最大获利 (最大权闭合子图) 题目链接题意建\(i\)站台需要\(p_i\)的花费,当\(A_i,B_i\)都建立时获得\(C_i\)的利润,求最大的利润思路最大 ...
HDU6446 Tree and Permutation(树、推公式)
题意: 给一棵N个点的树,对应于一个长为N的全排列,对于排列的每个相邻数字a和b,他们的贡献是对应树上顶点a和b的路径长,求所有排列的贡献和思路: 对每一条边,边左边有x个点,右边有y个点,x+y= ...
题解【Luogu6022 快乐水】
\[ Preface \] 大概在半年前出过这道((( 然后当天读完这题,把自己写的 std 改了一下 ll 和特判信息交上去就 A 了. 捡了个大便宜. \[ Description \] 你一开始 ...
oracle安装异常汇总
. 运行 ./runInstaller 安装界面出现乱码问题解决方案: export NLS_LANG=AMERICAN_AMERICA.UTF8 export LC_ALL=C .运行 ./run ...

【python数据挖掘】爬取豆瓣影评数据

概述：

源代码：

效果图：

作者

【python数据挖掘】爬取豆瓣影评数据的更多相关文章

随机推荐

热门专题