代码很简单,一看就懂. (没有模拟点击,所以都是未展开的) 地址: https://movie.douban.com/subject/26266893/reviews?rating=&start=0这里start就是后面参数变化的地方.一页20条,所以循环的话 每次start加20就好. 代码: import requests from bs4 import BeautifulSoup page=0 # url = 'https://movie.douban.com/subject/262668…
很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景. 一年一度的虐汪节,是继续蹲在角落默默吃狗粮还是主动出击告别单身汪加入散狗粮的行列就看你啦,七夕送什么才有心意,程序猿可以试试用一种特别的方式来表达你对女神的心意.有一个创意是把她过往发的微博整理后用词云展示出来.本文教你怎么用Python快速创建出有心意词云,即使是Python小白也能分分钟做出来. 准备工作 本环境基于Python…
一.起因: 昨天在简书上看到这么一篇文章<中国的父母,大都有毛病>,看完之后个人是比较认同作者的观点. 不过,翻了下评论,发现评论区争议颇大,基本两极化.好奇,想看看整体的评论是个什么样,就写个爬虫,做了词云. 二.怎么做: ① 观察页面,找到获取评论的请求,查看评论数据样式,写爬虫 ② 用 jieba 模块,将爬取的评论做分词处理 ③ 用 wordcloud 模块,生成词云 三.代码如下: #!/usr/bin/env python3 # -*- coding: utf-8 -*- impo…
在之前的文章中,我们获得了豆瓣爬取的短评内容,汇总到了一个文件中,但是,没有被利用起来的数据是没有意义的. 前文提到,有一篇微信推文的关于词云制作的一个实践记录,准备照此试验一下. 思路分析 读文件 利用with open() as...将文件读进来.这里需要注意文件内容的大小. 分词 由于获取的是大量的短评文字,而制作词云需要的是各种词语,有了词,才能谈词云,所以目前第一步需求的就是讲短评内容拆分成一个个的中文词汇. 这里就用到了我所听过的一个库jieba,可以将中文语句拆解成一个个的词汇.这…
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件.然后对影评进行分词分析,使用词云生成树人格鲁特的形象照片. 2. 代码实现 此部分主要解释Python爬虫部分及使用词云生成图像的代码 Python爬虫 首先获取需要爬取的网页地址,然后通过requests.get()方式去获取网页,代码如下: # 获取网页 def getHtml(url): tr…
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random import urllib import urllib2 import MySQLdb # 爬取豆瓣评论 class Douban: # 构造函数 def __init__(self, url, name): # 采集的地址 #self.url = 'https://book.douban.com/su…
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中 我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE 有3个字段是非常重要的: 1.sort=T 2.range=0,10 3.tag…
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称  评分 小评 结果显示 使用xpath解析数据 #python 使用xpath解析数据 #查询豆瓣top250电影 #获取信息:名称 评分 短语 #关于xpath语法:https://www.w3school.com.cn/xpath/xpath_syntax.asp from lxml import e…
本文的完整源码在git位置:https://github.com/OceanBBBBbb/douban-ml 爬取豆瓣影评 爬豆瓣的影评比较简单,豆瓣没有做限制,甚至你都不用登陆就可以看全部,我这里用的bs4和urllib获取的页面信息: # 获取页面 def get_html(url): head = {} head[ 'User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, lik…
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图 第一步,准备数据 需要登录豆瓣网站才能够获得短评文本数据https://movie.douban.com/subject/1291561/comments 首先获取cookies,使用爬虫强大的firefox浏览器 将cookies数据复制到cookies.txt文件当中备用, 2.第二步,编写爬虫代码 #codin…