BeautifulSoup解析豆瓣即将上映的电影信息
工欲善其事,必先利其器,我们首先得了解beautifulsoup的使用,这其实是一个比较简单的东西
BeautifulSoup的基本使用语法规则
.find()
使用示例
soup.find('a')
。那么会返回在soup包含的源代码中,遇到的第一个<a>...</a>标签内容对象。
soup.find('a', id='next')
。那么会返回在soup包含的源代码中,遇到的第一个有属性为id,值为next的<a>对象,比如<a id="next">...</a>。(不只可以用id,大部分其他的属性都可以直接使用,比如src、name。 值得注意的是,class这个属性因为是Python关键字,不能直接使用,所以在BS里面,使用class_='...'进行代替 )
find
返回的结果,依然可以继续使用find()
或者find_all()
方法。如果找不到指定的内容,find会返回None
。.find_all()
使用示例
soup.find_all('a')
。那么会返回在soup包含的源代码中,遇到的所有<a>...</a>标签内容的可迭代对象(我们可以把它看成一个 list 或者数组)。
soup.find_all('a', class_='next')
。那么会返回在soup包含的源代码中,遇到的所有属性为class,值为next的<a>的 可迭代对象,比如<a class="next">...</a>。(语法和find也一样,class也不能直接写)
find_all
返回的“list”中的单个对象 依然可以继续使用find()
或者find_all()
方法。如果找不到指定的内容,find_all会返回一个空的“list”。获取元素的某个属性
soup['src]
,这样我们就能取出soup对象的src属性了。如果该属性不存在,那么程序会报错。获取元素中的所有文本
soup.text
,假设soup对象为<div>你好<a>复联</a></div>
,那么这个操作返回字符串是你好复联
。
首先我们获得html的源码,然后保存到文件中,使用beautiful读出来解析:
import requests
from bs4 import BeautifulSoup
url="https://movie.douban.com/cinema/later/chengdu/"
douban_req = requests.get(url)
# print(douban_req.content.decode('utf-8')) #输出获得的内容
#防止被服务器封掉ip,也减轻服务器压力,保存到本地 file_douban = open("douban.html","wb") # 写入文件
file_douban.write(douban_req.content)
file_douban.close()
# 以只读的方式打开文件
file_open=open("douban.html","rb")
html = file_open.read()
file_open.close()
#解析
soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup
print(soup.find("link",href="https://img3.doubanio.com/f/shire/52c9997d6d42db58eab418e976a14d5f3eff981e/css/douban.css"))
将所有的电影信息输出
#解析
soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup
all_movie=soup.find("div",id="showing-soon",class_="tab-bd") # 获得整个板块
for each_mobie in all_movie.find_all("div",class_="item"):
print(each_mobie)
效果图:
接下来我们对每个具体电影进行切割分析
我们可以看到首先电影的简单信息都在<ul> </ul>中,因此根据find,和find_all来获得信息
import requests
from bs4 import BeautifulSoup
url="https://movie.douban.com/cinema/later/chengdu/"
douban_req = requests.get(url)
# print(douban_req.content.decode('utf-8')) #输出获得的内容
#防止被服务器封掉ip,也减轻服务器压力,保存到本地 file_douban = open("douban.html","wb") # 写入文件
file_douban.write(douban_req.content)
file_douban.close()
# 以只读的方式打开文件
file_open=open("douban.html","rb")
html = file_open.read()
file_open.close()
#解析
soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup
all_movie=soup.find("div",id="showing-soon",class_="tab-bd") # 获得整个板块
for each_mobie in all_movie.find_all("div",class_="item"):
title=each_mobie.find("a",class_="")#标题名字
ule_title = title["href"]
ul_information = each_mobie.find_all("li",class_="dt")
time =ul_information[0].text
opera = ul_information[1].text
country =ul_information[2].text
people = each_mobie.find("li",class_="dt last").text
trailer= each_mobie.find("a",class_="trailer_icon")
print("电影链接:",title.text )
print(ule_title)
print(time)
print(opera)
print(people)
if trailer is None:
print("暂时没有预告片")
else:
print("预告片:",trailer["href"])
print("")
效果:
自己也可以增加别的元素,如把海报照片保存下来等,其实都是同样的操作。
具体可参考大佬链接:https://www.jianshu.com/p/c64fe2a20bc9
如果数据保存成html或者csv格式:https://www.jianshu.com/p/011abdcee7e4
BeautifulSoup解析豆瓣即将上映的电影信息的更多相关文章
- python3爬取豆瓣排名前250电影信息
#!/usr/bin/env python # -*- coding: utf-8 -*- # @File : doubanmovie.py # @Author: Anthony.waa # @Dat ...
- 003.[python学习] 简单抓取豆瓣网电影信息程序
声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: #!/us ...
- Scrapy项目 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
通过使Scrapy框架,掌握如何使用Twisted异步网络框架来处理网络通讯的问题,进行数据挖掘和对web站点页面提取结构化数据,可以加快我们的下载速度,也可深入接触各种中间件接口,灵活的完成各种需求 ...
- python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...
- 如何用Python在豆瓣中获取自己喜欢的TOP N电影信息
一.什么是 Python Python (蟒蛇)是一门简单易学. 优雅健壮. 功能强大. 面向对象的解释型脚本语言.具有 20+ 年发展历史, 成熟稳定. 具有丰富和强大的类库支持日常应用. 1989 ...
- Python爬虫入门 之 如何在豆瓣中获取自己喜欢的TOP N电影信息
什么是爬虫 按照一定规则自动的获取互联网上的信息(如何快速有效的利用互联网上的大量信息) 爬虫的应用 搜索引擎(Google.百度.Bing等搜索引擎,辅助人们检索信息) 股票软件(爬取股票数据,帮助 ...
- 豆瓣电影信息爬取(json)
豆瓣电影信息爬取(json) # a = "hello world" # 字符串数据类型# b = {"name":"python"} # ...
- Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
一.数据分析截图(weka数据分析截图 ) 本例实验,使用Weka 3.7对豆瓣电影网页上所罗列的上映电影信息,如:标题.主要信息(年份.国家.类型)和评分等的信息进行数据分析,Weka 3.7数据分 ...
- requests结合xpath爬取豆瓣最新上映电影
# -*- coding: utf-8 -*- """ 豆瓣最新上映电影爬取 # ul = etree.tostring(ul, encoding="utf-8 ...
随机推荐
- python -- 数据可视化(二)
python -- 数据可视化 一.Matplotlib 绘图 1.图形对象(图形窗口) mp.figure(窗口名称, figsize=窗口大小, dpi=分辨率, facecolor=颜色) 如果 ...
- Python 3标准库 第五章 数学运算
第五章数学运算-----------------------上下文解释:编程时,我们一般也是先给程序定义一些前提(环境变量.描述环境变化的全局变量等),这些“前提”就是上文,然后再编写各功能模块的代码 ...
- 写在centos7 最小化安装之后
1.最小化安装之后首先解决联网问题(https://lintut.com/how-to-setup-network-after-rhelcentos-7-minimal-installation/) ...
- 【leetcode】1247. Minimum Swaps to Make Strings Equal
题目如下: You are given two strings s1 and s2 of equal length consisting of letters "x" and &q ...
- 面试题Redis最常被问到知识点总结
1.什么是redis? redis是一个高性能的key-value数据库,它是完全开源免费的,而且redis是一个NOSQL类型数据库,是为了解决高并发.高扩展,大数据存储等一系列的问题而产生的数据库 ...
- [Linux系统] (7)Keepalived高可用
一.解决LVS server单点故障 如果集群中只有一台LVS server提供数据包分发服务,如果宕机,则会导致所有的业务重点,因为所有的请求都无法到达后面的Real server. 此时我们可以采 ...
- jquery focus()方法 语法
jquery focus()方法 语法 作用:当元素获得焦点时,发生 focus 事件.大理石平台价格 触发focus事件语法:$(selector).focus() 将函数绑定到focus事件语法: ...
- 【PKUSC2019】线弦图【计数】【树形DP】【分治FFT】
Description 定义线图为把无向图的边变成点,新图中点与点之间右边当且仅当它们对应的边在原图中有公共点,这样得到的图. 定义弦图为不存在一个长度大于3的纯环,纯环的定义是在环上任取两个不相邻的 ...
- idea2018.3.6安装与破解教程(亲测可用、破解到2100年)
最近,帮室友进行idea安装,之前自己安装借鉴的博客已404,在网上找了好几个都无效,想着总结一份备用. 此博客是又找了一台电脑,边安装边写的. 目录 (已安装好的,可以直接看idea2018.3.6 ...
- CodeForces 538F A Heap of Heaps
题意 给定一个长度为n的数组A,将它变为一颗k叉树(1 <= k <= n - 1)(堆的形式编号). 问对于每一个k,有多少个节点小于它的父节点. 解题 显然,最初的想法是暴力.因为树的 ...