BeautifulSoup解析豆瓣即将上映的电影信息

工欲善其事，必先利其器，我们首先得了解beautifulsoup的使用，这其实是一个比较简单的东西

BeautifulSoup的基本使用语法规则

.find() 使用示例
soup.find('a')。那么会返回在soup包含的源代码中，遇到的第一个<a>...</a>标签内容对象。
soup.find('a', id='next')。那么会返回在soup包含的源代码中，遇到的第一个有属性为id，值为next的<a>对象，比如<a id="next">...</a>。(不只可以用id，大部分其他的属性都可以直接使用，比如src、name。 值得注意的是，class这个属性因为是Python关键字，不能直接使用，所以在BS里面，使用class_='...'进行代替 )
find返回的结果，依然可以继续使用find()或者find_all()方法。如果找不到指定的内容，find会返回None。
.find_all()使用示例
soup.find_all('a')。那么会返回在soup包含的源代码中，遇到的所有<a>...</a>标签内容的可迭代对象(我们可以把它看成一个 list 或者数组)。
soup.find_all('a', class_='next')。那么会返回在soup包含的源代码中，遇到的所有属性为class，值为next的<a>的可迭代对象，比如<a class="next">...</a>。(语法和find也一样，class也不能直接写)
find_all返回的“list”中的单个对象依然可以继续使用find()或者find_all()方法。如果找不到指定的内容，find_all会返回一个空的“list”。
获取元素的某个属性
soup['src]，这样我们就能取出soup对象的src属性了。如果该属性不存在，那么程序会报错。
获取元素中的所有文本
soup.text，假设soup对象为<div>你好<a>复联</a></div>，那么这个操作返回字符串是你好复联。

首先我们获得html的源码，然后保存到文件中，使用beautiful读出来解析：

import  requests

from bs4 import  BeautifulSoup

url="https://movie.douban.com/cinema/later/chengdu/"

douban_req = requests.get(url)

# print(douban_req.content.decode('utf-8'))  #输出获得的内容

#防止被服务器封掉ip，也减轻服务器压力，保存到本地

file_douban = open("douban.html","wb") # 写入文件

file_douban.write(douban_req.content)

file_douban.close()

# 以只读的方式打开文件

file_open=open("douban.html","rb")

html = file_open.read()

file_open.close()

#解析

soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup

print(soup.find("link",href="https://img3.doubanio.com/f/shire/52c9997d6d42db58eab418e976a14d5f3eff981e/css/douban.css"))

将所有的电影信息输出

#解析

soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup

all_movie=soup.find("div",id="showing-soon",class_="tab-bd") # 获得整个板块

for each_mobie in all_movie.find_all("div",class_="item"):

    print(each_mobie)

效果图：

接下来我们对每个具体电影进行切割分析

我们可以看到首先电影的简单信息都在<ul> </ul>中，因此根据find，和find_all来获得信息

import  requests

from bs4 import  BeautifulSoup

url="https://movie.douban.com/cinema/later/chengdu/"

douban_req = requests.get(url)

# print(douban_req.content.decode('utf-8'))  #输出获得的内容

#防止被服务器封掉ip，也减轻服务器压力，保存到本地

file_douban = open("douban.html","wb") # 写入文件

file_douban.write(douban_req.content)

file_douban.close()

# 以只读的方式打开文件

file_open=open("douban.html","rb")

html = file_open.read()

file_open.close()

#解析

soup = BeautifulSoup(html,"lxml") # 初始化BeautifulSoup

all_movie=soup.find("div",id="showing-soon",class_="tab-bd") # 获得整个板块

for each_mobie in all_movie.find_all("div",class_="item"):

    title=each_mobie.find("a",class_="")#标题名字

    ule_title = title["href"]

    ul_information = each_mobie.find_all("li",class_="dt")

    time =ul_information[0].text

    opera = ul_information[1].text

    country =ul_information[2].text

    people = each_mobie.find("li",class_="dt last").text

    trailer= each_mobie.find("a",class_="trailer_icon")

    print("电影链接:",title.text )

    print(ule_title)

    print(time)

    print(opera)

    print(people)

    if trailer is None:

        print("暂时没有预告片")

    else:

        print("预告片:",trailer["href"])

    print("")

效果：

自己也可以增加别的元素，如把海报照片保存下来等，其实都是同样的操作。

具体可参考大佬链接：https://www.jianshu.com/p/c64fe2a20bc9

如果数据保存成html或者csv格式：https://www.jianshu.com/p/011abdcee7e4

BeautifulSoup解析豆瓣即将上映的电影信息的更多相关文章

python3爬取豆瓣排名前250电影信息
#!/usr/bin/env python # -*- coding: utf-8 -*- # @File : doubanmovie.py # @Author: Anthony.waa # @Dat ...
003.[python学习] 简单抓取豆瓣网电影信息程序
声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: #!/us ...
Scrapy项目 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
通过使Scrapy框架,掌握如何使用Twisted异步网络框架来处理网络通讯的问题,进行数据挖掘和对web站点页面提取结构化数据,可以加快我们的下载速度,也可深入接触各种中间件接口,灵活的完成各种需求 ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
如何用Python在豆瓣中获取自己喜欢的TOP N电影信息
一.什么是 Python Python (蟒蛇)是一门简单易学. 优雅健壮. 功能强大. 面向对象的解释型脚本语言.具有 20+ 年发展历史, 成熟稳定. 具有丰富和强大的类库支持日常应用. 1989 ...
Python爬虫入门之如何在豆瓣中获取自己喜欢的TOP N电影信息
什么是爬虫按照一定规则自动的获取互联网上的信息(如何快速有效的利用互联网上的大量信息) 爬虫的应用搜索引擎(Google.百度.Bing等搜索引擎,辅助人们检索信息) 股票软件(爬取股票数据,帮助 ...
豆瓣电影信息爬取(json)
豆瓣电影信息爬取(json) # a = "hello world" # 字符串数据类型# b = {"name":"python"} # ...
Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
一.数据分析截图(weka数据分析截图 ) 本例实验,使用Weka 3.7对豆瓣电影网页上所罗列的上映电影信息,如:标题.主要信息(年份.国家.类型)和评分等的信息进行数据分析,Weka 3.7数据分 ...
requests结合xpath爬取豆瓣最新上映电影
# -*- coding: utf-8 -*- """ 豆瓣最新上映电影爬取 # ul = etree.tostring(ul, encoding="utf-8 ...

随机推荐

Head First设计模式装饰者模式
装饰器模式典型的例子:JAVA IO. 装饰器模式(Decorator Pattern)允许向一个现有的对象添加新的功能,同时又不改变其结构.这种类型的设计模式属于结构型模式,它是作为现有的类的一个 ...
分布式中 CAP BASE ACID 理解（转载）
概念理解(CAP,BASE, ACID) CAP CAP: Consistency, Availability, Partition-tolerance 强一致性(Consistency).系统在执 ...
MyEclipse导航代码第二弹，Java开发更便捷
[MyEclipse CI 2019.4.0安装包下载] 无论是在文件之间导航还是在文件中导航,都可以使用大量导航工具来加快工作流程.目前这些导航工具可在MyEclipse,CodeMix中使用. 单 ...
Vue处理跨域
Vue处理ajax跨域一般处理跨域有好几种方式,jsonp,document.domain, post Message...,今天我们主要来谈谈vue 通过代理方式来实现跨域安装 npm inst ...
react -搭建服务-2
export const DEFAULT_TITLE = "你好"; // export const PRODUCT_SERVER_URL = "http://10.10 ...
spring cloud禁止输出日志：ConfigClusterResolver : Resolving eureka endpoints via configuration
springcloud的注册中心客户端会每隔一定时间向注册中心服务端发送心跳,用此来判断注册中心服务端是否运行正常. 这样导致不断进行日志输出,不便查看正常的业务日志输出. c.n.d.s.r.aws ...
字典树Trie--实现敏感词过滤
序言 Trie树资料 https://blog.csdn.net/m0_37907797/article/details/103272967?utm_source=apphttps://blog.c ...
ASP net 上传整个文件夹
HTML部分 <%@PageLanguage="C#"AutoEventWireup="true"CodeBehind="index.aspx. ...
BZOJ 3173: [Tjoi2013]最长上升子序列 Splay
一眼切~ 重点是按照 $1$~$n$ 的顺序插入每一个数,这样的话就简单了. #include <cstdio> #include <algorithm> #define N ...
消息队列rabbitmq/kafka
12.1 rabbitMQ 1. 你了解的消息队列 rabbitmq是一个消息代理,它接收和转发消息,可以理解为是生活的邮局.你可以将邮件放在邮箱里,你可以确定有邮递员会发送邮件给收件人.概括:rab ...

BeautifulSoup解析豆瓣即将上映的电影信息

BeautifulSoup解析豆瓣即将上映的电影信息的更多相关文章

随机推荐

热门专题