初学爬虫,学习一下三方库的使用以及简单静态网页的分析。就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫。

网页分析

我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方,细化到他在哪个div里面,在哪个class里面,在哪个a标签里面。

从上面的图中可以看出,有很多信息。包括电影名、英文名、简介、评价、评价人数、相关信息

当我们打开控制台,可以看到电影的链接、图片的链接。

可以看到电影名在一个span里面、概况在一个p标签里面、评价在一个div里面的一个span中等等。

找到我们需要信息的位置,其实每一个电影项的信息都是在相同的标签里面,每一页都25个项,一共有10页,每一页的链接后缀https://movie.douban.com/top250?start=25只需要更改start后面的数字,我们可以用一个循环来解决爬取多页。

爬取流程

一、引入第三方库

我们需要访问目的网址,进行正则分析,操作excel、保存到数据库等等都需要用到三方库。

from bs4 import BeautifulSoup  #网页解析
import re #正则表表达式文字匹配
import urllib.request,urllib.error #指定url,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
import pymysql.cursors #连接mysql数据库

二、访问目标网址

我们通过request库进行访问目标网页,并返回网页的全部源代码以字符串的形式保存。

访问的时候我们需要查看网页是通过什么方式返回的请求。

我们发现是get请求,只要url和请求头就可以。如果是post请求,需要封装data数据。

def askURL(url):
head = { #伪装请求头,模拟浏览器访问
"User-Agent":" Mozilla / 5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.51Mobile Safari / 537.36"
}
request = urllib.request.Request(url,headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode('utf-8')
#print(html)
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html #返回爬到所有的html数据

三、正则匹配数据

我们获取到全部网页源代码后还需要匹配到我们自己需要的数据,在标签中把数据提取出来。

正则表达式:

findlink = re.compile(r'a href="(.*?)">')   #电影链接
findImageSrc = re.compile(r'<img.*src="(.*?)"',re.S) #re.S让换行符包含着其中 #图片链接
findTitle = re.compile(r'<span class="title">(.*)</span>') #标题
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>') #评分
findJudge = re.compile(r'<span>(\d*)人评价</span>') #人数
findInq = re.compile(r'<span class="inq">(.*)</span>') #概况
findBd = re.compile(r'<p class="">(.*?)</p>',re.S) #相关信息

提取匹配数据并保存到列表中。

def getdata(baseurl):
datalist = [] #2 解析数据
for i in range(0,10):
url = baseurl + str(i*25)
html = askURL(url)
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"):
#print(item)
data = []
item = str(item)
link = re.findall(findlink,item)[0]
data.append(link)
image = re.findall(findImageSrc,item)[0]
data.append(image) title = re.findall(findTitle,item)
if(len(title )==2):
ctitle = title[0]
data.append(ctitle)
otitle = title[1].replace("/","")
data.append(otitle.strip())
else:
data.append(title[0])
data.append(" ") rating = re.findall(findRating,item)[0] #添加评分
data.append(rating) judgeNum = re.findall(findJudge,item)[0] #添加评价人数
data.append(judgeNum) inq = re.findall(findInq,item)
if len(inq) != 0:
inq = inq[0].replace("。","")
data.append(inq)
else:
data.append("")
bd = re.findall(findBd,item)[0]
bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)
bd = re.sub('/'," ",bd)
bd = re.sub('\xa0', " ", bd)
bd = re.sub('\n', " ", bd)
data.append(bd.strip())
datalist.append(data)
print(datalist)
return datalist

四、保存数据到excel中

def saveData(datalist,savepath):
print("save...")
book = xlwt.Workbook(encoding="utf-8",style_compression=0)
sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息") #创建列
for i in range(0,8):
sheet.write(0,i,col[i])
for i in range(0,250): #保存数据
print("第%d条"%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j])
book.save(savepath)

五、保存到MYSQL中(附加,可以不用)

def conn(datalist):
conn = pymysql.connect(host='localhost',user='root',password='1767737316.',database='douban',cursorclass=pymysql.cursors.DictCursor)
cursor = conn.cursor() for i in range(0,250):
list = datalist[i]
data1 = tuple(list)
sql = 'insert into top250(电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,相关信息) values(%s,%s,%s,%s,%s,%s,%s,%s)'
# (2)准备数据
# (3)操作
try:
cursor.execute(sql, data1)
conn.commit()
except Exception as e:
print('插入数据失败', e)
conn.rollback() # 回滚
# 关闭游标
# cursor.close()
# 关闭连接
# conn.close()

六、程序入口

if __name__ == "__main__":
main()
print("爬取完毕!")
print("保存到数据库!")

完整源代码

# -*- coding = utf-8 -*-
# @Time : 2022/4/24 16:08
# @Author :王敬博
# @File : spider.py
# @Software: PyCharm
from bs4 import BeautifulSoup #网页解析
import re #正则表表达式文字匹配
import urllib.request,urllib.error #指定url,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
import pymysql.cursors findlink = re.compile(r'a href="(.*?)">') #电影链接
findImageSrc = re.compile(r'<img.*src="(.*?)"',re.S) #re.S让换行符包含着其中 #图片链接
findTitle = re.compile(r'<span class="title">(.*)</span>') #标题
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>') #评分
findJudge = re.compile(r'<span>(\d*)人评价</span>') #人数
findInq = re.compile(r'<span class="inq">(.*)</span>') #概况
findBd = re.compile(r'<p class="">(.*?)</p>',re.S) #相关信息 def main():
baseurl = "https://movie.douban.com/top250?start="
datalist = getdata(baseurl)
print(datalist)
#1 爬取网页
savepath = ".\\豆瓣电影Top250.xls"
saveData(datalist,savepath)
conn(datalist) def askURL(url):
head = {
"User-Agent":" Mozilla / 5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.51Mobile Safari / 537.36"
}
request = urllib.request.Request(url,headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode('utf-8')
#print(html)
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html #爬取网页
def getdata(baseurl):
datalist = [] #2 解析数据
for i in range(0,10):
url = baseurl + str(i*25)
html = askURL(url)
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"):
#print(item)
data = []
item = str(item)
link = re.findall(findlink,item)[0]
data.append(link)
image = re.findall(findImageSrc,item)[0]
data.append(image) title = re.findall(findTitle,item)
if(len(title )==2):
ctitle = title[0]
data.append(ctitle)
otitle = title[1].replace("/","")
data.append(otitle.strip())
else:
data.append(title[0])
data.append(" ") rating = re.findall(findRating,item)[0] #添加评分
data.append(rating) judgeNum = re.findall(findJudge,item)[0] #添加评价人数
data.append(judgeNum) inq = re.findall(findInq,item)
if len(inq) != 0:
inq = inq[0].replace("。","")
data.append(inq)
else:
data.append("")
bd = re.findall(findBd,item)[0]
bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)
bd = re.sub('/'," ",bd)
bd = re.sub('\xa0', " ", bd)
bd = re.sub('\n', " ", bd)
data.append(bd.strip())
datalist.append(data)
print(datalist)
return datalist #3 保存数据
def saveData(datalist,savepath):
print("save...")
book = xlwt.Workbook(encoding="utf-8",style_compression=0)
sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
for i in range(0,8):
sheet.write(0,i,col[i])
for i in range(0,250):
print("第%d条"%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j])
book.save(savepath) def conn(datalist):
conn = pymysql.connect(host='localhost',user='root',password='1767737316.',database='douban',cursorclass=pymysql.cursors.DictCursor)
cursor = conn.cursor() for i in range(0,250):
list = datalist[i]
data1 = tuple(list)
sql = 'insert into top250(电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,相关信息) values(%s,%s,%s,%s,%s,%s,%s,%s)'
# (2)准备数据
# (3)操作
try:
cursor.execute(sql, data1)
conn.commit()
except Exception as e:
print('插入数据失败', e)
conn.rollback() # 回滚
# 关闭游标
# cursor.close()
# 关闭连接
# conn.close() if __name__ == "__main__":
main()
print("爬取完毕!")
print("保存到数据库!")

效果截图

到这里就结束了,如果有问题可以问我,如果觉得对你有帮助的话可以点个赞哦!

python爬取豆瓣电影Top250(附完整源代码)的更多相关文章

  1. 零基础爬虫----python爬取豆瓣电影top250的信息(转)

    今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...

  2. Python 爬取豆瓣电影Top250排行榜,爬虫初试

    from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error # ...

  3. 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

    学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作 在pycharm中安装request库 ...

  4. Python爬取豆瓣电影top

    Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称  评分 ...

  5. python 爬虫&爬取豆瓣电影top250

    爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...

  6. Python爬虫入门:爬取豆瓣电影TOP250

    一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

  7. scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250

    scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

  8. python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库

    python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影 ...

  9. 利用Python爬取豆瓣电影

    目标:使用Python爬取豆瓣电影并保存MongoDB数据库中 我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...

随机推荐

  1. 前端规范(ES6BEMOOCSSSMACSS)

    前端规范 在实际开发中,由于团队成员编码习惯不一,技术层次不同,开发前定制并遵循一种代码规范能提高代码质量,增加开发效率. Javascript Javascript规范直接参考airbnb: ES6 ...

  2. 制作html5微信页面的经验总结。

    先罗列一下我遇到的问题: 用户可选择图片上传,但是图片比较大(基本都是2M以上),而且还得异步上传. 由于操作上比较多的设计都是隐性的例如滑动之类,需要手势动画作提示. 块内元素滚动时不流畅,或不能滚 ...

  3. gulp详细基础教程

    一.gulp简介 1.gulp是什么? gulp是前端开发过程中一种基于流的代码构建工具,是自动化项目的构建利器:它不仅能对网站资源进行优化,而且在开发过程中很多重复的任务能够使用正确的工具自动完成: ...

  4. 使用element UI el-upload组件实现视频文件上传及上传进度显示方法总结

    实现效果: 上传中: 上传完成: 代码: <el-form-item label="视频上传" prop="Video"> <!-- acti ...

  5. 关于json对象的使用小结!

    json是前后端数据交互的关键.后端提供的接口中的数据几乎都是通过json来表现的,所以,需要对这个json做一些小结: 这里要推进谷歌的插件Fehelp前端助手,这个可以清楚的看到json的数据: ...

  6. BlockingCollection实现生产者消费者

    很简单的代码,看注释 class Program { private static ManualResetEvent _manualResetEvent = new ManualResetEvent( ...

  7. python并发——生产者消费者信号量实现

    介绍 写扫描器的时候,需要让资产扫描结果一出来(生产者),另外一边就会开个线程去运行漏洞扫描(消费者). 但是又不能让结果没出来,另外一边消费者就开始干活了. 代码 # *coding:UTF-8 * ...

  8. centos7 装机后的基本配置

    安装完centos7.3后,做一些基本的操作 下面是我的环境的配置,你们可以根据自己的环境搭配相应的配置.修改下就可以了.基本操作一:主机名 centos7有一个新的修改主机名的命令hostnatct ...

  9. java连接mysql8.0.28数据库实例

    首先说明,由于是8版本的数据库,所以配置类的写法上与5版本的有所区别,需要注意,同时用idea或eclipse时需要导入jar包,jar包的下载链接: https://dev.mysql.com/ge ...

  10. 安卓记账本开发学习day5之版本兼容问题

    安卓5.0以上版本想要隐藏DatePicker头布局的写法比较复杂,需要一层一层隐藏 int headerId = getContext().getResources().getIdentifier( ...