Python爬虫爬取1905电影网视频电影并存储到mysql数据库

数据获取方式：微信搜索关注【靠谱杨阅读人生】回复【电影】。
整理不易，资源付费，谢谢支持！

代码：

  1 import time

  2 import traceback

  3 import requests

  4 from lxml import etree

  5 import re

  6 from bs4 import BeautifulSoup

  7 from lxml.html.diff import end_tag

  8 import json

  9 import pymysql

 10

 11 def get1905():

 12     url='https://www.1905.com/vod/list/n_1/o3p1.html'

 13     headers={

 14         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'

 15     }

 16     templist=[]

 17     dataRes=[]

 18     #最热

 19     #1905电影网一共有99页，每页24部电影 for1-100 输出1-99页

 20     for i in range(1,100):

 21         url_1='https://www.1905.com/vod/list/n_1/o3p'

 22         auto=str(i)

 23         url_2='.html'

 24         url=url_1+auto+url_2

 25         print(url)

 26         response = requests.get(url, headers)

 27         response.encoding = 'utf-8'

 28         page_text = response.text

 29         soup = BeautifulSoup(page_text, 'lxml')

 30         # print(page_text)

 31         movie_all = soup.find_all('div', class_="grid-2x grid-3x-md grid-6x-sm")

 32         for single in movie_all:

 33             part_html=str(single)

 34             part_soup=BeautifulSoup(part_html,'lxml')

 35             #添加名字

 36             name=part_soup.find('a')['title']

 37             templist.append(name)

 38             # print(name)

 39             #添加评分

 40             try:

 41                 score=part_soup.find('i').text

 42             except:

 43                 if(len(score)==0):

 44                     score="1905暂无评分"

 45             templist.append(score)

 46             # print(score)

 47             #添加path

 48             path=part_soup.find('a',class_="pic-pack-outer")['href']

 49             templist.append(path)

 50             # print(path)

 51             #添加state

 52             state="免费"

 53             templist.append(state)

 54             print(templist)

 55             dataRes.append(templist)

 56             templist=[]

 57         print(len(dataRes))

 58     # print(movie_all)

 59

 60     #---------------------------------------------

 61     #好评

 62     templist = []

 63     # 1905电影网一共有99页，每页24部电影 for1-100 输出1-99页

 64     for i in range(1, 100):

 65         url_1 = 'https://www.1905.com/vod/list/n_1/o4p'

 66         auto = str(i)

 67         url_2 = '.html'

 68         url = url_1 + auto + url_2

 69         print(url)

 70         response = requests.get(url, headers)

 71         response.encoding = 'utf-8'

 72         page_text = response.text

 73         soup = BeautifulSoup(page_text, 'lxml')

 74         # print(page_text)

 75         movie_all = soup.find_all('div', class_="grid-2x grid-3x-md grid-6x-sm")

 76         for single in movie_all:

 77             part_html = str(single)

 78             part_soup = BeautifulSoup(part_html, 'lxml')

 79             # 添加名字

 80             name = part_soup.find('a')['title']

 81             templist.append(name)

 82             # print(name)

 83             # 添加评分

 84             try:

 85                 score = part_soup.find('i').text

 86             except:

 87                 if (len(score) == 0):

 88                     score = "1905暂无评分"

 89             templist.append(score)

 90             # print(score)

 91             # 添加path

 92             path = part_soup.find('a', class_="pic-pack-outer")['href']

 93             templist.append(path)

 94             # print(path)

 95             # 添加state

 96             state = "免费"

 97             templist.append(state)

 98             print(templist)

 99             dataRes.append(templist)

100             templist = []

101         print(len(dataRes))

102         #---------------------------------------------

103         # 最新

104         templist = []

105         # 1905电影网一共有99页，每页24部电影 for1-100 输出1-99页

106     for i in range(1, 100):

107         url_1 = 'https://www.1905.com/vod/list/n_1/o1p'

108         auto = str(i)

109         url_2 = '.html'

110         url = url_1 + auto + url_2

111         print(url)

112         response = requests.get(url, headers)

113         response.encoding = 'utf-8'

114         page_text = response.text

115         soup = BeautifulSoup(page_text, 'lxml')

116         # print(page_text)

117         movie_all = soup.find_all('div', class_="grid-2x grid-3x-md grid-6x-sm")

118         for single in movie_all:

119             part_html = str(single)

120             part_soup = BeautifulSoup(part_html, 'lxml')

121             # 添加名字

122             name = part_soup.find('a')['title']

123             templist.append(name)

124             # print(name)

125             # 添加评分

126             try:

127                 score = part_soup.find('i').text

128             except:

129                 if (len(score) == 0):

130                     score = "1905暂无评分"

131             templist.append(score)

132             # print(score)

133             # 添加path

134             path = part_soup.find('a', class_="pic-pack-outer")['href']

135             templist.append(path)

136             # print(path)

137             # 添加state

138             state = "免费"

139             templist.append(state)

140             print(templist)

141             dataRes.append(templist)

142             templist = []

143         print(len(dataRes))

144     #去重

145     old_list = dataRes

146     new_list = []

147     for i in old_list:

148         if i not in new_list:

149             new_list.append(i)

150             print(len(new_list))

151     print("总数:     "+str(len(new_list)))

152     return new_list

153 def insert_1905():

154     cursor = None

155     conn = None

156     try:

157         count = 0

158         list = get1905()

159         print(f"{time.asctime()}开始插入1905电影数据")

160         conn, cursor = get_conn()

161         sql = "insert into movie1905 (id,name,score,path,state) values(%s,%s,%s,%s,%s)"

162         for item in list:

163             print(item)

164             # 异常捕获，防止数据库主键冲突

165             try:

166                 cursor.execute(sql, [0, item[0], item[1], item[2], item[3]])

167             except pymysql.err.IntegrityError:

168                 print("重复！跳过！")

169         conn.commit()  # 提交事务 update delete insert操作

170         print(f"{time.asctime()}插入1905电影数据完毕")

171     except:

172         traceback.print_exc()

173     finally:

174         close_conn(conn, cursor)

175     return;

176

177 #连接数据库  获取游标

178 def get_conn():

179     """

180     :return: 连接，游标

181     """

182     # 创建连接

183     conn = pymysql.connect(host="127.0.0.1",

184                     user="root",

185                     password="000429",

186                     db="movierankings",

187                     charset="utf8")

188     # 创建游标

189     cursor = conn.cursor()  # 执行完毕返回的结果集默认以元组显示

190     if ((conn != None) & (cursor != None)):

191         print("数据库连接成功！游标创建成功！")

192     else:

193         print("数据库连接失败！")

194     return conn, cursor

195 #关闭数据库连接和游标

196 def close_conn(conn, cursor):

197     if cursor:

198         cursor.close()

199     if conn:

200         conn.close()

201     return 1

202

203 if __name__ == '__main__':

204     # get1905()

205     insert_1905()

运行截图：

数据库

Python爬虫爬取1905电影网视频电影并存储到mysql数据库的更多相关文章

Python爬虫爬取BT之家找电影资源
一.写在前面最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...
如何利用python爬虫爬取爱奇艺VIP电影？
环境:windows python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成需要的python模块: ##第一 ...
Python爬虫---爬取抖音短视频
目录前言抖音爬虫制作选定网页分析网页提取id构造网址拼接数据包链接获取视频地址下载视频全部代码实现结果待解决的问题前言最近一直想要写一个抖音爬虫来批量下载抖音的短视频,但是经 ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...
python爬虫爬取煎蛋网妹子图片
import urllib.request import os def url_open(url): req = urllib.request.Request(url) req.add_header( ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...

随机推荐

F - Subarrays题解
F - Subarrays 题意:给你一个序列,问这个序列里有多少个子串的和能被k整除. 思路:求前缀和,然后每个位置对k取模,模数相等的位置之间,是一个满足条件的字串. 因为求的是前缀和,所以取模后 ...
之前练手使用基于gin的go web项目
目录结构: `-- demo |-- cmd | |-- api.go | `-- root.go |-- common | `-- consts | `-- consts.go |-- config ...
iOS上拉边界下拉白色空白问题解决概述
表现手指按住屏幕下拉,屏幕顶部会多出一块白色区域.手指按住屏幕上拉,底部多出一块白色区域. 产生原因在 iOS 中,手指按住屏幕上下拖动,会触发 touchmove 事件.这个事件触发的对象是整个 ...
从零开始学Spring Boot系列-返回json数据
欢迎来到从零开始学Spring Boot的旅程!在Spring Boot中,返回JSON数据是很常见的需求,特别是当我们构建RESTful API时.我们对上一篇的Hello World进行简单的修改 ...
【Azure 应用服务】Web.config中设置域名访问限制，IP地址限制访问特定的页面资源 (Rewrite)
问题描述问题一:web app已经绑定了域名,例如是www.a.com,现在只允许使用www.a.com 访问,如果使用默认的域名xxxx.chinacloundsites.cn访问的时候,需要显示 ...
RabbitMQ 快速复习
目录 RabbitMQ学习笔记 1.消息队列概述 1.1 为什么学习消息队列 1.2 什么是消息中间件 1.3 消息队列应用场景 1.3.1 异步处理 1.3.2 解耦服务 1.3.3 流量削峰 1. ...
修改 markdown 二级标题的编号 - 自动编号 autoNumber.js nodejs
需求我在写 https://www.vuejsdev.com/01FE/must-know-knowledge.html 这个页面的时候, 二级页面标题前面有编号,但是有时候我会把顺序换下,每次手 ...
base-table 加入动态slot 流程 vue2
columns { title: '字段标题', slot: 'yourSlotName', minWidth: 50, align: 'center' }, 组件内 props: { columns ...
玉蟾宫（悬线dp）
求最大子矩阵一般用采用悬线法 (包好用的牢底) 悬线法: [ 以这道题为例,我们将R称为障碍格子,将F称为非障碍格子] 我们选择任意一个非障碍格子,引出三条直线:左直右直上直随后从这个点出发,分 ...
Android WebView获取html源码
通过执行js语句来获取 val code = """ document.documentElement.outerHTML """.trim ...

Python爬虫爬取1905电影网视频电影并存储到mysql数据库

代码：

运行截图：

数据库

Python爬虫爬取1905电影网视频电影并存储到mysql数据库的更多相关文章

随机推荐

热门专题