python实战项目 — 使用bs4 爬取猫眼电影热榜(存入本地txt、以及存储数据库列表)
案例一:
重点:
1. 使用bs4 爬取
2. 数据写入本地 txt
from bs4 import BeautifulSoup
import requests url = "http://maoyan.com/board"
header = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
rsq = requests.get(url=url,headers=header).text
soup = BeautifulSoup(rsq, "lxml")
# 所有信息都在 <dd> </dd>标签中,先提取出这个标签
items = soup.select('dd') # 构建本地txt文档
with open("D://maoyan.txt", "w", encoding="utf-8") as f:
for item in items:
# 提取标题
title=item.select('p a[data-act="boarditem-click" ]')[0].get_text()
# 提取主演
star=item.select('p[class = "star"]')[0].get_text().replace("\n", "").strip(" ")
# 提取分数
score=item.select('p[class = "score"]')[0].get_text().strip('\n').strip(' ')
# 提取上映时间
releasetime=item.select('p[class = "releasetime"]')[0].get_text()
# 数据整合
datas=title + " " + releasetime + " " + star + " " + score + "\n"
print(datas)
# 利用for循环把每条datas信息写入本地
f.write(datas)
f.close()
print("Sucessful")
优化后
重点:
1. 链接数据库,创建表
2. 在线爬取写入数据库表
# 下面需要用requests 请求,不要用 “ from urllib import request ”
from bs4 import BeautifulSoup
from urllib import request
import time
import pymysql # 记录开始时间
start_time = time.time() print("尝试链接服务器")
try:
# 链接到服务器
connect = pymysql.connect(host='主机地址', user='用户', passwd='密码', db='数据库名', port=3306)
# 创建游标,对数据进行操作
cursor = connect.cursor()
# 如果存在同名表就删除
cursor.execute('DROP TABLES IF EXISTS maoyan_datas')
# 使用SQL语句创建表
sql1 =""" create table maoyan_datas(
title CHAR(100),
star CHAR(200),
score CHAR(50),
releasetime CHAR(200)
)"""
# 执行上面的sql语句
cursor.execute(sql1)
# 提交执行
connect.commit()
# db.close()
print("链接数据库创建表完成") except Exception as e:
print("链接数据库创建表失败" + str(e)) url="http://maoyan.com/board"
rsq = request.urlopen(url)
html = rsq.read().decode()
# 解析网址
soup = BeautifulSoup(html,"lxml")
# 提取前端结构中 <dd> </dd> 标签部分,因为此部分包含全部信息
items = soup.select('dd')
print("已获取网站数据") sql2 = 'insert into maoyan_datas(title,star,score,releasetime) values(%s,%s,%s,%s)'
i = 0
for item in items:
# 提取标题
title = item.select('p a[data-act="boarditem-click" ]')[0].get_text()
# 提取主演
star = item.select('p[class = "star"]')[0].get_text().replace("\n","").strip(" ")
# 提取分数
score = item.select('p[class = "score"]')[0].get_text().strip('\n').strip(' ')
# 提取上映时间
releasetime = item.select('p[class = "releasetime"]')[0].get_text()
# 数据拼接
all = [title, str(star),str(score),str(releasetime)]
#打印当前获取的电影信息
print(all)
# 把电影信息写入数据库
cursor.execute(sql2,all)
i = i +1
print("已写入 %s 行数据"%i) connect.close()
print("done,消耗了时间: %f s" % (time.time() - start_time))
python实战项目 — 使用bs4 爬取猫眼电影热榜(存入本地txt、以及存储数据库列表)的更多相关文章
- 爬虫系列(1)-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
- 50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
- 40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块 二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
- Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程 正文 目标站点分析 通过对目标站点的分析, 来确定网页结构, ...
- Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档 并发访问能极大的提高爬虫的性能,但是requests访 ...
- python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫 排行信息大致如下图 网址链接为ht ...
- Python爬取猫眼电影100榜并保存到excel表格
首先我们前期要导入的第三方类库有; 通过猫眼电影100榜的源码可以看到很有规律 如: 亦或者是: 根据规律我们可以得到非贪婪的正则表达式 """<div class ...
- Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
- 使用requests爬取猫眼电影TOP100榜单
Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用reque ...
随机推荐
- php 常用操作数组函数
我们有很多操作数组的元素,我们这一节先讲一些.在6.3里面我们会总结更多的数组常用函数.深圳dd马达 下面的几个主要是移动数组指针和压入弹出数组元素的和个函数. 函数 功能 array_shift 弹 ...
- Lightning Web Components html_templates(三)
Lightning Web Components 强大之处在于模版系统,使用了虚拟dom 进行智能高效的组件渲染. 使用简单语法以声明方式将组件的模板绑定到组件的JavaScript类中的数据 数据绑 ...
- 洛谷 P3385 【模板】负环 题解
P3385 [模板]负环 题目描述 暴力枚举/SPFA/Bellman-ford/奇怪的贪心/超神搜索 寻找一个从顶点1所能到达的负环,负环定义为:一个边权之和为负的环. 输入格式 第一行一个正整数T ...
- javascript巧用注释保存html文本结构
在js中,肯定会遇到js代码里面有html接口的时候,骚年们都有哪些写法? 刚学JS的写法: <script> var strHtml="<div id=\"te ...
- Android程序员问答题
前言 最近三个月内,不断地进行移动应用开发在线测试题,也积累了不一样的知识.这也将对android studio有很好的掌握,对将来面试也很有好处.那么我就分享给大家.分享是一种幸福,这是一种质的飞越 ...
- 算法:贪心、回溯(su)、分治、动态规划,思想简要
贪心算法: 只做出当前看来最好的选择,而不从整体考虑最优,他所作出的是局部最优解.使用该算法的前提是必须具备无后效性,即某个状态以前的选择不会影响以后的状态的选择,只与当前状态有关. 回溯算法: 本质 ...
- RocketMQ4.5.1环境搭建及示例
一.Windows环境搭建RocketMQ 1. 下载RocketMQ Binary压缩包,并解压缩,我的安装目录为E:\programs\rocketmq\rocketmq-all-4.5.1 2. ...
- es6学习1:let和const
一:let 类似var 但是所声明的变量,只在let命令所在的代码块内有效. 1) 不存在变量提升 // var 的情况 console.log(foo); // 输出undefined var ...
- java 73题以及答案
作者:乌枭原文:https://blog.csdn.net/qq_34039315/article/details/78549311 1.在java中守护线程和本地线程区别? java中的线程分为两种 ...
- 剑指offer:和为S的两个数字
题目描述: 输入一个递增排序的数组和一个数字S,在数组中查找两个数,使得他们的和正好是S,如果有多对数字的和等于S,输出两个数的乘积最小的. 输出描述: 对应每个测试案例,输出两个数,小的先输出. 思 ...