python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）

案例一：

重点：

1. 使用bs4 爬取

2. 数据写入本地 txt

from bs4 import BeautifulSoup

import requests

url = "http://maoyan.com/board"

header = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'

}

rsq = requests.get(url=url,headers=header).text

soup = BeautifulSoup(rsq, "lxml")

# 所有信息都在 <dd> </dd>标签中，先提取出这个标签

items = soup.select('dd')

# 构建本地txt文档

with open("D://maoyan.txt", "w", encoding="utf-8") as f:

    for item in items:

        # 提取标题

        title=item.select('p a[data-act="boarditem-click" ]')[0].get_text()

        # 提取主演

        star=item.select('p[class = "star"]')[0].get_text().replace("\n", "").strip(" ")

        # 提取分数

        score=item.select('p[class = "score"]')[0].get_text().strip('\n').strip(' ')

        # 提取上映时间

        releasetime=item.select('p[class = "releasetime"]')[0].get_text()

        # 数据整合

        datas=title + "  " + releasetime + "  " + star + "  " + score + "\n"

        print(datas)

        # 利用for循环把每条datas信息写入本地

        f.write(datas)

f.close()

print("Sucessful")

优化后

重点：

1. 链接数据库，创建表

2. 在线爬取写入数据库表

# 下面需要用requests 请求，不要用 “ from urllib import request ”

from bs4 import BeautifulSoup

from urllib import request

import time

import pymysql

# 记录开始时间

start_time = time.time()

print("尝试链接服务器")

try:

    #  链接到服务器

    connect = pymysql.connect(host='主机地址', user='用户', passwd='密码', db='数据库名', port=3306)

    # 创建游标，对数据进行操作

    cursor = connect.cursor()

    # 如果存在同名表就删除

    cursor.execute('DROP TABLES IF EXISTS maoyan_datas')

    # 使用SQL语句创建表

    sql1 =""" create table  maoyan_datas(

    title  CHAR(100),

    star CHAR(200),

    score CHAR(50),

    releasetime CHAR(200)

    )"""

    # 执行上面的sql语句

    cursor.execute(sql1)

    # 提交执行

    connect.commit()

#    db.close()

    print("链接数据库创建表完成")

except Exception as e:

    print("链接数据库创建表失败" + str(e))

url="http://maoyan.com/board"

rsq = request.urlopen(url)

html = rsq.read().decode()

# 解析网址

soup = BeautifulSoup(html,"lxml")

# 提取前端结构中 <dd> </dd> 标签部分，因为此部分包含全部信息

items = soup.select('dd')

print("已获取网站数据")

sql2 = 'insert into maoyan_datas(title,star,score,releasetime) values(%s,%s,%s,%s)'

i = 0

for item in items:

    # 提取标题

    title = item.select('p a[data-act="boarditem-click" ]')[0].get_text()

    # 提取主演

    star = item.select('p[class = "star"]')[0].get_text().replace("\n","").strip(" ")

    # 提取分数

    score = item.select('p[class = "score"]')[0].get_text().strip('\n').strip(' ')

    # 提取上映时间

    releasetime = item.select('p[class = "releasetime"]')[0].get_text()

    # 数据拼接

    all = [title, str(star),str(score),str(releasetime)]

    #打印当前获取的电影信息

    print(all)

    # 把电影信息写入数据库

    cursor.execute(sql2,all)

    i = i +1

    print("已写入 %s 行数据"%i)

connect.close()

print("done，消耗了时间： %f s" % (time.time() - start_time))

python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）的更多相关文章

爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档并发访问能极大的提高爬虫的性能,但是requests访 ...
python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...
Python爬取猫眼电影100榜并保存到excel表格
首先我们前期要导入的第三方类库有; 通过猫眼电影100榜的源码可以看到很有规律如: 亦或者是: 根据规律我们可以得到非贪婪的正则表达式 """<div class ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
使用requests爬取猫眼电影TOP100榜单
Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用reque ...

随机推荐

动手动脑---找出指定文件夹下所有包容指定字符串的txt文件
思路:先判断是否为文件,如果是文件,则需要判断改文件名是否包含字符串"txt",包含则输出.如果是文件夹的话,先需要判断文件名是否包含".txt"(因为文件名也 ...
数据库 Hash Join的定义，原理，算法，成本，模式和位图
Hash Join只能用于相等连接,且只能在CBO优化器模式下.相对于nested loop join,hash join更适合处理大型结果集 Hash Join的执行计划第1个是hash ...
Python爬虫进阶 | 异步协程
一.背景之前爬虫使用的是requests+多线程/多进程,后来随着前几天的深入了解,才发现,对于爬虫来说,真正的瓶颈并不是CPU的处理速度,而是对于网页抓取时候的往返时间,因为如果采用request ...
java 数据库迁移工具 flyway
官方 https://github.com/flyway/flyway 简易demo https://github.com/deadzq/flyway-demo 主要在配置文件上做改动
72: libreoj #10147 区间dp
$des$ 将 n 堆石子绕圆形操场排放,现要将石子有序地合并成一堆.规定每次只能选相邻的两堆合并成新的一堆,并将新的一堆的石子数记做该次合并的得分. 请编写一个程序,读入堆数 nnn 及每堆的石子数 ...
【后缀数组】【LuoguP2852】 [USACO06DEC]牛奶模式Milk Patterns
题目链接题目描述农夫John发现他的奶牛产奶的质量一直在变动.经过细致的调查,他发现:虽然他不能预见明天产奶的质量,但连续的若干天的质量有很多重叠.我们称之为一个"模式". J ...
shell脚本编程基础之while、for、until循环
while及until循环结构 while CONDITION:do statement done 进入循环:条件满足退出循环:条件不满足当需要命令的执行状态返回值时,可以直接把整个命令当做循环的 ...
mysql 修改表名
//重命名表 rename table table1 to table2; //重命名多个表 rename table table1 to table2,table3 to table4,table5 ...
Server 2003 操作系统位数
安装好电脑系统,如何查看windows 2003/xp/win7是64位还是32位? 方法/步骤第一种方法:桌面上鼠标右键单击“计算机”(我的电脑) 在弹出的快捷菜单中选择“属性”,如果看到64的字 ...
网络公开课和MOOC资源
美国(USA) 1. 麻省理工学院开放课程(Free Online Course Materials/ MIT OpenCourseWare) 2. 耶鲁大学开放课程(Online Video Lec ...

python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）

python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）的更多相关文章

随机推荐

热门专题