level 2:
10、案例:编写爬虫爬取豆瓣电影排行榜(电影名称,评分),保存为csv文件
a、用numpy加载csv数据
b、把评分列转换成float64类型
c、计算电影的平均评分
d、求评分最高的电影
e、求评分在9分以上的电影
"""

import requests
from lxml import etree
import csv
import numpy as np
def getHtml():
url = 'https://movie.douban.com/chart'
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",
'Cookie':'ll="118237"; bid=kQ4wCGaUHxM; dbcl2="198098900:5Dr+gGK65ck"; ck=u-be; _pk_id.100001.4cf6=842ffa65a9a6b8b3.1560771548.1.1560771681.1560771548.; _pk_ses.100001.4cf6=*; __yadk_uid=ACadYi5zL218X3UjCuwIiXTk7lThAmup; __utma=30149280.26375845.1560771555.1560771555.1560771555.1; __utmb=30149280.2.10.1560771555; __utmc=30149280; __utmz=30149280.1560771555.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.1679117071.1560771555.1560771555.1560771555.1; __utmb=223695111.0.10.1560771555; __utmc=223695111; __utmz=223695111.1560771555.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); push_noty_num=0; push_doumail_num=0; _vwo_uuid_v2=D0397C64E4418CF03F84A9F99DED3AE28|9c841c774e9ad1066dc8a2ca931d9a9a; __utmt=1; __utmv=30149280.19809'
}
# 1.请求网页源代码
strHtml = requests.get(url,headers=headers).text
# print(strHtml)
"""
页面分析之标题:
<a class="nbg" href="https://movie.douban.com/subject/27060077/" title="绿皮书">
<a class="nbg" href="https://movie.douban.com/subject/27053945/" title="我们">
页面分析之评分:
<span class="rating_nums">8.9</span>
<span class="rating_nums">6.6</span>
"""
#2. 数据提取
html = etree.HTML(strHtml)
# 获取到电影名称
tittle = html.xpath('//tr[@class="item"]//a/@title')
print(tittle)
# 获取到评分
grade = html.xpath('//span[@class="rating_nums"]/text()')
print(grade)
# 3.处理数据(使用拉链函数,让数据一一对应)
list=[]
res=zip(tittle,grade)
for i in res:
# 将元组数据保存进列表中
list.append(i)
# print(list)
# 4.保存成csv文件
with open('./doubandianying.csv','w',) as f:
csv_f = csv.writer(f)
# 添加第一行
csv_f.writerow(["title","grade"])
# 将数据遍历存储
for row in list:
csv_f.writerow(row)

def loadTxt():
filePath = './doubandianying.csv'
res=np.loadtxt(
filePath,
delimiter=',',
dtype=str,
usecols=(0,1),
skiprows=1
)
return res

def chage():
filePath = './doubandianying.csv'
res = np.loadtxt(
filePath,
delimiter=',',
dtype=str,
usecols=(1),
skiprows=1
)
res = res.astype(np.float)
return res

def mean(gradeFloat):
mean = np.mean(gradeFloat)
return mean

def movie(gradeFloat):
index = np.argmax(gradeFloat)
# print(index)
filePath = './doubandianying.csv'
title = np.loadtxt(
filePath,
delimiter=',',
dtype=str,
usecols=(0),
skiprows=1
)
# print(title)
return title[index]
# index = np.argmin(gradeFloat)

def movies(gradeFloat):

res = gradeFloat[(gradeFloat>9)]
print(res)

if __name__ == '__main__':
# 1.爬取数据
getHtml()

# 2.加载数据
lt = loadTxt()
print(lt)

# 3.将分数列转换成浮点类型
gradeFloat = chage()
print(gradeFloat)
print(type(gradeFloat))

# 4.计算电影的平均分
gradeMean = mean(gradeFloat)
print(gradeMean)

# 5.评分最高的电影
movieFirst = movie(gradeFloat)
print(movieFirst)

# 6. q求评分高于9分以上的电影 (无)
movies = movies(gradeFloat)

01爬取豆瓣网电影数据进行numpy的练习的更多相关文章

  1. 基础爬虫,谁学谁会,用requests、正则表达式爬取豆瓣Top250电影数据!

    爬取豆瓣Top250电影的评分.海报.影评等数据!   本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序.   此项目过程是运用requests请求库来获取h ...

  2. Python3爬取豆瓣网电影信息

      # -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前250的电影的名称 Language: Python3.6 ...

  3. 实例学习——爬取豆瓣网TOP250数据

    开发环境:(Windows)eclipse+pydev 网址:https://book.douban.com/top250?start=0 from lxml import etree #解析提取数据 ...

  4. requests爬取豆瓣top250电影信息

    ''' 1.爬取豆瓣top250电影信息 - 第一页: https://movie.douban.com/top250?start=0&filter= - 第二页: https://movie ...

  5. 爬取豆瓣网图书TOP250的信息

    爬取豆瓣网图书TOP250的信息,需要爬取的信息包括:书名.书本的链接.作者.出版社和出版时间.书本的价格.评分和评价,并把爬取到的数据存储到本地文件中. 参考网址:https://book.doub ...

  6. 基于爬取百合网的数据,用matplotlib生成图表

    爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...

  7. Python-爬虫实战 简单爬取豆瓣top250电影保存到本地

    爬虫原理 发送数据 获取数据 解析数据 保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...

  8. 爬虫入门(四)——Scrapy框架入门:使用Scrapy框架爬取全书网小说数据

    为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序 下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段 明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...

  9. python3爬取豆瓣top250电影

    需求:爬取豆瓣电影top250的排名.电影名称.评分.评论人数和一句话影评 环境:python3.6.5 准备工作: 豆瓣电影top250(第1页)网址:https://movie.douban.co ...

  10. 003.[python学习] 简单抓取豆瓣网电影信息程序

    声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: #!/us ...

随机推荐

  1. 初始rust

    安装rust 访问rust 按照步骤操作即可,安装很慢,请耐心等待 安装成功之后,请注意在命令行测试 rustc --version,cargo --version看看输出版本信息是否正常,如果不正常 ...

  2. MySQL 合并查询union 查询出的行合并到一个表中

    在合并查询中,尤其是二分类的情况,在查询结果是相同列名的时候可以考虑合并查询.先查询出行的结果,再使用union或者union all合并查询结果. 另外如果 union 和 order by 一起使 ...

  3. 【Android】移除 Android frameworks 层,当 Linux 系统使用。(服务移除篇)

    前言说明 此文章仅作为技术经验记录,核心思想,就是在 init.rc 里面移除服务,致使 frameworks 不被启动,其它不便多说. 此文章内容为系统服务移除篇,最终实现的效果是 Android ...

  4. 10月27日内容总结——hashlib加密模块和logging、subprocess模块

    目录 一.hashlib加密模块 1.何为加密 2.为什么加密 3.如何判断数据是否以加密 4.密文的长短有什么意义 5.加密算法的基本操作 二.加密补充说明 三.subprocess模块 1.sub ...

  5. LeetCode_单周赛_328

    6291. 数组元素和与数字和的绝对差 代码 模拟即可 class Solution { public int differenceOfSum(int[] nums) { int ans = 0; i ...

  6. zookeeper05Curator

    转https://blog.csdn.net/u012129558/article/details/81076487   1.zookeeper 开源客户端curator介绍 1.1 curator简 ...

  7. Ubuntu18.04 下使用Flatpak稳定安装TIM、微信、迅雷和百度云

    https://gitee.com/wszqkzqk/deepin-wine-for-ubuntu git clone https://gitee.com/wszqkzqk/deepin-wine-c ...

  8. rt-thread模糊到清晰系列: ipc.c

    #include <rtthread.h> #include <rthw.h> #ifdef RT_USING_HOOK extern void (*rt_object_try ...

  9. Spring(IOC实际开发使用、底层原理)

    实际开发的使用 实际开发中会将程序分为3层: Controller Servlet Repository(DAO) 关系Controller 调运Servlet 调运 Repository(DAO) ...

  10. Word 设置脚注和尾注

    描述 脚注一般位于页面的底部,作为文档某处内容的注释.尾注一般位于文档的末尾,列出引文的出处等. 设置脚注和尾注 将光标移动到要插入脚注或尾注的地方,然后点击"引用"选项卡. 左边 ...