第三方模块的下载与使用

  1. 第三方模块:别人写的模块 一般情况下功能都特别强大
  2. 我们如果想使用第三方模块 第一次必须先下载后面才可以反复使用(等同于内置模块)
  3. 下载第三方模块的方式
  4. 1.pip工具
  5. 注意每个解释器都有pip工具 如果我们的电脑上有多个版本的解释器那么我们在使用pip的时候一定要注意到底用的是哪一个 否则极其任意出现使用的是A版本解释器然后用B版本的pip下载模块
  6. 为了避免pip冲突 我们在使用的时候可以添加对应的版本号
  7. python27 pip2.7
  8. python36 pip3.6
  9. python38 pip3.8
  10. 下载第三方模块的句式
  11. pip install 模块名
  12. 下载第三方模块临时切换仓库
  13. pip install 模块名 -i 仓库地址
  14. 下载第三方模块指定版本(不指定默认是最新版)
  15. pip install 模块名==版本号 -i 仓库地址
  16. 2.pycharm提供快捷方式
  17. 群内截图

下载第三方模块可能会出现的问题

  1. """
  2. 下载第三方模块可能会出现的问题
  3. 1.报错并有警告信息
  4. WARNING: You are using pip version 20.2.1;
  5. 原因在于pip版本过低 只需要拷贝后面的命令执行更新操作即可
  6. d:\python38\python.exe -m pip install --upgrade pip
  7. 更新完成后再次执行下载第三方模块的命令即可
  8. 2.报错并含有Timeout关键字
  9. 说明当前计算机网络不稳定 只需要换网或者重新执行几次即可
  10. 3.报错并没有关键字
  11. 面向百度搜索
  12. pip下载XXX报错:拷贝错误信息
  13. 通常都是需要用户提前准备好一些环境才可以顺利下载
  14. 4.下载速度很慢
  15. pip默认下载的仓库地址是国外的 python.org
  16. 我们可以切换下载的地址
  17. pip install 模块名 -i 仓库地址
  18. pip的仓库地址有很多 百度查询即可
  19. 清华大学 :https://pypi.tuna.tsinghua.edu.cn/simple/
  20. 阿里云:http://mirrors.aliyun.com/pypi/simple/
  21. 中国科学技术大学 :http://pypi.mirrors.ustc.edu.cn/simple/
  22. 华中科技大学:http://pypi.hustunique.com/
  23. 豆瓣源:http://pypi.douban.com/simple/
  24. 腾讯源:http://mirrors.cloud.tencent.com/pypi/simple
  25. 华为镜像源:https://repo.huaweicloud.com/repository/pypi/simple/
  26. """

网络爬虫模块之requests模块

  1. requests模块能够模拟浏览器发送网络请求
  2. import requests
  3. 1.朝指定网址发送请求获取页面数据(等价于:浏览器地址栏输入网址回车访问)
  4. res = requests.get('http://www.redbull.com.cn/about/branch')
  5. print(res.content) # 获取bytes类型的网页数据(二进制)
  6. res.encoding = 'utf8' # 指定编码
  7. print(res.text) # 获取字符串类型的网页数据(默认按照utf8)

网络爬虫实战之爬取链家二手房数据

  1. mport requests
  2. import re
  3. res = requests.get('https://sh.lianjia.com/ershoufang/pudong/')
  4. # print(res.text)
  5. data = res.text
  6. home_title_list = re.findall(
  7. '<a class="" href=".*?" target="_blank" data-log_index=".*?" data-el="ershoufang" data-housecode=".*?" data-is_focus="" data-sl="">(.*?)</a>',
  8. data)
  9. # print(home_title_list)
  10. home_name_list = re.findall('<a href=".*?" target="_blank" data-log_index=".*?" data-el="region">(.*?) </a>', data)
  11. # print(home_name_list)
  12. home_street_list = re.findall(
  13. '<div class="positionInfo"><span class="positionIcon"></span><a href=".*?" target="_blank" data-log_index=".*?" data-el="region">.*? </a> - <a href=".*?" target="_blank">(.*?)</a> </div>',
  14. data)
  15. # print(home_street_list)
  16. home_info_list = re.findall('<div class="houseInfo"><span class="houseIcon"></span>(.*?)</div>', data)
  17. # print(home_info_list)
  18. home_watch_list = re.findall('<div class="followInfo"><span class="starIcon"></span>(.*?)</div>', data)
  19. # print(home_watch_list)
  20. home_total_price_list = re.findall(
  21. '<div class="totalPrice totalPrice2"><i> </i><span class="">(.*?)</span><i>万</i></div>', data)
  22. # print(home_total_price_list)
  23. home_unit_price_list = re.findall(
  24. '<div class="unitPrice" data-hid=".*?" data-rid=".*?" data-price=".*?"><span>(.*?)</span></div>', data)
  25. # print(home_unit_price_list)
  26. home_data = zip(home_title_list, home_name_list, home_street_list, home_info_list, home_watch_list,
  27. home_total_price_list, home_unit_price_list)
  28. with open(r'home_data.txt','w',encoding='utf8') as f:
  29. for data in home_data:
  30. print(
  31. """
  32. 房屋标题:%s
  33. 小区名称:%s
  34. 街道名称:%s
  35. 详细信息:%s
  36. 关注程度:%s
  37. 房屋总价:%s
  38. 房屋单价:%s
  39. """%data
  40. )
  41. f.write("""
  42. 房屋标题:%s
  43. 小区名称:%s
  44. 街道名称:%s
  45. 详细信息:%s
  46. 关注程度:%s
  47. 房屋总价:%s
  48. 房屋单价:%s\n
  49. """%data)

自动化办公领域之openpyxl模块

  1. 1.excel文件的后缀名问题
  2. 03版本之前
  3. .xls
  4. 03版本之后
  5. .xlsx
  6. 2.操作excel表格的第三方模块
  7. xlwt往表格中写入数据、wlrd从表格中读取数据
  8. 兼容所有版本的excel文件
  9. openpyxl最近几年比较火热的操作excel表格的模块
  10. 03版本之前的兼容性较差
  11. ps:还有很多操作excel表格的模块 甚至涵盖了上述的模块>>>:pandas
  12. 3.openpyxl操作
  13. '''学会看官方文档!!!'''
  14. from openpyxl import Workbook
  15. # 创建一个excel文件
  16. wb = Workbook()
  17. # 在一个excel文件内创建多个工作簿
  18. wb1 = wb.create_sheet('学生名单')
  19. wb2 = wb.create_sheet('a')
  20. wb3 = wb.create_sheet('b')
  21. # 还可以修改默认的工作簿位置
  22. wb4 = wb.create_sheet('c名单', 0)
  23. # 还可以二次修改工作簿名称
  24. wb4.title = 'd名单'
  25. wb4.sheet_properties.tabColor = "1072BA"
  26. # 填写数据的方式1
  27. wb4['F4'] = 666
  28. # 填写数据的方式2
  29. wb4.cell(row=3, column=1, value='jason')
  30. # 填写数据的方式3
  31. wb4.append(['编号', '姓名', '年龄', '爱好']) # 表头字段
  32. wb4.append([1, 'jason', 18, 'read'])
  33. wb4.append([2, 'kevin', 28, 'music'])
  34. wb4.append([3, 'tony', 58, 'play'])
  35. wb4.append([4, 'oscar', 38, 'ball'])
  36. wb4.append([5, 'jerry', 'ball'])
  37. wb4.append([6, 'tom', 88,'ball','哈哈哈'])
  38. # 填写数学公式
  39. wb4.cell(row=1, column=1, value=12321)
  40. wb4.cell(row=2, column=1, value=3424)
  41. wb4.cell(row=3, column=1, value=23423432)
  42. wb4.cell(row=4, column=1, value=2332)
  43. wb4['A5'] = '=sum(A1:A4)'
  44. wb4.cell(row=8, column=3, value='=sum(A1:A4)')
  45. # 保存该excel文件
  46. wb.save(r'111.xlsx')
  47. '''
  48. openpyxl主要用于数据的写入 至于后续的表单操作它并不是很擅长 如果想做需要更高级的模块pandas
  49. excel软件正常可以打开操作的数据集在10万左右 一旦数据集过大 软件操作几乎无效 需要使用代码操作>>>:pandas模块
  50. '''

第三方模块的下载与使用、requests模块、爬取链家二手房数据、openpyxl模块、hashlib加密模块的更多相关文章

  1. 基于requests模块的cookie,session和线程池爬取

    目录 基于requests模块的cookie,session和线程池爬取 基于requests模块的cookie操作 基于requests模块的代理操作 基于multiprocessing.dummy ...

  2. Python 网络爬虫 005 (编程) 如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫

    如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...

  3. Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题

    解决下载(或叫:爬取)到的网页乱码问题 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...

  4. PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100(实战项目一)

    利用Requests+正则表达式爬取猫眼电影top100 目标站点分析 流程框架 爬虫实战 使用requests库获取top100首页: import requests def get_one_pag ...

  5. requests+正则爬取豆瓣图书

    #requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...

  6. requests+正则表达式爬取ip

    #requests+正则表达式爬取ip #findall方法,如果表达式中包含有子组,则会把子组单独返回出来,如果有多个子组,则会组合成元祖 import requests import re def ...

  7. 爬虫系列4:Requests+Xpath 爬取动态数据

    爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

  8. 爬虫系列2:Requests+Xpath 爬取租房网站信息

    Requests+Xpath 爬取租房网站信息 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...

  9. 爬虫系列1:Requests+Xpath 爬取豆瓣电影TOP

    爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...

  10. 使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片

    需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法(5)根据图片url链接下载图片并保存(6)MongoD ...

随机推荐

  1. KingbaseES R6 集群测试job管理测试

    案例说明: 本案例参考<Job And Schedule (V8R6C4)>(https://www.cnblogs.com/kingbase/p/15194227.html)单实例环境下 ...

  2. 新增一个Redis 从节点为什么与主节点的key数量不一样呢?

    在日常的 Redis 运维过程中,经常会发生重载 RDB 文件操作,主要情形有: 主从架构如果主库宕机做高可用切换,原从库会挂载新主库重新获取数据 主库 QPS 超过10万,需要做读写分离,重新添加从 ...

  3. Reactor And Gev 详解 通俗易懂

    reactor 详解 在类似网关这种海量连接, 很高的并发的场景, 比如有 10W+ 连接, go 开始变得吃力. 因为频繁的 goroutine 调度和 gc 导致程序性能很差. 这个时候我们可以考 ...

  4. 1.Ceph 基础篇 - 存储基础及架构介绍

    文章转载自:https://mp.weixin.qq.com/s?__biz=MzI1MDgwNzQ1MQ==&mid=2247485232&idx=1&sn=ff0e93b9 ...

  5. js基础知识--BOM

    之前说过,在js的 运行环境为浏览器时,js就主要有三部分组成: ECMAScript核心语法.BOM.DOM.今天就和大家详细说一下BOM的一些基础知识. BOM BOM通常被称为浏览器对象模型,主 ...

  6. 跟我学Python图像处理丨傅里叶变换之高通滤波和低通滤波

    摘要:本文讲解基于傅里叶变换的高通滤波和低通滤波. 本文分享自华为云社区<[Python图像处理] 二十三.傅里叶变换之高通滤波和低通滤波>,作者:eastmount . 一.高通滤波 傅 ...

  7. vue3中pinia的使用总结

    pinia的简介和优势: Pinia是Vue生态里Vuex的代替者,一个全新Vue的状态管理库.在Vue3成为正式版以后,尤雨溪强势推荐的项目就是Pinia.那先来看看Pinia比Vuex好的地方,也 ...

  8. acwing1782 Dynamic Rankings (整体二分)

    和整体二分的模板相比,多了修改操作. 1 #include<bits/stdc++.h> 2 using namespace std; 3 const int N=1e5+10,INF=1 ...

  9. HDU3949/AcWing210 XOR (高斯消元求线性基)

    求第k小的异或和,用高斯消元求更简单一些. 1 //用高斯消元求线性基 2 #include<bits/stdc++.h> 3 using namespace std; 4 #define ...

  10. C语言------数据类型与输入输出

    仅供借鉴.仅供借鉴.仅供借鉴(整理了一下大一C语言每个章节的练习题.没得题目.只有程序了) 文章目录 1 .实训名称 2 .实训目的及要求 3 .源代码及运行截图 4 .小结 1 .实训名称 实训2: ...