python模块学习建议

学习python模块,给大家个我自己不专业的建议:

  1. 养成习惯,遇到一个模块,先去github上看看开发者们关于它的说明,而不是直接百度看别人写了什么东西。也许后者可以让你很快入门,可那样你更多的是在吃别人剩下的。而访问Github,你可以在里面获取到更多作者想告诉你的内容和相关的链接地址。怎么评估一个模块好不好,最简单的办法就是看star,requests_html的star:9794,已经算很高的了。requests_html的Git地址:https://github.com/kennethreitz/requests-html。作者提供了官网http://html.python-requests.org/,用于更详细的使用描述。
  2. python模块下载,多数情况大家使用pip install xxxx轻松搞定。但请记住这个网址:https://pypi.org/。在你下载模块前,先去搜索下它,看看pypi给你什么提示与要求。就比如requests_html,官方明确说明了,最新版本的requests-html 0.10.0 Requires: Python >=3.6.0。而支持3.5的最后一个版本是pip install requests-html==0.6.6

requests-html学习

安装

python3.6+ pip install requests-html

python3.5 pip install requests-html==0.6.6

再强调一次,requests_html仅支持3.5+,且最新版本的requests_html仅支持3.6+ ,3.5的最后一个版本为0.6.6。

安装时,你会发现,requests-html依赖了很多其他模块,统一封装后,让开发变得更加无脑:

Successfully installed appdirs-1.4.3 bs4-0.0.1 certifi-2019.3.9 chardet-3.0.4

cssselect-1.0.3 fake-useragent-0.1.11 idna-2.8 lxml-4.3.3 parse-1.12.0

pyee-6.0.0 pyppeteer-0.0.25 pyquery-1.4.0 requests-2.22.0 requests-html-0.10.0

six-1.12.0 tqdm-4.32.1 w3lib-1.20.0 websockets-7.0

官网介绍

全面支持解析JavaScript!

CSS 选择器 (jQuery风格, 感谢PyQuery).

XPath 选择器, for the faint at heart.

自定义user-agent (就像一个真正的web浏览器).

自动追踪重定向.

连接池与cookie持久化.

令人欣喜的请求体验,魔法般的解析页面.

举几个毛栗子

下面举几个官网的栗子,内容来自:http://html.python-requests.org/

from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://www.baidu.com/')
  • 获取网页内容

print(r.html.html)

  • 获取链接

print(r.html.links)

print(r.html.absolute_links)

links和absolute_links两个属性分别返回HTML对象所包含的所有链接和绝对链接(均不包含锚点)

  • 通过CSS选择器获取元素

r.html.find([selector],[first=True])

selector选择器,使用jQuery风格。如果不熟悉,给你个jQuery的官网传送门:https://api.jquery.com/category/selectors/

添加first=True则为find ,不添加则为findAll,简洁明了…

但需要注意,如果没有添加first=True,即便返回一个元素,结果也将是list类型

  • 通过xpath获取元素

r.html.xpath(’//*[@id=“su”]’, first=True) # 获取百度一下按钮地址…

  • 元素具体内容
# 获取网站html内容
r.html.html
# 获取网站文本内容
r.html.text
# 上面俩内容太多就不打印了...
# 获取元素的属性
print(r.html.xpath('//*[@id="su"]', first=True).attrs)
output:
{'class': ('bg', 's_btn'), 'id': 'su', 'type': 'submit', 'value': '百度一下'}
  • JavaScript支持

requests_html的js执行是亮点,但是毁在了默认安装上…

r.html.render() 首次执行该方法是,模块会检查依赖,并下载chromium,chromium是什么鬼,看起来很像chrome?

搞过selenium的应该知道,这里简单对比下chrome和chromium:

Chromium是谷歌的开源项目,开发者们可以共同去改进它,然后谷歌会收集改进后的Chromium并发布改进后安装包。Chrome不是开源项目,谷歌会把Chromium的东西更新到Chrome中。你也可以这么理解Chromium是体验版,Chrome是正式版;

Chromium不用安装,下载下来的是压缩包,解压后直接就可以使用。Chrome需要安装;

Chromium功能比Chrome多,因为新功能都是先在Chromium中使用,等完善后才添加到Chrome中。相对的Chrome就要比Chromium稳定很多不容易出错;

Chromium不开放自动更新功能,所以用户需手动下载更新,而Chrome则可自动连上Google的服务器更新,但新版的推出很慢。

但是,模块在安装的时候由于SSLCertVerificationError问题,没办法进行自动化安装:

urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host=‘storage.googleapis.com’, port=443): Max retries exceeded with url: /chromium-browser-snapshots/Win_x64/575458/chrome-win32.zip (Caused by SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1056)’)))

好在模块给出了地址,拼接host和uri即可进行下载:

http://storage.googleapis.com//chromium-browser-snapshots/Win_x64/575458/chrome-win32.zip

我家里下载好慢,这点就不演示了,大家对这官网扭一扭吧…

requests-html示例

到了今天今天的重点了,使用requests-html获取2019中国虚假大学!

“虚假大学”是未在教育部备案,不具备招生资格、没有办学资质、涉嫌非法招生和网络诈骗的“虚假大学”。

这些虚假大学数据统计,来源于人民日报。其中还闹过一个笑话,一个网站转载人民日报的这条新闻时,误将中国邮电大学写成了北京邮电大学,结果北邮发飙要求该媒体即刻修改并致歉!然后,人民日报表示躺着也中枪.为人民日报献上一首白智英的***像中枪一样***。

好了不发散回正题,为了演示requests-html示例,找到了这个网站:

高三网:http://www.gaosan.com/gaokao/249708.html

网站以文本的格式,列出了392所虚假大学名单!那么,我们就用requests-html,获取一下它的数据,让你们看看requests-html有多简单!

分析下下网站结构,清楚明白,数据包裹在<div id="data249708">内部,从第三个p标签开始为我们所需要的数据。

代码实现:

# -*- coding: utf-8 -*-
# @Author : 王翔
# @JianShu : 清风Python
# @Date : 2019/6/27 1:28
# @Software : PyCharm
# @version :Python 3.7.3
# @File : PseudoCollege.py from requests_html import HTMLSession
import json class PseudoCollege:
def __init__(self, url):
self.url = url
self.headers = {"User-Agent": ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 "
"(KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36")
} def get_response(self):
session = HTMLSession()
return session.get(self.url, headers=self.headers) def filter_info(self):
html_data = self.get_response()
# 从第三个P标签开始,获取虚假大学数据
return html_data.html.find('div#data249708 p')[2:] @staticmethod
def get_json(data):
info = {}
city = None
for line in data:
# 每个城市会显示为 <p><strong>北京:151所</strong></p>
if 'strong' in line.html:
# 拆分城市与虚假大学数量
city, total_college = line.text.split(':')
# 构造字典
info[city] = dict(total=total_college, data=[])
continue
info[city]['data'].append(line.text)
with open('colleges.json', 'w+', encoding='utf-8') as f:
# ensure_ascii默认为True,json.dump后会被转码...
f.write(json.dumps(info, ensure_ascii=False)) def run():
url = 'http://www.gaosan.com/gaokao/249708.html'
main = PseudoCollege(url)
data = main.filter_info()
main.get_json(data) if __name__ == '__main__':
run()

叫College感觉有点讽刺…最终将这些学校保存至colleges.json的文本中,我看看结果片段:

  ... ... ,
"陕西": {
"total": "16所",
"data": [
"西安电子信息学院",
"西安理工学院",
"西安工商学院",
"西安科技师范大学",
"西安信息技术学院",
"西安工商管理学院",
"西安工业科技技术学院",
"西安工业科技学院",
"陕西国防工业技术学院",
"陕西瀚林医科学院",
"西安工业工程学院",
"陕西工贸职业学院",
"西安科技职业学院",
"西安经济技术学院",
"西安机电工程学院",
"陕西科技管理学院"
]
},
"福建": {
"total": "5所",
"data": [
"厦门师范学院",
"福建海峡经贸技术学院",
"福建经济贸易大学",
"福建科技学院",
"福建省轻工业学院"
]
},
... ...

The End

一个不留神又搞到二半夜了,哎…

快将这392所虚假大学名单,传播给你身边有孩子高考的朋友吧。

OK,今天的内容就到这里,如果觉得有帮助,欢迎将文章或我的微信公众号【清风Python】分享给更多喜欢python的人,谢谢。

来源:华为云社区征文 作者:清风Python

爬虫新宠requests_html 带你甄别2019虚假大学 #华为云·寻找黑马程序员#的更多相关文章

  1. 2019年最新超级有趣好玩的html+css网页布局课程,前端入门基础,html5+css3零基础入门课程-黑马程序员pink老师精心录制

    大家好,我是黑马程序员pink老师!! 本次视频是前端零基础入门的课程,pink老师采取有趣好玩讲法,带你快乐的学习枯燥的html+css知识,学完之后让你能快速布局pc端页面.代码也可以讲的好玩有趣 ...

  2. 2019年5月22日 AY 程序员调侃语录

    我是AY,杨洋,做wpf开发的,最近得了一种病,程序员患得患失综合征.同事说,我年纪在变大,技术跟不上.业余之间,我原创了写了一些语录,给大家中午休息,累疲惫的时候,开心放松下. 1.活着的每一天都无 ...

  3. 2019年5月23日 AY 程序员调侃语录

    我是AY,杨洋,做wpf开发的,最近得了一种病,程序员患得患失综合征.同事说,我年纪在变大,技术跟不上.业余之间,我原创了写了一些语录,给大家中午休息,累疲惫的时候,开心放松下. 1.有很多公司找我谈 ...

  4. 黑马程序员——JAVA基础之正则表达式,网络爬虫

    ------Java培训.Android培训.iOS培训..Net培训.期待与您交流! ------- 正则表达式: 概念:用于操作字符串的符合一定规则的表达式 特点:用于一些特定的符号来表示一些代码 ...

  5. 黑马程序员spring data jpa 2019年第一版本

    第一步首先创建一个maven工程,导入对于的pom依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xs ...

  6. 黑马程序员:3分钟带你读懂C/C++学习路线

    随着互联网及互联网+深入蓬勃的发展,经过40余年的时间洗礼,C/C++俨然已成为一门贵族语言,出色的性能使之成为高级语言中的性能王者.而在今天,它又扮演着什么样重要的角色呢?请往下看: 后端服务器,移 ...

  7. 2019前端学习路线心得-黑马程序员pink老师

    在规划之前先给大家分享几点心得哈: 1. 学习,特别是在线学习,是非常辛苦的事情,为了少走弯路, 所以一定要系统学习,多借鉴与前辈们总结出来的经验. 2. 不要相信任何说 一周掌握 css, 一周学完 ...

  8. 爬虫神器XPath,程序员带你免费获取周星驰等明星热门电影

    本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ...

  9. 程序员带你十天快速入门Python,玩转电脑软件开发(四)

    本系列文章立志于从一个已经习得一门编程语言的基础之上,全面介绍Python的相关开发过程和相关经验总结.本篇文章主要是基于上一篇的程序员带你十天快速入门Python,玩转电脑软件开发(三)的基础之上, ...

随机推荐

  1. C/C.cpp

    我是怎么说服自己这题没有答案单调性的? 当轮数大于最优答案时,B的操作就成了捣乱,会使A多进行若干操作才能回复原状态 嗯,所以答案没有单调性. 就没去想A的操作可以把B的抵消啊.. 另外swap没有交 ...

  2. windows系统一台电脑先后添加多个git账号

    概述 电脑上已经配置了github的ssh连接.现在又有一个不同的git账户,也就是要在一台电脑上配置两个git账号. 下面记录一下我配置的方法. 一.取消git全局配置 之前配置github的时候, ...

  3. Laravel用户认证

    前期准备 Laravel的权限配置文件位于 config/auth.php,Laravel的认证组件由"guards"和"providers"组成, Guard ...

  4. N42-qq-林友埙-第二周作业

    1.Linux发行版的系统目录名称命名规则及用途 2.文件的元数据信息有哪些,分别表示什么含义,如何查看?如何修改文件的时间戳信息 1.文件的元数据是指文件的属性.大小.创建时间.访问时间.属主属组等 ...

  5. wangkoala杂题总集(根据个人进度选更)

    CQOI2014 数三角形 首先一看题,先容斥一波,求出网格内选三个点所有的情况,也就是C(n*m,3);然后抛出行里三点共线的方案数:C(n,3)*m; 同理就有列中三点共线的方案数:n*C(m,3 ...

  6. 「Luogu 1349」广义斐波那契数列

    更好的阅读体验 Portal Portal1: Luogu Description 广义的斐波那契数列是指形如\(an=p \times a_{n-1}+q \times a_{n-2}\)的数列.今 ...

  7. C#/.Net开发入门篇(1)——开发工具安装

    众所周知,工欲善其事必先利其器,要想砍柴快一定得有把好刀,那么要想代码写的有效率.质量高一个趁手的编辑器是必不可少的,写代码不可能就用系统自带的文本编辑器(如果是大佬当我没说),这里我推荐各位使用微软 ...

  8. 2019年10月13日 linux习题 wangqingchao

    1. GUN的含义是: GNU's Not UNIX . 2. Linux一般有3个主要部分:内核.命令解释层.实用工具. 3.POSIX是可携式操作系统接口的缩写,重点在规范核心与应用程序之间的接口 ...

  9. SpringBoot之微服务日志链路追踪

    SpringBoot之微服务日志链路追踪 简介 在微服务里,业务出现问题或者程序出的任何问题,都少不了查看日志,一般我们使用 ELK 相关的日志收集工具,服务多的情况下,业务问题也是有些难以排查,只能 ...

  10. tomcat日志(1)

    tomcat日志配置之一自带log 2014-03-19 09:58 33737人阅读 评论(2) 收藏 举报 分类: java(49) 问题 tomcat每次启动时,自动在logs目录下生产以下日志 ...