常用模块 模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才能完成(函数又可以在不同的.py文件中),n个 .py 文件组成的代码集合就称为模块. python常用模块主要有: 1. time模块 2. random模块 3. hashlib模块 4. os模块 5. sys模块 6. logging模块 7. 序列化模块 8. configpar…
之前帮公司爬取过内部的一个问题单网站,要求将每个问题单的下的附件下载下来.一开始的时候我就遇到一个破解登陆验证的大坑......      (╬ ̄皿 ̄)=○ 由于在公司使用的都是内网,代码和网站的描述也都属于公司的信息安全资产范围,具体细节不方便透露,就简要描述一下需求和问题吧. 在访问网站前需要先进行一个登陆,浏览器使用的是chrome,一开始我的想法是通过chromrdriver模拟登陆,但是用户名和密码输入框都是使用的浏览器自带的弹窗,chromedriver无法获取到输入和点击位置.放弃…
requests 使用requests进行爬取                 下面是我编写的第一个爬虫的脚本                   import requests # 导入requests模块                 r = requests.get('https://daohang.qq.com').content # 通过requests.get方法访问地址https://daohang.qq.com,再使用r.content获取返回的bytes内容        …
requests http请求库 requests是基于python内置的urllib3来编写的,它比urllib更加方便,特别是在添加headers, post请求,以及cookies的设置上,处理代理请求,用几句话就可以实现,而urllib比较繁琐, requests比urllib方便多了,requests是一个简单易用的http请求库. 官方网站是: 简单实例: import requests response = requests.get("https://www.baidu.com/&…
模块,用一砣代码实现了某个功能的代码集合,任何python程序都可以作为模块导入,n个 .py 文件组成的代码集合就称为模块. but 为什么要引入模块概念?主要原因是代码重用(code reuse).请记住:为了让代码可重用,请将它模块化!!! 模块分为三种: 自定义模块 内置模块 开源模块 定义模块 1.单个py文件就可作为模块 2.为了组织好模块,将它们分组为包(package),当模块存储在py文件中时,包就是模块所在的目录.记住:为了让python将其作为包对待,必须包含一个名为__i…
""" re正则表达式,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的 一些特定字符,及这些特定字符的组合,组成一个"规则字符串",然后用这个"规则 字符串"去匹配过滤出我们想要的字符串. """ 我们可以利用工具来测试或者生成我们想要的"规则字符串". 正则表达式常见的匹配模式: 匹配模式 描述 ^ 匹配字符串的开头 $ 匹配字符串的结尾 . 表示匹配任意一个字符,除了换行…
python网络爬虫的学习第一步 [python网络爬虫]之0 爬虫与反扒 [python网络爬虫]之一 简单介绍 [python网络爬虫]之二 python uillib库 [python网络爬虫]之三 requests模块 [python网络爬虫]之四 数据解析的三种方式 [python网络爬虫]之五 requests模块的cookie和代理操作 [python网络爬虫]之六 selenuim和phantonJs处理网页动态加载数据的爬取 [python 网络爬虫]之scrapy系列 更新中…
urllib3 1.简介 urllib3相比urllib,urlib2,又有些一些新的功能,可以实现很多东西,而这个模块有点特殊的是,并且还可以同时存在于python2和python3,但说实话,用的真的很少的. 2.方法/属性 3.常用方法/属性解析 由于用的很少,所以相关资料也很少,我反正是很少用,要嘛就用urllib,urlib2,要嘛直接用python3里的urllib包,或者直接用第三方模块requests.说到requests,就是由于有requests,urllib3用的才少,因为…
Xpath,lxml模块用法 转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的 原帖链接:传送门 以下为转载内容: -------------------------------------------------------------------------------------------------------------------------------- 参考来源 lxml用法源自 lxml python 官方文档,更多内容请直接参阅官方…
与爬虫相关的常用模块列表. 原文出处:传送门链接 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络库(绑定libcurl). urllib3 – Python HTTP库,安全连接池.支持文件post.可用性高. httplib2 – 网络库. RoboBrowser – 一个简单的.极具Python风格的Python库,无需独立的浏览器即可浏览网页. MechanicalSoup -一个与网站…