从在知乎关注了几个大神,我发现我知乎的主页画风突变.经常会出现 ***长得好看是怎样一种体验呢? 不用***,却长得好看是一种怎样的体验? 什么样***作为头像? ... 诸如此类的问答.点进去之后发现果然很不错啊,大神果然是大神,关注的焦点就是不一样. 看多了几次之后,觉得太麻烦了.作为一个基佬,不,直男,其实并不关注中间的过程(文字).其实就是喜欢看图片而已,得想个法子方便快捷地浏览,不,是欣赏这些图片. 下载图片(第一版) python果然是个好东西,简单代码就可以方便快捷地down下一个…
-前言 之前一直用scrapy与urllib姿势爬取数据,最近使用requests感觉还不错,这次希望通过对知乎数据的爬取为 各位爬虫爱好者和初学者更好的了解爬虫制作的准备过程以及requests请求方式的操作和相关问题.当然这是一个简单的爬虫项目,我会用重点介绍爬虫从开始制作的准备过程,目的是为了让和我一样自学的爬虫爱好者和初学者更多的了解爬虫工作. 一.观察目标网页模板和策略 很多人都忽略这一步,其实这一步最为重要,因为它决定了你将采取什么策略来获取数据,也可以评估出你能够做到什么程度 (1…
模拟登录知乎 这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过浏览器的开发者工具查看,我们通过不同方式登录时,网址是不一样的.邮箱登录的地址email_url = 'https://www.zhihu.com/login/email',手机登录网址是phone_url = 'http://www.zhihu.com/login/phone_num'. 1. 建…
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 本篇内容较长,各位同学可以先收藏后再看~~ 在开始讲爬虫之前,还是先把环境搞搞好,工欲善其事必先利其器嘛~~~ 本篇文章主要介绍 Python 爬虫所使用到的请求库和解析库,请求库用来请求目标内容,解析库用来解析请求回来的内容. 开发环境 首先介绍小编本地的开发环境: Python3.7.4 win10 差不多就这些,最基础的环境,其他环境需要我们一个一个安装,现在开始. 请求库 虽然 Python 为我们内置了…
目标 之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准备工作 requests模块向网站发送http请求,BeautifulSoup模块来从静态HTML文本中提取我们想要的数据,更高级的,对于动态加载页面我们需要用webdriver去模拟真实的网页访问,并解析内容. 推荐使用Anaconda 这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有…
问题的由来   前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的网页如下(网址为:https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0):   我们的需求为爬取红色框框内的名人(有500条记录,图片只展示了一部分)的 名字以及其介绍,关于其介绍,点击该名人的名字即可,如下图: 这就意味着我们需要爬取500个这样的…
Python 操作 MySQL 的正确姿势 收录待用,修改转载已取得腾讯云授权 作者 |邵建永 编辑 | 顾乡 使用Python进行MySQL的库主要有三个,Python-MySQL(更熟悉的名字可能是MySQLdb),PyMySQL和SQLAlchemy. Python-MySQL资格最老,核心由C语言打造,接口精炼,性能最棒,缺点是环境依赖较多,安装复杂,近两年已停止更新,只支持Python2,不支持Python3. PyMySQL为替代Python-MySQL而生,纯python打造,接口…
Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单.容易上手. 利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如: 知乎:爬取优质答案,为你筛选出各话题下最优质的内容. 淘宝.京东:抓取商品.评论及销量数据,对各种商品及用户的消费场景进行分析. 安居客.链家:抓取房产买卖及租售信息,分析房价变化趋势.做不同区域的房价分…
哟~哟~哟~ hi起来 everybody 今天要说说怎么在我们的手机抓包 通过 python爬虫入门01:教你在Chrome浏览器轻松抓包 我们知道了 HTTP 的请求方式 以及在 Chrome 中摸清了一些套路 但是 除了对数据进行解析之外 有时候我们想 对请求的数据或者响应的数据进行篡改 怎么做呢? 我们经常在用的手机 手机里面的数据 怎么对它抓包呢? 那么... 接下来就是学习 python 的正确姿势 我们要用到一款强大免费的抓包工具 Fiddler 你可以到 https://www.…
通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是什么样的 所以我们要学会怎么抓咪咪! 哦,不对. 我们要学会怎么数据抓包   虽然小馒头也是包的一种 ok...anyway... 打开我们的 Chrome 浏览器 在这里 小帅b 提醒大家一句 尽量不要用国产浏览器 很多是有后门的 所以 Chrome 是首选! ok,打开 Chrome 浏览器之后…
上回我们说到 python爬虫29 | 使用scrapy爬取糗事百科的例子,告诉你它有多厉害! WOW!! scrapy awesome!! 怎么会有这么牛逼的框架 wow!! awesome!! 用 scrapy 来爬取数据 岂!不!是!非!常!爽! wow!! 接下来就是我独享的moment 哦不 接下来就是 学习 python 的正确姿势 我们已经创建了爬取糗事百科的项目 并且把糗事百科的前两页的作者和段子爬取到 json 文件了 这次 我们将我们要爬取所有的数据 使用 scrapy 存储…
上次 我们知道了怎么操作 MySQL 数据库 python爬虫26 | 把数据爬取下来之后就存储到你的MySQL数据库. MySQL 有些年头了 开源又成熟又牛逼 所以现在很多企业都在使用 MySQL MySQL 是关系型数据库 其实当前主流的数据库 例如 Oracle.DB2.PostgreSQL.Microsoft SQL Server 等等 都是关系型数据库 这样的话 它们可以在数据表之间建立索引.约束 进行关联 让表与表之间产生联系 可以让数据重复利用,不会浪费 相对应的就是 非关系型数…
大家好 我是小帅b 是一个练习时长两年半的练习生 喜欢 唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思 我又走错片场了 接下来的几篇文章 小帅b将告诉你 如何将你爬取到的数据保存下来 有文本文件.redis.数据库(MySQL.MangoDB)等的存储方式 今天先说说 CSV 什么是 CSV? 怎么玩? 牛逼么? 那么接下来就是 学习 python 的正确姿势 CSV 是一个文本文件来的 有点像 excel 也就是它是以一定的表格的格式来展示数据的 我们通常会使用逗号(,)来对每一个单…
昨天小帅b看到一些事情不顺眼 有人偷换概念 忍不住就写了一篇反讽 996 的 看不下去了,我支持996,年轻人就该996! 没想到有些人看不懂 这就算了 还来骂我 早些时候关注我的小伙伴应该知道我第一时间就发过反对 996 的文章 去他妈的996! python之父就是牛逼 哎- 不过也好 洗掉一些无脑假粉丝 “你个假粉丝,小帅b不是蔡徐坤” 好了 进入正题 上次 小帅b跟你说了如何安装 Appium 的相关环境 以及让它自动打开了手机上的微信App python爬虫23 | 手机,这次要让你上…
你有没有想过让你的手机帮你自动完成某些事情 比如自动帮你抢红包 有些软件不是有签到活动么 这些傻瓜式的操作 能不能让手机自动签到呢? 自动帮你叫外卖 自动帮你打电话 等等 还有 对于手机上的一些比较难以通过抓包获取的数据 想不想像 selenium 那样轻松获取? 之前小帅b就给大家介绍了 selenium python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处 可以模拟人类自动操作浏览器上的网页 我们还使用它爬取了 “鸡你太美” python爬虫11 | 这次,将带你爬…
接下来就是 学习python的正确姿势 做爬虫 绕不开模拟登录 为此小帅b给大家支了几招 python爬虫19 | 遇到需要的登录的网站怎么办?用这3招轻松搞定! 有些网站的登录很弱鸡 传个用户名和密码 来个 POST 请求就搞定了 但还是少数 大多网站还是需要验证码的 登录需要验证码 频繁请求需要验证码 为此小帅b教你如何自动识别 python爬虫20 | 小帅b教你如何识别图片验证码 python爬虫21 | 对于b站这样的滑动验证码,不好意思,照样自动识别 当然了 市面上还有许多打码验证平…
你好 由于你是游客 无法查看本文 请你登录再进 谢谢合作 当你在爬某些网站的时候 需要你登录才可以获取数据 咋整? 莫慌 小帅b把这几招传授给你 让你以后从容应对 那么 接下来就是 学习 python 的正确姿势 登录的常见方法无非是这两种 1.让你输入帐号和密码登录 2.让你输入帐号密码+验证码登录 今天 小帅b先跟你说说第一种 需要验证码的咱们下一篇再讲 第一招 Cookie大法 你平常在上某个不为人知的网站的时候 是不是发现你只要登录一次 就可以一直看到你想要的内容 过了一阵子才需要再次登…
我们在之前的文章谈到了高效爬虫 在 python 中 多线程下的 GIL 锁会让多线程显得有点鸡肋 特别是在 CPU 密集型的代码下 多线程被 GIL 锁搞得效率不高 特别是对于多核的 CPU 来说 如果想要充分利用 CPU 还是用多进程吧 这样我们就可以做到并行爬取 提高了爬取的效率 那么,怎么玩多进程呢 恩 接下来就是 学习 python 的正确姿势 可以使用 multiprocessing 来实现多进程 使用起来也是很简单的 比如我们使用 Process 这个类来创建进程 from mul…
我们上次说了伪装头部 ↓ python爬虫17 | 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部 让自己的 python 爬虫假装是浏览器 小帅b主要是想让你知道 在爬取网站的时候 要多的站在对方的角度想问题 其实 这和泡妞差不多 你要多站在妹纸的角度思考 她的兴趣是什么 她喜欢什么 而不是自己感动自己 单方面的疯狂索取 哦.. 扯远了 我们回到反爬虫 这次教你怎么伪装自己的 ip 地址 别让对方轻易的就把你给封掉 如何伪装呢 那么 接下来就是 学习 python 的正确姿势…
有时候 只是在人群中多看了一眼 就再也没办法忘掉那些容颜 小帅b在普通的一天 上着普通的网 不小心打开了一个不太普通的网站 https://www.mzitu.com/ 从此进入了不普通的一天 看着不普通的妹纸 动起了不普通的心思 恩 这么多妹纸 不爬取下来 可惜了 那么 接下来就是 学习 python 的正确姿势 首先我们来分析一下 打开这个妹纸的网站首页 可以看到一共有 211 页 其中 每一页有不同妹纸的主图 再点击进去就是每个妹纸的详情组图 每一个妹纸的组图中的图片数量不同 比如其中一个…
快 快了 啊 嘿 小老弟 想啥呢 今天这篇爬虫教程的主题就是一个字 快 想要做到秒爬 就需要知道 什么是多进程 什么是多线程 什么是协程(微线程) 你先去沏杯茶 坐下来 小帅b这就好好给你说道说道 关于线程这玩意 沏好茶了吗 那么 接下来就是 学习 python 的正确姿势 首先我们来了解什么是进程 进程就是正在运行的程序 比如你的系统现在运行着的微信 就是一个进程 一旦你的「微信」运行起来 系统就会给「微信」分配了内存和资源 那什么是单进程呢? 单进程就是说你的电脑只能做一件事情 比如 你在电…
你知道吗? 在我的心里 你是多么的重要 就像 恩 请允许我来一段 freestyle 你们准备好了妹油 你看 这个碗 它又大又圆 就像 这条面 它又长又宽 你们 在这里 看文章 觉得 很开心 就像 我在这里 给你们 写文章 觉得很开心 skr~~ 不好意思 走错片场了 ok.. 接下来,就是 学习 python 的正确姿势 咱们在上一次的 python爬虫13 | 秒爬,这多线程爬取速度也太猛了,这次就是要让你的爬虫效率杠杠的 了解了一些 python 高效爬虫的概念 比如多线程.多进程.协程等…
在上一篇中 python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 小帅b给大家透露了我们这篇要说的牛逼利器 selenium + phantomjs 如果你看了 python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处 那么你应该知道 selenium 是什么了 它能做到自动操作 比如我们上次说的自动百度苍老师 但有时候 我们不想要让它打开浏览器去执行 能不能直接在代码里面运行呢 也就是说 有没有一个无形的浏览器呢 恩 phantomJS 就是 它是一…
在前面我们玩了好多静态的 HTML 想必你应该知道怎么去爬这些数据了 但还有一些常见的动态数据 比如 商品的评论数据 实时的直播弹幕 岛国动作片的评分 等等 这些数据是会经常发生改变的 很多网站就会用到 Json 来传输这些数据 因为 Json 非常轻量 用 key-value 的形式封装成对象 就像 python 里的字典似的 那么遇到 Json 我们应该怎么玩呢? 这次 小帅b以「爬取微信好友列表」为例 告诉你怎么玩 Json 数据 那么接下来就是 学习python的正确姿势     微信有…
今天 小帅b想给大家讲一个小明的小故事 ... 话说 在很久很久以前 小明不小心发现了一个叫做 学习python的正确姿势 的公众号 从此一发不可收拾 看到什么网站都想爬取 有一天 小明发现了一个小黄网 里面的小姐姐 一个比一个诱人 看了一会这个小黄网 小明不知道在倒腾什么 反正30秒之后小明虎躯一震 .... 那天晚上 小明躺在床上 夜不能寐 脑子一直都停留在那个小黄网上 突然灵光一闪 我这不是刚学了爬虫技术么 我应该把那个网站上的小姐姐都爬取到自己的电脑啊 就算下次那个小黄网没了 自己也还有…
作为一个男人 在最高光的时刻 就是说出那句 之后 还不会被人打 ... 虽然在现实生活中你无法这样 但是在这里 就让你体验一番 那种呼风唤雨的感觉 我们之前在爬取某些网站的时候 使用到了一些 python 的请求库 模拟浏览器的请求 我们需要抓包啥的 能不能不这样 可不可以就写几行代码 让它自己去打开浏览器 自己去请求我们要爬取的网站 自己去模拟我们的一些搜索 等等 反正就是 老子躺着,让它自己动 躺好 让 selenium 满足你的要求 怎么玩呢? 那么接下里就是 学习 python 的正确姿…
马上就要过年啦 过年在家干啥咧 准备好被七大姑八大姨轮番「轰炸」了没? 你的内心 os 是这样的 但实际上你是这样的 应付完之后 闲暇时刻不妨看看电影 接下来咱们就来爬取豆瓣上评分最高的 250部电影 这次我们就要来使用上次说的 BeautifulSoup+ Reuqests 进行爬取啦 这次 我们将爬取到的内容存放到 excel 吧 那么 接下来就是 学习 python 的正确姿势   我们还是老样子 先摸清对方的底 知己知彼 百战不殆 首先打开我们的目标链接 https://movie.do…
我们上次做了 你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍 有些朋友觉得 利用正则表达式去提取信息 太特么麻烦了 有没有什么别的方式 更方便过滤我们想要的内容啊 emmmm 你还别说 还真有 有一个高效的网页解析库 它的名字叫做 BeautifulSoup 那可是   它   是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 那么这么玩呢 ... 接下来就是 学习python的正确姿势       首先我们要安装一下这个库 pip install beauti…
现在 你已经会使用 python 模拟浏览器 进行一些 Http 的请求了 那么请求完之后 服务器返回给我们一堆源代码 我们可不是啥都要的啊 我们是有原则的 我们想要的东西 怎么能一股脑的啥都往自己兜里塞呢? 使不得 使不得 所以 在服务器返回给我们的源码之中 我们要过滤 拿到我们想要的就好 其它就丢一旁 那么 我们就需要学会怎么使用 正则表达式   通过它 我们才能过滤出我们想要的内容 ... 接下来就是 学习 python 的正确姿势 真香警告 这篇文章不适合急性子的人看,要不然会把手机砸了…
来啦,老弟 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 ... 那么接下来 我们就使用 requests 和 re 来写一个爬虫 作为一个爱看书的你(说的跟真的似的) 怎么能发现好书呢? 所以我们 爬取当当网的前 500 本好五星评书籍 怎么样? ok 接下来就是 学习 python 的正确姿势   请在电脑的陪同下 边看本文边练习   首先我们要对我们的目标网站进行分析 先摸清对方的底 我们才能战无不胜 打开…