​ ​ 最近被室友安利热血动漫番<终末的女武神>和<拳愿阿修罗>,太上头了周末休息熬夜看完了.不过资源不太好找,辣条一怒爬取了资源,这下可以看个够了.室友崇拜连连,想起了我的班花,快点开学啊,阿西吧... Python爬虫-vip动漫采集 效果展示 ​ 爬取目标 网站目标:樱花动漫 ​ 工具使用 开发工具:pycharm 开发环境:python3.7, Windows10 使用工具包:requests,lxml, re,tqdm 重点学习内容 正则的使用 tqdm的使用 各种音频数…
年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐>,截止到目前为止,这两部剧在豆瓣分别为7.5分和7.9分,算是非常高的评分了. 今天我们就来跟大家聊一聊其中这部<我是余欢水>. 01 这些年 我们追过的 正午阳光作品 都说作为“国剧门脸”,正午阳光出品,必属精品,每一部都让人看得废寝忘食. 我们先看到近年来正午阳光出品的作品,举几个例子你就知道了: 2019年 都挺好 7.8分 2018年 大江大河 8…
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TM0831 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 页面分析 首先打开微信读书,往下拉之后可以看到有榜单推荐,而且显示总共有25个榜单,有的榜单只有几百本,有的榜单却有几万本书. 打开“文学艺术榜…
作为一个男人 在最高光的时刻 就是说出那句 之后 还不会被人打 ... 虽然在现实生活中你无法这样 但是在这里 就让你体验一番 那种呼风唤雨的感觉 我们之前在爬取某些网站的时候 使用到了一些 python 的请求库 模拟浏览器的请求 我们需要抓包啥的 能不能不这样 可不可以就写几行代码 让它自己去打开浏览器 自己去请求我们要爬取的网站 自己去模拟我们的一些搜索 等等 反正就是 老子躺着,让它自己动 躺好 让 selenium 满足你的要求 怎么玩呢? 那么接下里就是 学习 python 的正确姿…
快 快了 啊 嘿 小老弟 想啥呢 今天这篇爬虫教程的主题就是一个字 快 想要做到秒爬 就需要知道 什么是多进程 什么是多线程 什么是协程(微线程) 你先去沏杯茶 坐下来 小帅b这就好好给你说道说道 关于线程这玩意 沏好茶了吗 那么 接下来就是 学习 python 的正确姿势 首先我们来了解什么是进程 进程就是正在运行的程序 比如你的系统现在运行着的微信 就是一个进程 一旦你的「微信」运行起来 系统就会给「微信」分配了内存和资源 那什么是单进程呢? 单进程就是说你的电脑只能做一件事情 比如 你在电…
本文来自「楼+ 之数据分析与挖掘实战 」第 4 期学员 -- Yueyec 的作业.他爬取了B站上所有的番剧信息,发现了很多有趣的数据- 关键信息:最高播放量 / 最强up主 / 用户追番数据 / 云追番? 起源 「数据分析」从「数据挖掘」开始,Yueyec 同学选择了 BeautifulSoup 来爬取B站的番剧信息.部分代码如下: 完整的代码可在文末查看. 数据清洗 数据分析前,我们要对数据进行清洗. 爬取数据后,发现有些视频的播放次数为-1,可能是由于版权.封号等问题下架的视频,大约有10…
起因 因为本人家里有时候网速不行,所以看动漫的时候播放器总是一卡一卡的,看的太难受了.闲暇无聊又F12看看.但是动漫网站却无法打开控制台.这就勾起了我的兴趣.正好反正无事,去寻找下视频源. 但是这里事先说明,站长也不容易,提供这么好的动漫分享网站.这里就不把网站发出来了.喜欢这个站,想知道的可以联系我QQ 530428277  .只是想实践中锻炼,没有教授什么的含义. 第一天 思路 网站就匿了.F12无法打开,用开发者工具查看控制台,view-source查看源代码. 随便进入一部动漫查看源代码…
在B站学习这一节的时候,弹幕最为激烈,不管大家是出于什么目的都想体验一下网络爬虫爬取图片的魅力,毕竟之前的实例实话说都是一些没有太大作用的信息. 好了,直接上代码: import requests import os url = "http://t2.hddhhn.com/uploads/tu/201710/9999/6d639a228f.jpg" root = "D://pics//"#根目录 path = root + url.split('/')[-1]#本地…
Ajax,是利用JavaScript在保证页面不被刷新,页面链接不改变的情况下与服务器交换数据并更新部分网页的技术.简单的说,Ajax使得网页无需刷新即可更新其内容.举个例子,我们用浏览器打开新浪微博,进入某个用户的页面,当我们浏览到该页末尾时,会出现一个加载的动画,然后就刷新出来的新的微博内容,这个过程并不需要我们手动的刷新网页. Ajax的原理:发送Ajax请求到网页更新的这个过程可分为三步: 1.发送请求 2.解析内容 3.渲染网页 详细的原理介绍可参照:https://www.cnblo…
由于个人经常在空闲时间在b站看些小视频欢乐一下,这次就想到了爬取b站视频的弹幕. 这里就以番剧<我的妹妹不可能那么可爱>第一季为例,抓取这一番剧每一话对应的弹幕. 1. 分析页面 这部番剧的第一季就有15话,所以我们首先需要找到每一话对应的url,然后再去爬取每一话的弹幕. 1.1 找到每一话对应的url 打开番剧的首页,可以看到每一话的信息就展示在图中位置. 照惯例,我们首先对当前请求网页返回的数据进行查看,发现请求该url返回的只有一点简略的番剧信息,根本没有每一话的信息. 但是我们在浏览…