接上篇 下面开始分析弹幕信息: 当我们在完成和服务器的握手之后,b站的弹幕服务器就会开始不停的开始给我们推送相关房间的弹幕消息了.老规矩前面16个字节是这个包的相关信息,我们先来看下这条消息的前面16字节在说什么. 00 00 01 38 头部四字节表达数据大小这可以看到是312字节. 00 10 这两个字节还是magic_number.这里是16. 00 00 版本号0. 00 00 00 05 上篇我们介绍了07是进入房间信息,这里05代表弹幕消息. 00 00 00 00 包类型正常消息包…
辞职之后 休息了一段时间,最近准备开始恢复去工作的状态了,所以搞点事情来练练手.由于沉迷b站女妆大佬想做个收集弹幕的然后根据弹幕自动回复一些弹幕的东西.网上搜了一下有个c#的版本,感觉还做得不错,于是准备自己也搞一个,顺便分析一下b站家的协议. 收集需要的信息: 我首先使用charles或者如果你是windows平台的话使用findder抓下http包.看下是否弹幕信息使用的是http api来进行传输的.抓了半天,我并没有发现任何关于弹幕的信息,就可以判定没有走http.其实仔细想下,弹幕是有…
一.B站弹幕的爬取 1.分析发现,其弹幕都是通过list.so?=cid这个文件加载出来的,所以我们找到这个文件的请求头的请求url, 2. 打开url就能看到所有的评论 3. 上代码,解析 #!/usr/bin/env python# -*- coding: utf-8 -*-#author tom import requests from lxml import etree headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64;…
前言 本次爬取的视频av号为75993929(11月21的b站榜首),讲的是关于动漫革命机,这是一部超魔幻现实主义动漫(滑稽),有兴趣的可以亲身去感受一下这部魔幻大作. 准备工作 B站弹幕的爬取的接口 https://api.bilibili.com/x/v1/dm/list.so?oid= 打开开发者模式,其中的oid的值 获取视频发出以来的所有弹幕,构造URL https://api.bilibili.com/x/v2/dm/history?type=1&oid=129995312&d…
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发   做此项目前请先阅读 http://3060674.blog.51cto.com/3050674/1439129  项目实战之:网站用户访问质量分析监测分析项目开发 为什么做这个项目? 我想讲,当你身处一家上市公司,公司老板又创业明星,大家都认识他,用户一访问不了你的网站就会蛋疼的@你老板,即使是他自己在拉屎时不小心把网线扯掉了,想想老板的微博天天收到的都是你家网站挂了的消息时那种一脸黑线的感觉 吧.他想,我是花钱养了一堆…
一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为  http://comment.bilibili.com/14295428.xml import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpR…
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样一个简单的尝试,从搭建环境到跑通demo,不懂语法,不知含义,装好环境,查到API,跑通Demo,就是目标!纯零基础萌新! 关于环境的安装及调试过程中遇到的问题记录请移步 二.Python爬取B站弹幕 环境说明 windows8.1 x64+python3.6+scrapy1.4 参考文档: scr…
之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了. 这篇实战包含两个内容. * 利用爬虫调用Api来解析照片的拍摄位置 * 利用爬虫爬取Bilibili视频中的弹幕 关于爬虫调用Api这一说法,其实就是通过get或者post请求携带着参数,将内容发给对方服务器,服务器会根据请求的Api是哪个来进行处理. 比如说/delete?id=2和/save?id=1&name=antz这两个请求就分别是删除id等于2的数据,保存一条id等于1姓名为antz的数据.…
[原创]Android Monkey 在线日志分析工具开发 在移动App测试过程中,Monkey测试是我们发现潜在问题的一种非常有效手段,但是Android原生的Monkey有其天然的不足,数据不能有效的去解读,同时也不能提供非常清晰的信息,所以针对这个问题,我们设计了一款Monkey在线日志分析工具,可以实现如下功能:…
B站弹幕爬取 单个视频弹幕的爬取 ​ B站弹幕都是以xml文件的形式存在的,而xml文件的请求地址是如下形式: http://comment.bilibili.com/233182992.xml ​ 其中,233182992是cid,这个需要从原视频的网页中获取.获取了cid之后,就可以按照上述的形式拼接请求地址,发送get请求,获取对应的xml文件. cid获取 ​ 以华农兄弟的某个视频为例,进入视频主页. 右键启用检查模式 选择网络(Network),刷新网页 点开第一个文件,选择响应(re…