关于b站爬虫的尝试（一）

由于b站爬虫难度较小（url地址主要通过av定位），我第一的爬虫尝试就选择了b站

以下为初步的尝试。

首先，由于初步统计，b站空视频（已下架或者删除）的比例大概是百分之五十（统计样本基本在前几年的视频中），因此，我觉得使用简单的迭代搜索问题不大（如果为了减少一半的搜索量写大量爬虫逻辑代码比较浪费时间）我使用的是python自带的request获取b站页面源代码，然后本来想直接获取数据。然而，开始的数据（硬币，播放数等）并不能很容易的获取。因为b站的数据都是通过js动态加载，直接用request只能获得静态页面。不过问题不大，通过使用chrome开发者工具的监听抓包，我找出了js文件并发现b站对外的公共接口

弹幕接口为：http://comment.bilibili.com/%s.xml %cid

视频信息接口为：https://api.bilibili.com/x/web-interface/archive/stat?aid=%s %aid

其中，aid和cid为两个可以从页面源代码中获取的编号

以上，基本完成对b站视频的爬虫，当然单线程会出现速度慢的问题，目前先用

from multiprocessing.pool import Pool

解决，处理速度大概是100条/s，其中70%的时间用于request获取页面源码，30%时间用于request获取视频信息接口的json包

之后，看了网上的爬虫教程，部分人推荐使用seleium+PhantomJS的框架，因为PhantomJS作为无头浏览器，可以直接获取动态页面的数据，就可以不用再用抓包和访问api的方式获取信息了。但是，尽管PhantomJS是无头浏览器，相对的对系统的负载较小，但相对于传统的爬虫，功能上的损耗还是比较大的，经过测试，似乎除去了获取json包的时间，使用seleium的获取速度甚至比不上之前使用多线程的requests。这方面的问题可能需要再思考一下。

经统计，目前b站视频总数大概是2000,0000个，而且还在持续增长中，如果用100/s的速度获取，需要20,0000s,折合55h。这个数据应该还有改进的空间。

目前想到的是两种改进方式：

1.优化爬虫逻辑，筛除已下架视频（大概可以减少一半的时间）

2.尝试使用scrapy框架

另：目前用万级数据测试似乎没有因为访问频率过快被禁止访问，如果出现该情况应该会用sleep和尝试使用多ip地址访问

useRequest：

# -*-  coding:utf-8 -*-
import requests
import re
import json
import copy
from savecsv import savecsv
from savecsv import csvhead
from multiprocessing.pool import Pool
import time

# driver = webdriver.PhantomJS()
# driver.get("https://www.bilibili.com")
# count = 0
# dict = {}
#

# @profile
def myspider(av):
    dict = {}
    # global count
    # global dict
    url = 'https://www.bilibili.com/video/av%s/' % str(av)
    resp = requests.get(url)
    page = resp.text
    temp = re.search(r'<div class="v-title"><h1 title="(.+?)">', page)
    if temp:
        # count += 1
        title = re.search(r'<div class="v-title"><h1 title="(.+?)">', page).group(1)
        authorkit = re.search(r'r-info.+?title="(.+?)"', page)
        if authorkit:
            author = authorkit.group(1)
        aid = re.search(r'aid=(\d+)', page).group(1)
        cid = re.search(r'cid=(\d+)', page).group(1)
        print cid
        if aid:
            page = requests.get('https://api.bilibili.com/x/web-interface/archive/stat?aid=%s' % aid).text
            info = json.loads(page)
            dict[av] = copy.deepcopy(info['data'])
            dict[av]['title'] = title.encode('utf-8')
            dict[av]['author'] = author.encode('utf-8')
            savecsv(dict, "test.csv")
        # print title
        # print aid
        # print cid

if __name__ == "__main__":
    start = time.time()
    csvhead(['av','硬币','排名','copyright','标题','分享','up主','收藏','弹幕数','回复','aid','','最高排名','观看数'], 'test.csv')
    results = []
    mypool = Pool(processes=100)
    for av in xrange(10000):
        results.append(mypool.apply_async(myspider, args=(av,)))
        # myspider(7)
    mypool.close()
    mypool.join()
    end = time.time()
    print str(end - start)+'s'
useSeleium：

# -*-  coding:utf-8 -*-
import requests
import re
import json
import copy
from savecsv import savecsv
from savecsv import csvhead
from multiprocessing.pool import Pool
import time
from selenium import webdriver

# driver = webdriver.PhantomJS()
# driver.get("https://www.bilibili.com")
# count = 0
# dict = {}
#

# @profile
def myspider(av):
    dict = {}
    # global count
    # global dict
    url = 'https://www.bilibili.com/video/av%s/' % str(av)
    service_args = []
    service_args.append('--load-images=no')  ##关闭图片加载
    service_args.append('--disk-cache=yes')  ##开启缓存
    service_args.append('--ignore-ssl-errors=true')  ##忽略https错误
    service_args.append('--ssl-protocol=any')
    driver = webdriver.PhantomJS(service_args=service_args)
    driver.get(url)
    page = driver.page_source
    # resp = requests.get(url)
    temp = re.search(r'<div class="v-title"><h1 title="(.+?)">', page)

    if temp:
        # count += 1
        title = re.search(r'<div class="v-title"><h1 title="(.+?)">', page).group(1)
        authorkit = re.search(r'r-info.+?title="(.+?)"', page)
        if authorkit:
            author = authorkit.group(1)
        aid = re.search(r'aid=(\d+)', page).group(1)
        cid = re.search(r'cid=(\d+)', page).group(1)
        driver.quit()
        print aid
        print cid
        print title

if __name__ == "__main__":
    start = time.time()
    csvhead(['av','硬币','排名','copyright','标题','分享','up主','收藏','弹幕数','回复','aid','','最高排名','观看数'], 'test.csv')
    results = []
    # mypool = Pool(processes=100)
    # spiderpath()
    for av in xrange(10):
        # results.append(mypool.apply_async(myspider, args=(av,)))
        myspider(av)
    # mypool.close()
    # mypool.join()
    end = time.time()
    print str(end - start)+'s'

关于b站爬虫的尝试（一）的更多相关文章

关于b站爬虫的尝试（二）
前几天学习了scrapy的框架结构和基本的使用方法,部分内容转载自:http://blog.csdn.net/qq_30242609/article/details/52810840 scrapy由编 ...
【初码干货】记一次分布式B站爬虫任务系统的完整设计和实施
[初码文章推荐] 程序员的自我修养 Azure系列文章阿里云系列文章爬虫系列文章 [初码产品推荐] AlphaMS开发模式闪送达城市中央厨房今天带来一个有意思的东西-分布式B站爬虫任务系统这 ...
用Python+Aria2写一个自动选择最优下载方式的E站爬虫
前言 E站爬虫在网上已经有很多了,但多数都只能以图片为单位下载,且偶尔会遇到图片加载失败的情况:熟悉E站的朋友们应该知道,E站许多资源都是有提供BT种子的,而且通常打包的是比默认看图模式更高清的文件: ...
R语言爬虫初尝试-基于RVEST包学习
注意:这文章是2月份写的,拉勾网早改版了,代码已经失效了,大家意思意思就好,主要看代码的使用方法吧.. 最近一直在用且有维护的另一个爬虫是KINDLE 特价书爬虫,blog地址见此: http://w ...
基于Scrapy的B站爬虫
基于Scrapy的B站爬虫最近又被叫去做爬虫了,不得不拾起两年前搞的东西. 说起来那时也是突发奇想,想到做一个B站的爬虫,然后用的都是最基本的Python的各种库. 不过确实,实现起来还是有点麻烦的 ...
爬虫第六篇：scrapy框架爬取某书网整站爬虫爬取
新建项目 # 新建项目$ scrapy startproject jianshu# 进入到文件夹 $ cd jainshu# 新建spider文件 $ scrapy genspider -t craw ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...
某图片站反爬加密字段x-api-key破解
前言此次逆向的是某“你们都懂”领域的图片站,目前此站限制注册,非会员无法访问:前两天偶然搞到了份邀请码,进入后发现质量还可以,于是尝试爬取,在爬虫编写过程中发现此站点采用了不少手段来阻止自动化脚本( ...
Scrapy （网络爬虫框架）入门
一.Scrapy 简介: Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado) ...

随机推荐

sql数据库的基础语句
1, 创建数据库 create database database-name 2, 删除数据库 drop database dbname 3, 备份sql server 创建备份数据的device ...
spark 执行报错 java.io.EOFException: Premature EOF from inputStream
使用spark2.4跟spark2.3 做替代公司现有的hive选项. 跑个别任务spark有以下错误 java.io.EOFException: Premature EOF from inputSt ...
【AtCoder】ARC065
ARC065 C - 白昼夢 / Daydream 直接递推就好 #include <bits/stdc++.h> #define fi first #define se second # ...
20190805-Python基础第二章列表和元组（2）列表
1. list函数,用于将字符串转换为列表 2. 基本的列表操作修改列表 - 给元素赋值,使用索引表示法给特定的元素赋值,如x[1] = 2 删除元素 - 使用del语句即可 name1 = ['a ...
WIndows系统BAT文件语法和技巧原文的地址（http://www.jb51.net/article/5828.htm）
批处理文件是一个文本文件,这个文件的每一行都是一条DOS命令(大部分时候就好象我们在DOS提示符下执行的命令行一样),你可以使用DOS下的Edit或者Windows的记事本(notepad)等任何文本 ...
Django ORM相关的一些操作
一般操作看专业的官网文档,做专业的程序员! 必知必会13条 <1> all(): 查询所有结果 <2> filter(**kwargs): 它包含了与所给筛选条件相匹配的对象 ...
dev gridview 单元格值拖拽替换
public class GridViewDropCell { //dvginfo根据鼠标点击的x.y坐标获取该点的相关信息 private GridHitInfo downHitInfo; priv ...
mbedtls 入门
mbedtls 入门 https://segmentfault.com/a/1190000012007117 ARM mbedtls使开发人员可以非常轻松地在嵌入式产品中加入加密和SSL/TLS功能. ...
IOI2020只因训队作业胡做
w a r n i n g ! 意识流警告 !!1 不想一个个发了,干脆直接发个合集得了qwq 感觉这辈子都做不完了$Q\omega Q$ CF516D 写过题解了 CF505E 写过题解 ...
div 清除浮动的四种方法
概述:为了解决父级元素因为子级内部高度为0的问题 (很多情况不方便给父级元素高,因为不知道有多少内容,让里面的盒子自动撑起高度),清除浮动本质叫闭合浮动更好一些,清除浮动就是把浮动的盒子关到里面,让 ...

关于b站爬虫的尝试（一）

关于b站爬虫的尝试（一）的更多相关文章

随机推荐

热门专题