pyspider—爬取视频链接

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2015-03-20 09:46:20

# Project: fly_spider

import re

import time

#from pyspider.database.mysql.mysqldb import SQL

from pyspider.libs.base_handler import *

from pyquery import PyQuery as pq

class Handler(BaseHandler):

    headers= {

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

    "Accept-Encoding":"gzip, deflate, sdch",

    "Accept-Language":"zh-CN,zh;q=0.8",

    "Cache-Control":"max-age=0",

    "Connection":"keep-alive",

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36"

    }

    crawl_config = {

        "headers" : headers,

        "timeout" : 100

    }

    @every(minutes= 1)

    def on_start(self):

        self.crawl('http://www.zhanqi.tv/games',callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        print(response)

        for each in response.doc('a[href^="http://www.zhanqi.tv/games/"]').items():

            if re.match("http://www.zhanqi.tv/games/\w+", each.attr.href, re.U):

                self.crawl(each.attr.href,

                fetch_type='js',

                js_script="""

                function() {

                    setTimeout(window.scrollTo(0,document.body.scrollHeight), 5000);

                }

                """,callback=self.list_page)  

    @config(age=1*60*60, priority=2)

    def list_page(self, response):

        for each in response.doc('.active > div.live-list-tabc > ul#hotList.clearfix > li > a').items():

            if re.match("http://www.zhanqi.tv/\w+", each.attr.href, re.U):

                self.crawl(each.attr.href,

                fetch_type='js',

                js_script="""

                function() {

                    setTimeout(window.scrollTo(0,document.body.scrollHeight), 5000);

                }

                """,callback=self.detail_page)    

    @config(age=1*60*60, priority=2)

    def detail_page(self, response):

        for each in response.doc('.video-flash-cont').items():

            d = pq(each)

            print(d.html())

        return {

            "url": response.url,

            "author":response.doc('.meat > span').text(),

            "title":response.doc('.title-name').text(),

            "game-name":response.doc('span > .game-name').text(),

            "users2":response.doc('div.live-anchor-info.clearfix > div.sub-anchor-info > div.clearfix > div.meat-info > span.num.dv.js-onlines-panel > span.dv.js-onlines-txt > span').text(),

            "flash-cont":d.html(),

            "picture":response.doc('.active > img').text(),

            }

pyspider—爬取视频链接的更多相关文章

Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
python爬虫（爬取视频）
爬虫爬视频爬取步骤第一步:获取视频所在的网页第二步:F12中找到视频真正所在的链接第三步:获取链接并转换成机械语言第四部:保存保存步骤代码 import re import request ...
爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）
先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码运行 <!DOCTYPE html><html><head& ...
20190728-Python爬取视频&切割视频&视频加水印
1.视频爬取 1.下载视频的源码如下: import os import requests from bs4 import BeautifulSoup import threading from bj ...
网络字体反爬之pyspider爬取起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
使用pyspider爬取巨量淘宝MM图片
具体搭建步骤不再赘述,这里主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相当智能,在不能获取图片的时候会适当的暂停一段时间再试探性的爬取,配合fakeagent ...
PySpider爬取去哪儿攻略数据项目
1 创建项目点击WEB中的Create创建项目填入相关项目名和其实爬取URL 创建后进入项目首页右边 Handler 是pyspider的主类,整个爬虫一个Handler,其中可定义爬虫的爬取. ...
以“有匪”为实战案例，用python爬取视频弹幕
最近腾讯独播热剧"有匪"特别火,我也一直在追剧,每次看剧的时候都是把弹幕开启的,这样子看剧才有灵魂呀.借助手中的技术,想爬取弹幕分析下这部电视剧的具体情况和网友们的评论!对于弹幕的 ...
Python+Requests+异步线程池爬取视频到本地
1.本次项目为获取梨视频中的视频,再使用异步线程池下载视频到本地 2.获取视频时,其地址中的Url是会动态变化,不播放时src值为图片的地址,播放时src值为mp4格式 3.查看视频链接是否存在aja ...

随机推荐

python的@classmethod和@staticmethod
本文是对StackOverflow上的一篇高赞回答的不完全翻译,原文链接:meaning-of-classmethod-and-staticmethod-for-beginner Python面向对象 ...
前端开发 - CSS - 下
CSS: 12.display 13.浮动效果 14.浮动特性 15.浮动产生的问题和解决方法 16.float京东导航栏 17.position 18.z-index 19.京东案例 12.disp ...
Golang&Python测试thrift
接上篇,安装好之后,就开始编写IDL生成然后测试. 一.生成运行参考 http://www.aboutyun.com/thread-8916-1-1.html 来个添加,查询. namespace ...
PostgreSQL学习手册-模式Schema（转）
原文:http://www.cnblogs.com/stephen-liu74/archive/2012/04/25/2291526.html 一个数据库包含一个或多个命名的模式,模式又包含表.模式还 ...
ansible（1）
一.初识ansible 1.准备工作: 准备四台干净的虚拟机,如下: 192.168.133.129(主控节点,下面三个为被控节点) 192.168.133.130 192.168.133.131 1 ...
mysql复习-来源考试
mysql复习- No1 .登录和权限 (一)常用命令1.登录mysqlmysql -h localhost -u root -p 2.重启mysqlservice mysql restart 延 ...
vs2010帮助文件安装完全攻略
1.VS2010帮助文件不支持重新配置,这个时候打开C:\Program Files\Microsoft Help Viewer\1.0目录,找到“HelpLibManager.exe.config” ...
机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）
本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式常见的符号说明和损失函数 X :所有 ...
斯坦福第二课：单变量线性回归(Linear Regression with One Variable)
二.单变量线性回归(Linear Regression with One Variable) 2.1 模型表示 2.2 代价函数 2.3 代价函数的直观理解 I 2.4 代价函数的直观理解 I ...
如何在VC6.0下用pthread.h这个头文件
如何在VC6.0下用pthread.h这个头文件 1.下载PTHREAD的WINDOWS开发包 pthreads-w32-2-4-0-release.exe(任何一个版本均可) http://so ...

pyspider—爬取视频链接

pyspider—爬取视频链接的更多相关文章

随机推荐

热门专题