爬取爱奇艺电视剧url

----因为需要顺序，所有就用串行了----

import requests
from requests.exceptions import RequestException
import re
import json

def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('class="site-piclist_info_title ".*?title="(.*?)".*?href="(.*?)"', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            '电视剧名称': item[0],
            'URL': item[1],
        }

def parse_detail_page(html):
    pattern = re.compile('class="site-piclist_info_title".*?href="(.*?)".*?target="_blank">.*?(\d+).*?</a>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'url': item[0],
            '集数': item[1],
        }

def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')

def main(page_num):
    url = 'http://list.iqiyi.com/www/2/-------------11-{0}-1-iqiyi--.html'.format(page_num)
    html = get_one_page(url)
    rets = parse_one_page(html)
    for ret in rets:
        html = get_one_page(ret['URL'])
        r = ret['电视剧名称']
        write_to_file(r)
        rets2 = parse_detail_page(html)
        for ret2 in rets2:
            r = '第{0}集${1}$qiyi'.format(ret2['集数'], ret2['url'])
            write_to_file(r)

if __name__ == '__main__':
    for i in range(1, 31):
        main(i)

爬取爱奇艺电视剧url的更多相关文章

使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）
1. 我们找到爱奇艺电视剧的链接地址 http://list.iqiyi.com/www/2/-------------11-1-1-iqiyi--.html 我们点击翻页发现爱奇艺的链接是这样的 ...
Python爬取爱奇艺资源
像iqiyi这种视频网站,现在下载视频都需要下载相应的客户端.那么如何不用下载客户端,直接下载非vip视频? 选择你想要爬取的内容该安装的程序以及运行环境都配置好下面这段代码就是我在爱奇艺里搜素“ ...
如何利用python爬虫爬取爱奇艺VIP电影？
环境:windows python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成需要的python模块: ##第一 ...
Python爬虫实战案例：爬取爱奇艺VIP视频
一.实战背景爱奇艺的VIP视频只有会员能看,普通用户只能看前6分钟.比如加勒比海盗5的URL:http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1 ...
Python爬取爱奇艺【老子传奇】评论数据
# -*- coding: utf-8 -*- import requests import os import csv import time import random base_url = 'h ...
casperjs 抓取爱奇艺高清视频
CasperJS 是一个开源的导航脚本和测试工具,使用 JavaScript 基于 PhantomJS 编写,用于测试 Web 应用功能,Phantom JS是一个服务器端的 JavaScript A ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
动态获取爱奇艺上传视频mp4格式url地址
有时候,在工作中有些客户需要用到视频,我们大家都知道视频是非常的耗费流量的,因此,如果因为项目要求客户单独买台视频服务器是非常划不来的.那么将视频上传到优酷,爱奇艺等视频网站来托管那是一件很好的解决方 ...

随机推荐

20145221 《Java程序设计》课程总结
20145221 <Java程序设计>课程总结每周读书笔记链接汇总 Atom使用心得 - 21世纪的编辑器网络安全攻防学习平台 - 基础关 Java实现:数据结构之排序 2014522 ...
Linux服务器使用tar加密压缩文件
使用tar命令进行加密压缩时需要和OpenSSL进行结合加密压缩命令如下: tar -zcf - filename |openssl des3 -salt -k passwd | dd of=fil ...
zabbix3.2源码升级至3.4
安装见:https://www.cnblogs.com/LuckWJL/p/9037007.html 一.下载3.4版本安装包二.停ZabbixServer [root@wcy ~]# /etc/i ...
SQL——DDL简单语句
基于MySQL的: status 命令查看MySQL当前信息 show databases; 命令列出所有数据库模式 use test; use命令切换到指定数据库模式 show tables; 列出 ...
window下rabbitmq环境安装
最近项目想用个MQ来做业务分离,看了市面上众多产品,最后选了rabbitmq,理由很简单,对window的支持很到位(其实是公司的系列产品都是.net的). 安装方法什么的就不说了,直接到官网下载双击 ...
Android手机无线adb
1.首先电脑,手机通过数据线链接电脑,然后通过adb devices 查看到已连接 2.输入:adb tcpip 5555 3.输入:adb connect 222.222.221.137:5555 ...
使用AspNetPager进行分页，查询条件丢失问题
在Asp.Net中使用AspNetPager进行分页时,发现一个问题: 当通过查询条件进行查询后,对查询结果进行翻页操作时,查询条件会丢失. 当修改UrlPaging属性后(设置UrlPaging=“ ...
Linux网络编程--洪水攻击详解
洪水攻击详解 ①注解:洪水攻击(FLOOD ATTACK)是指利用计算机网络技术向目标主机发送大量无用的数据报文,使得目标主机忙于处理无用的数据报文而无法提供正常服务的网络行为. 主要原理:利用了网络 ...
UVA-11903 Just Finish it up
题目大意:一个环形跑道上有n个加油站,每个加油站可加a[i]加仑油,走到下一站需要w[i]加仑油,初始油箱为空,问能否绕跑道一圈,起点任选,若有多个起点,找出编号最小的. 题目分析:如果从1号加油站开 ...
Reverse engineer powerdesigner link odbc
Reverse engineer powerdesigner link odbc Option Explicit ValidationMode = True Interactive ...

爬取爱奇艺电视剧url

爬取爱奇艺电视剧url的更多相关文章

随机推荐

热门专题