Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）

1. 我们找到爱奇艺电视剧的链接地址

　　http://list.iqiyi.com/www/2/-------------11-1-1-iqiyi--.html

我们点击翻页发现爱奇艺的链接是这样的规律

　　http://list.iqiyi.com/www/2/-------------11-2-1-iqiyi--.html

　　http://list.iqiyi.com/www/2/-------------11-3-1-iqiyi--.html

2. 我们分析 http://list.iqiyi.com/www/2/-------------11-1-1-iqiyi--.html 请求过程

3.最后粘贴出来代码

# coding:utf-8

import re

import json, time

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import requests

session = requests.session()

def aiqiyi():

    for i in range(1,2000):

        url = "http://list.iqiyi.com/www/2/-------------11-"+ str(i) +"-1-iqiyi--.html"

        if i == 1:

            Referer = "http://list.iqiyi.com/www/2/-------------11-"+ str(i) +"-1-iqiyi--.html"

        else:

            Referer = "http://list.iqiyi.com/www/2/-------------11-" + str(i-1) + "-1-iqiyi--.html"

        headers = {

                "Host":"list.iqiyi.com",

                "Connection":"keep-alive",

                "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

                "Upgrade-Insecure-Requests":"",

                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36",

                "Referer":Referer,

                "Accept-Encoding":"gzip, deflate, sdch",

                "Accept-Language":"zh-CN,zh;q=0.8",

            }

        result = session.get(url=url,headers=headers).text

        soup = BeautifulSoup(result, 'html.parser')

        returnSoup = soup.find_all("div", attrs={"class": "wrapper-piclist"})[0]

        returnSoup1= str(returnSoup).replace('\r\n','').replace('\n','').replace(' ','').replace('"rseat="bigTitle','')

        href_title = re.findall('"data-widget-qidanadd="qidanadd"href="(.*?)"target="_blank"title=".*?"><imgalt="(.*?)"height="236"rseat="dsjp7"src=',str(returnSoup1))

        for i in href_title:

            href = i[0]

            title = i[1]

            href = str(href).split('#')[0]

            headers = {

                        "Connection":"keep-alive",

                        "Accept-Encoding":"gzip, deflate, sdch",

                        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

                        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36",

                        "Accept-Language":"zh-CN,zh;q=0.8",

                        "Host":"www.iqiyi.com",

                        "Upgrade-Insecure-Requests":"",

                    }

            result2 = session.get(url=href,headers=headers).text

            result3 = str(result2).replace('\r\n','').replace('  ','').replace('\n','').replace('    ','').replace(' ','')

            resultre = re.findall('<pclass="site-piclist_info_title"><ahref="(.*?)"rseat="705233_title"target="_blank">(.*?)</a></p>',str(result3))

            for i in resultre:

                print i[0],i[1],"-----------",title

            time.sleep(2000)

aiqiyi()

输出的结果是：

C:\Python27\python.exe C:/Users/xuchunlin/PycharmProjects/study/app/project/aiqiyiUrl.py

http://www.iqiyi.com/v_19rr91tio0.html 第1集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr91wki8.html 第2集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr91d9o0.html 第3集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr91c0yg.html 第4集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr90uigk.html 第5集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr90t1gc.html 第6集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8qb2ow.html 第7集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8q9fi4.html 第8集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8pr00c.html 第9集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8p0qdc.html 第10集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8occ3k.html 第11集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8npdfc.html 第12集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8nq9qw.html 第13集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8mzwhw.html 第14集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8n3c9k.html 第15集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8mcd7o.html 第16集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8mczus.html 第17集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8lscsk.html 第18集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8lq2c8.html 第19集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8v32rw.html 第20集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8uhouw.html 第21集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8tpcss.html 第22集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8t439c.html 第23集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8t1sdw.html 第24集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8sgdug.html 第25集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8sjsvc.html 第26集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8rx3j8.html 第27集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8rvxm0.html 第28集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8r96f0.html 第29集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8rdces.html 第30集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8qrzs4.html 第31集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rrdzwrsw.html 第32集 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8qw4r4.html 第33集预告 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8qqp08.html 第34集预告 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr8n78oo.html 第35集预告 ----------- 美味奇缘

http://www.iqiyi.com/v_19rr92rmic.html 第36集预告 ----------- 美味奇缘

1

Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）的更多相关文章

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
如何利用python爬虫爬取爱奇艺VIP电影？
环境:windows python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成需要的python模块: ##第一 ...
Python爬虫实战案例：爬取爱奇艺VIP视频
一.实战背景爱奇艺的VIP视频只有会员能看,普通用户只能看前6分钟.比如加勒比海盗5的URL:http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1 ...
Python爬取爱奇艺资源
像iqiyi这种视频网站,现在下载视频都需要下载相应的客户端.那么如何不用下载客户端,直接下载非vip视频? 选择你想要爬取的内容该安装的程序以及运行环境都配置好下面这段代码就是我在爱奇艺里搜素“ ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
Python爬取爱奇艺【老子传奇】评论数据
# -*- coding: utf-8 -*- import requests import os import csv import time import random base_url = 'h ...

随机推荐

开始整理iOS职位面试问题及答案
Object-c的类可以多重继承么?可以实现多个接口么?Category是什么?重写一个类的方式用继承好还是分类好?为什么? 答: Object-c的类不可以多重继承;可以实现多个接口,通过实现多个接 ...
Android之旅十四 android中的xml文件解析
在我们做有关android项目的时候,肯定会涉及到对xml文件的解析操作.以下给大家介绍一下xml文件的解析.包括DOM.SAX.Pull以及曾经我们用到的DOM4J和JDOM: 要解析的XML文件: ...
sessionid与cookie
转自:http://smiky.iteye.com/blog/649164 发现自己真的是很笨,过去一直用jsp,从来不用怕心用户信息放在session里面会找不到,现在不用jsp,前台全用html, ...
将matlab的figure保存为pdf，避免图片太大缺失
有时画的matlab图太大,或者有太多的子图,导致图太宽,如果直接保存成pdf的话,会导致左右边丢失,显示不下.一个有效又简单的办法是: 1.在matlab figure里面,Edit -> ...
实现SQL Server中的切割字符串SplitString函数
有时我们要用到批量操作时都会对字符串进行拆分,可是SQL Server中却没有自带Split函数,所以要自己来实现了.没什么好说的,需要的朋友直接拿去用吧 SET ANSI_NULLS ON GO S ...
GLSL 在OpenGL中向shader传递信息【转】
http://blog.csdn.net/hgl868/article/details/7872219 引言一个OpenGL程序可以用多种方式和shader通信.注意这种通信是单向的,因为shade ...
CSS3 Media Queries 详细介绍与使用方法[转]
Media Queries 就是要在支援CSS3 的浏览器中才能正常工作,IE8 以下不支援. 而Media Queries 的套用方法千变万化,要套用在什么样的装置中,都可以自己来定义. 关于Med ...
hadoop中的序列化与Writable类
本文地址:http://www.cnblogs.com/archimedes/p/hadoop-writable-class.html,转载请注明源地址. hadoop中自带的org.apache.h ...
（剑指Offer）面试题51：数组中重复的数字
题目: 在一个长度为n的数组里的所有数字都在0到n-1的范围内. 数组中某些数字是重复的,但不知道有几个数字是重复的.也不知道每个数字重复几次.请找出数组中任意一个重复的数字. 例如,如果输入长度为7 ...
double转成string时，不以科学计数法表示
用gson解析json串的时候,经常会自动把我想用string表示的内容转换成double,并且还是科学计数法,这一点也不科学,写个方法,格式化一下. public static String par ...

Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）

Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）的更多相关文章

随机推荐

热门专题