用python爬校花网

import requests

import re

import hashlib,time

def get_index(url):

    response=requests.get(url)

    if response.status_code == 200:

        return response.text

def parse_index(res):

    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)

    return urls

def get_detail(urls):

    for url in urls:

        if not url.startswith('http'):

            url='http://www.xiaohuar.com%s' %url

        r1=requests.get(url)

        if r1.status_code == 200:

            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)

            if url_list:

                mp4_url=url_list[0]

                # print(mp4_url)

                save(mp4_url)

def save(url):

    print('Download:%s' %url)

    r2=requests.get(url)

    if r2.status_code == 200:

        m=hashlib.md5()

        m.update(url.encode('utf-8'))

        m.update(str(time.time()).encode('utf-8'))

        filename='%s.mp4' %m.hexdigest()

        file_path=r'D:\\爬虫视频\%s' % filename

        with open(file_path,'wb') as f:

            f.write(r2.content)

def main():

    for i in range(5):

        res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)

        res2=parse_index(res1)

        get_detail(res2)

if __name__ == '__main__':

    main()

基于上面代码开多线程爬取视频，优化下载速度

# 异步，多线程优化下载速度

import requests

import re

import hashlib,time

from concurrent.futures import ThreadPoolExecutor

p=ThreadPoolExecutor(30)

def get_index(url):

    response=requests.get(url)

    if response.status_code == 200:

        return response.text

def parse_index(res):

    res=res.result()

    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)

    # return urls

    for url in urls:

        p.submit(get_detail,url)

def get_detail(urls):

    for url in urls:

        if not url.startswith('http'):

            url='http://www.xiaohuar.com%s' %url

        r1=requests.get(url)

        if r1.status_code == 200:

            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)

            if url_list:

                mp4_url=url_list[0]

                # print(mp4_url)

                save(mp4_url)

def save(url):

    print('Download:%s' %url)

    r2=requests.get(url)

    if r2.status_code == 200:

        m=hashlib.md5()

        m.update(url.encode('utf-8'))

        m.update(str(time.time()).encode('utf-8'))

        filename='%s.mp4' %m.hexdigest()

        file_path=r'D:\\爬虫视频\%s' % filename

        with open(file_path,'wb') as f:

            f.write(r2.content)

def main():

    for i in range(5):

        p.submit(get_index,'http://www.xiaohuar.com/list-3-%s.html' %i).add_done_callback(parse_index)

        # res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)

        # res2=parse_index(res1)

        # get_detail(res2)

if __name__ == '__main__':

    main()

用python爬校花网的更多相关文章

Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Python 爬虫校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得.... 1.第一步,需要下 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...
Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
python_爬校花图片
如何用python爬取校花图片并保存到本地来? 1. 获取什么数据? 校花名字 name 校花所在学校 school 校花图片的url img_ulr 2.如何获取? 打开网页http://ww ...

随机推荐

Graph Theory
Description Little Q loves playing with different kinds of graphs very much. One day he thought abou ...
软件工程第四周作业之四则运算-C#实现
拿到题目的时候,快放假了,也没心思做.十月七号的一下午大概从两点做到八点半,加上十月八号的十二点半到两点半,做了一共八个半小时,去掉吃饭半个小时那么一共做了八个小时. 逆波兰表达式我是扒的别人代码,没 ...
JavaWeb基础 - 会话
会话概述什么是会话简单的理解:用户打开浏览器,点击多个超链接,访问Web服务器上多个资源,然后关闭浏览器,整个过程称之为一次会话. 需要解决的问题每个用户在使用浏览器与服务器会话的过程中,会产生 ...
MVC4 DropDownList (二) — 省市联动
1.添加省份和城市类 //省份 public class Province { public int Id { get; set; } public string Name { get; set; } ...
软工网络15个人作业4-alpha阶段个人总结（201521123059 叶文柠）
一.个人总结 (1) 类别具体技能和面试问题现在回答毕业找工作时语言最拿手的计算机语言之一,代码量多少? 感觉自己没有最拿手的语言,而且拿手的在计算机网络这方面的,所以在软件变成这方面的代码 ...
如何彻底解决adb 5037端口被占用
在进行安卓开发的时候是不是经常碰到adb端口被占用的情况? 解决这个问题的方法很简单,只需要设置一个系统环境变量就可以搞定. 设置方法: 增加系统环境变量变量名称:ADNROID_ADB_SERVER ...
Git 应用补丁报错 “sha1 information is lacking or useless”
因为现场代码在客户局域网内,不能连接到公司网络,所以一般更新的时候都是打补丁, 然后在客户现场应用补丁,但是最近在应用补丁的时候出现了如下问题: ... fatal: sha1 information ...
第22天：js改变样式效果
一.输出语句 1.alert:弹出警示框(用的非常少,用户体验不好)完整写法:window.alert(“执行语句”):window对象,窗口,一般情况可省略alert(123); 2.console ...
【.Net】Visual Studio的调试技巧
这是我写的关于VS2010和.Net4发布的博客系列的第26篇. 今天的博文包含了一些有用的能用于VS的调试技巧. 我的朋友Scott Cate(他写了很多很好的关于VS使用技巧和窍门的博客)最近向我 ...
《转》HTTP 协议入门
HTTP 协议是互联网的基础协议,也是网页开发的必备知识,最新版本 HTTP/2 更是让它成为技术热点. 本文介绍 HTTP 协议的历史演变和设计思路. 一.HTTP/0.9 HTTP 是基于 TCP ...

用python爬校花网

用python爬校花网的更多相关文章

随机推荐

热门专题