前言

继使用requests库爬取好看视频的文章后，本文分享使用python第三方库selenium库接着来爬取视频网站，后续也会接着分享使用第三方库DrissionPage爬取视频。

selenium简介

selenium是一个用于web应用测试的工具集，它可以直接运行在浏览器中，就像真正的用户在操作一样。它主要应用在自动化测试，web爬虫和自动化任务中。selenium提供了很多编程语言的接口，如java，python，c#等。这让开发者可以自己编写脚本来自动化web应用的测试。

实战案例

话不多说，直接上源码

from selenium import webdriver   # 浏览器驱动

from selenium.webdriver.common.by import By  # 用来定位web页面上的元素

import time             # 时间函数

import os               # 文件管理模块

import requests        # 数据请求模块

if not os.path.exists('./videos1'):  # 创建文件夹

    os.mkdir('./videos1')

def video(data):     # 定义请求每个详细视频的函数

    for url in data:   # 遍历每个详细视频的地址

        driver=webdriver.Chrome()   # 初始化浏览器实例

        driver.get(url)               # 打开url页面

        src=driver.find_element(by=By.CLASS_NAME, value='art-video')  # 获取每个详细视频的详细地址

        src=src.get_attribute('src')

        name=driver.find_element(by=By.CLASS_NAME, value='videoinfo-title')  # 获取每个详细视频的标题

        name=name.text

        video_detail=requests.get(src).content     # 对每个详细视频进行请求

        with open('./videos1/'+name+'.mp4','wb') as f:  # 存储视频

            f.write(video_detail)

        print(name,src)

        driver.quit()        # 关闭浏览器

driver=webdriver.Chrome()     # 初始化浏览器实例

driver.get("https://haokan.baidu.com/")  # 打开网址

for i in range(1,6):

    driver.execute_script("document.documentElement.scrollTop=2000")  # 页面下滑

    time.sleep(1)

time.sleep(2)

data_video=driver.find_elements(by=By.CLASS_NAME,value='videoItem_videoitem__Z_x08') # 对视频信息进行定位

data=[]        # 定义空列表，用来存储每个时评的地址

for a in data_video:  #

    href=a.get_attribute("href")  # 获取视频地址

    data.append(href)

print(data)

time.sleep(2)

driver.quit()   # 关闭浏览器

video(data)   # 调用video()函数

共勉

能力决定下限，机会决定上限

博客

本人是一个渗透爱好者，不时会在微信公众号（laity的渗透测试之路）更新一些实战渗透的实战案例，感兴趣的同学可以关注一下，大家一起进步。
- 之前在公众号发布了一个kali破解WiFi的文章，感兴趣的同学可以去看一下，在b站（up主:laity1717）也发布了相应的教学视频。

爬虫案例2-爬取视频的三种方式之一：selenium篇(2)的更多相关文章

js页面取值的三种方式
<input id=""<radio <checkbox<div<img对于这些标签内参数取值,一般分为三种类型:一.有关id取值用 #:取id处的v ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
【爬虫问题】爬取tv.sohu.com的页面, 提取视频相关信息
尝试解决下面的问题问题: 爬取tv.sohu.com的页面, 提取视频相关信息,不可用爬虫框架完成何为视频i关信息?属性有哪些? 需求: 做到最大可能的页面覆盖率 *使用httpClient 模拟 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

随机推荐

洛谷P2864
来一发在洛谷的第一篇题解解析首先从原点出发回到原点会形成一个环要计算在环上的路程,首先我们要破环利用建墙法破环可以选取任意一个边缘上的树,往上或者往下或者往左往右建立一堵墙'|' 这样利用b ...
.NET周刊【7月第1期 2024-07-07】
国内文章学习.NET 8 MiniApis入门 https://www.cnblogs.com/hejiale010426/p/18280441 MiniApis是ASP.NET Core中的轻量级 ...
[无线隔离]同一WIFI下两主机无法互联
问题描述在公司WIFI下想进行两台主机之间的数据传输,却发现虽在同一网段且防火墙关闭也无法ping通. 在一台主机下查看ARP表,发现没有对方的IP与MAC记录. 使用Wireshark抓包,发现虽 ...
oeasy教您玩转vim - 49 - # 命令进阶
命令进阶回忆上节课内容我们上次研究vim的历史为什么会有行编辑器这种东西竟然是当年没有显示器只有纸的时代的无奈之举 vim进化到今天依然还有好多人使用而且ssh连接的时候直接vim就 ...
App如何利用推送消息有效实现拉新促活？
对于大多数App来说,如何快速建立与用户的联系.提高用户活跃度.提升用户转化率,是产品运营过程中十分关心的问题,在常见的运营手段中,Push推送消息以其高性价比成为首选策略.但在实际运营过程中,推送消 ...
利用路由守卫实现token过期后返回登录界面
const timeX = localStorage.getItem("time");//如果有时间戳存在会判断token是否过期if(timeX!==null){ const t ...
【Vue2】Filter 过滤器
过滤器案例: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT ...
【Hibernate】02 快速入门
环境搭建 : Windo7 x64 + IDEA 2018+ JDK 8+ Maven 3.0+ MySQL 5.0+ 创建Hibernate工程: 导入依赖坐标 <dependencies&g ...
跨平台字幕制作软件ARCTIME
官网:http://arctime.cn/
国产操作系统 deepin —— UOS 系统下使用蓝牙音箱或蓝牙耳机不能正常工作
近日搞来了一个国产CPU的电脑,自带系统为UOS,具体可见: https://www.cnblogs.com/devilmaycry812839668/p/14828130.html 忽然发现这个系统 ...

爬虫案例2-爬取视频的三种方式之一：selenium篇(2)

前言

selenium简介

实战案例

共勉

博客

爬虫案例2-爬取视频的三种方式之一：selenium篇(2)的更多相关文章

随机推荐

热门专题