python爬百度文库课件

库:re;selenium;requests

源码：

from selenium import webdriver
import re
import requests

def open_img(items):
    for item in items:
        item = re.sub('&','&',item)
        rsp =requests.get(item)
        yield rsp.content

url ='https://wenku.baidu.com/view/4e3d35d969eae009581becd5.html?from=search'　　　　#可修改成别的ppt网址
browser =webdriver.Chrome()
try:
    browser.get(url)
    html =browser.page_source
    pattern =re.compile('<div class="ppt-page-item.*?src="(.*?)".*?>',re.S)
    items =re.findall(pattern,html)
    n =0
    for i in open_img(items):
        with open('%d.jpeg'%n,'wb') as file:
            file.write(i)·
            n +=1
            print('第%d张图片下载完成'%n)

finally:
    browser.close()
input()

python爬百度文库课件的更多相关文章

python使用selenium爬百度文库ppt并生成pdf
详细的讲解我是写在另外一个网址:https://www.yuque.com/docs/share/aacfa45c-22c5-4ef6-be97-cd6849002274 有点尬尴,所以就..... ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
python+selenium爬取百度文库不能下载的word文档
有些时候我们需要用到百度文库的某些文章时,却发现需要会员才能下载,很难受,其实我们可以通过爬虫的方式来获取到我们所需要的文本. 工具:python3.7+selenium+任意一款编辑器前期准备:可 ...
python 利用selenium爬取百度文库的word文章
今天学习如何使用selenium库来爬取百度文库里面的收费的word文档 from selenium import webdriver from selenium.webdriver.common.k ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python爬虫初学（二）—— 爬百度贴吧
Python爬虫初学(二)-- 爬百度贴吧昨天初步接触了爬虫,实现了爬取网络段子并逐条阅读等功能,详见Python爬虫初学(一). 今天准备对百度贴吧下手了,嘿嘿.依然是跟着这个博客学习的,这次仿照 ...
Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...
Python 爬取陈都灵百度图片
Python 爬取陈都灵百度图片标签(空格分隔): 随笔今天意外发现了自己以前写的一篇爬虫脚本,爬取的是我的女神陈都灵,尝试运行了一下发现居然还能用.故把脚本贴出来分享一下. import req ...
Python爬虫(一)爬百度贴吧
简单的GET请求: # python2 import urllib2 response = urllib2.urlopen('http://www.baidu.com') html = respons ...

随机推荐

CSS-图片占位的技巧
图片占位技巧,防止动态获取图片网络慢,页面一跳一跳的情况发生 .food .image-header { position: relative; width: 1 ...
useradd和groupadd（Linux创建用户\用户组\设置\分配用户权限\多用户远程登录权限）的使用
前言: man useradd man groupadd info useradd info groupadd 都可以获取相关命令的用法信息. 个人比较喜欢读英文解释文档,没有你想象的那么comp ...
Gym101889J. Jumping frog（合数分解+环形dp预处理）
比赛链接:传送门题目大意: 一只青蛙在长度为N的字符串上跳跃,“R”可以跳上去,“P”不可以跳上去. 字符串是环形的,N-1和0相连. 青蛙的跳跃距离K的取值范围是[1, N-1],选定K之后不可改 ...
java-14习题
.使用TreeSet集合生成一个不重复随机数组,该数组包含10个100以内的随机整数.输出该随机数组. import java.util.Iterator; import java.util.Tree ...
a链接中 JS弹出确认对话框方法
一种: <a href="javascript:if(confirm('确实要删除该内容吗?'))location='http://www.google.com'">弹 ...
hadoop的一点小常识(1.0环境)
Linux下安装gradle
Linux下安装gradle 1. Gradle 是以 Groovy 语言为基础,面向Java应用为主.基于DSL(领域特定语言)语法的自动化构建工具下面就描述一下如何在linux环境下安装配置gr ...
2018-2019-2 20165313 Exp3 免杀原理与实践
实践内容(3.5分) 1.1 正确使用msf编码器,msfvenom生成如jar之类的其他文件,veil-evasion,自己利用shellcode编程等免杀工具或技巧:(1.5分) 1.2 通过组合 ...
简单尝试利用维控LeviStudioU的一栈缓冲区溢出漏洞
这是别人给我发的,让我分析一下,看能否写出exp.只怪自己水平不够,最后没能写出exp,以下为自己的分析思路环境为win10 pro x64 英文版(10.0.16299) 默认安全配置一.漏洞分 ...
KiCad EDA 原理图库的最佳实践
KiCad EDA 原理图库的最佳实践由于有 Alias 别名元件,可以不用一个每一个元件都有一个元件. 对每种元件类型建议一个元件库. 因为 Value 和元件名是一样的,所以元件名要尽可能的简 ...

python爬百度文库课件

python爬百度文库课件的更多相关文章

随机推荐

热门专题