直接上代码,先来个爬取豆瓣图片的,大致思路就是发送请求-得到响应数据-储存数据,原理的话可以先看看这个

https://www.cnblogs.com/sss4/p/7809821.html

  1. import os#同来创造文件夹
  2. import requests#发送请求和得到响应用的
  3. from bs4 import BeautifulSoup#用来解析回应的数据
  4.  
  5. def GetHtmlText(url):#得到响应数据
  6. try:
  7. r = requests.get(url)#发送url
  8. r.raise_for_status()#判断是否成功
  9. r.encoding = 'utf-8'#设置编码格式
  10. return r.text#返回他的响应数据
  11. except:
  12. return ''
  13. def main(pages):
  14. filepath=os.getcwd()+'\爬的图片\\'#创造一个文件夹
  15. if not os.path.exists(filepath):#如果没有则创造
  16. os.makedirs(filepath)
  17.  
  18. pagenum=pages#要爬取的页数
  19. fnum=1
  20. for page in range(pages):
  21. url="https://movie.douban.com/celebrity/1048000/photos/?type=C&start="+str(page*30)+'&sortby=like&size=a&subtype=a'#第几页
  22. html=GetHtmlText(url)
  23. soup=BeautifulSoup(html,'html.parser')#htmlparser是解析器
  24. uls=soup.find_all('ul',class_="poster-col3 clearfix")#从响应的数据中找到ul classxxxx的数据
  25. for ul in uls:
  26. imgs=ul.find_all('img') #找到img的标签
  27. for img in imgs:
  28. imgurl=img['src']#得到imgurl
  29. imgcontent=requests.get(imgurl).content#得到这个url下的内容content,应该是二进制的
  30. filename=str(fnum)+'.jpg'
  31. with open(filepath+filename,'wb') as wf:#二进制形式写入数据
  32. wf.write(imgcontent)
  33. fnum+=1
  34.  
  35. if __name__ == '__main__':
  36. main(9)

再来个爬去标题类的

  1. import requests
  2. from bs4 import BeautifulSoup
  3.  
  4. url="http://www.jianshu.com"
  5. headers={'User-Agent':'SE 2.X MetaSr 1.0'}#设置请求头的User-Agent,理解的话可以认为是从哪个浏览器发出的,不然的话会被反爬虫
  6. page=requests.get(url=url,headers=headers)
  7. page_info=page.text
  8. page_bf=BeautifulSoup(page_info,'html.parser')
  9.  
  10. #print(page_bf.prettify())
  11. titles=page_bf.find_all('a','title')
  12.  
  13. for title in titles:
  14. print(title.string)
  15. print('http://www.jianshu.com'+title.get('href'))
  16. with open(r"D:\untitled\爬虫爬到的标题.txt","w",encoding='utf-8') as file:
  17. for title in titles:
  18. file.write(title.string+'\n')
  19. file.write("http://www.jianshu.com"+title.get('href')+'\n\n')

这个是下载小说的---(别人的代码)

  1. from bs4 import BeautifulSoup
  2. import requests,sys
  3. class downloader(object):
  4. def __init__(self):
  5. self.server="http://www.biqukan.com/"
  6. self.target="http://www.biqukan.com/1_1094"
  7. self.name=[]
  8. self.urls=[]
  9. self.nums=0
  10.  
  11. def get_download_url(self):
  12. req=requests.get(url=self.target)
  13. html=req.text
  14. div_bf=BeautifulSoup(html)
  15. div=div_bf.find_all('div',class_='listmain')
  16. a_bf=BeautifulSoup(str(div[0]))
  17. a=a_bf.find_all('a')
  18. self.nums=len(a[15:])
  19. for each in a[15:]:
  20. self.name.append(each.string)
  21. self.urls.append(self.server+each.get('href'))
  22. def get_contents(self ,target):
  23. req=requests.get(url=target)
  24. html=req.text
  25. bf=BeautifulSoup(html)
  26. texts=bf.find_all('div',class_='showtxt')
  27. texts=texts[0].text.replace('\xa0'*8,'\n\n')
  28. return texts
  29. def writer(self,name,path,text):
  30. write_flag=True
  31. with open(path,"a",encoding='utf-8') as f:
  32. f.write(name+'\n')
  33. f.writelines(text)
  34. f.write('\n\n')
  35.  
  36. dl=downloader()
  37. dl.get_download_url()
  38. print("开始下载")
  39. for i in range(dl.nums):
  40. dl.writer(dl.name[i], '一念永恒.txt', dl.get_contents(dl.urls[i]))
  41. sys.stdout.write(" 已下载:%.3f%%" % float(i/dl.nums) + '\r')
  42. sys.stdout.flush()
  43. print('《一年永恒》下载完成')

python3爬虫-快速入门-爬取图片和标题的更多相关文章

  1. python爬虫-基础入门-爬取整个网站《3》

    python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...

  2. python爬虫-基础入门-爬取整个网站《2》

    python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...

  3. python爬虫-基础入门-爬取整个网站《1》

    python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...

  4. Scrapy爬虫快速入门

    安装Scrapy Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. pip install sc ...

  5. scrapy爬虫系列之三--爬取图片保存到本地

    功能点:如何爬取图片,并保存到本地 爬取网站:斗鱼主播 完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...

  6. Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识

    网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...

  7. 爬虫---Beautiful Soup 爬取图片

    上一篇简单的介绍Beautiful Soup 的基本用法,这一篇写下如何爬取网站上的图片,并保存下来 爬取图片 1.找到一个福利网站:http://www.xiaohuar.com/list-1-1. ...

  8. python3爬虫之入门和正则表达式

    前面的python3入门系列基本上也对python入了门,从这章起就开始介绍下python的爬虫教程,拿出来给大家分享:爬虫说的简单,就是去抓取网路的数据进行分析处理:这章主要入门,了解几个爬虫的小测 ...

  9. python3 爬虫教学之爬取链家二手房(最下面源码) //以更新源码

    前言 作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构 这里以广州链家二手房为例:http:/ ...

随机推荐

  1. h5中video的一些坑

    最近我们的项目做了有关短视频的功能,当然视频的合成还是在客户端来完成,涉及到前端页面的部分就是要有一个H5的落地页,这个页面上要有对视频进行播放.起初我觉得这事儿还是挺简单的,不就是在页面上放一个&l ...

  2. 统计 SQL Server中的 Job 情况

    SELECT J.name 作业名称, P.step_id'步骤编号',P.step_name'步骤名称',p.SubSystem '步骤类型',P.command'执行命令', CASE freq_ ...

  3. OCR

    谷歌OCR光学字符识别窥探 - 简书 Tesseract OCR初探 利用Tesseract图片文字识别初探 _ TonyDeng's Blog Tesseract OCR(光学字符识别)教程 - C ...

  4. iOS之webview加载网页、文件、html的方法

    UIWebView  是用来加载加载网页数据的一个框.UIWebView可以用来加载pdf.word.doc 等等文件 生成webview 有两种方法,1.通过storyboard 拖拽  2.通过a ...

  5. 基于DCT的图片数字水印实验

    1. 实验类别 设计型实验:MATLAB设计并实现基于DCT的图像数字水印算法. 2. 实验目的 了解基于DCT的图像数字水印技术,掌握基于DCT系数关系的图像水印算法原理,设计并实现一种基于DCT的 ...

  6. Python Homework 001

    1 #!/usr/bin/env python 2 #-*- coding:utf-8 -*- 3 4 import getpass 5 name = "xilong" 6 pas ...

  7. vue调用豆瓣API加载图片403问题

    "豆瓣API是有请求次数限制的”,这会引发图片在加载的时候出现403问题,视图表现为“图片加载不出来”,控制台表现为报错403. 其实是豆瓣限制了图片的加载,我自己用了一个办法把图片缓存下来 ...

  8. js数组去重(多种写法)

    最基本的写法 使用indexOf() var arr = [1,1,5,77,32,54,2,4,5,2,2,4,52,2,2,2,2,2] //比较常规的语法使用indexOf来判断是否已经存在 g ...

  9. [Doctrine Migrations] 数据库迁移组件的深入解析二:自定义集成

    自定义命令脚本 目录结构 目前的项目结构是这样的(参照代码库): 其中,db/migrations文件夹是迁移类文件夹,config/db.php是我们项目原有的db配置,migrations.php ...

  10. openwrt利用openvpn两网互通

    目录 创建证书文件服务器端配置防火墙配置客户端配置uvs-001(远端PC)uvs-002(网关下属设备)测试连接 创建证书文件 安装证书工具 opkg openvpn-easy-rsa 创建证书 b ...