python爬取哦漫画

 import requests

 from lxml import etree

 from bs4 import BeautifulSoup

 import os

 from selenium import webdriver

 #解析每个漫画分页并下载漫画

 def manhua(url):

     browser.get(url)

     #获取模拟访问的页面源码

     html=browser.page_source

     html = etree.HTML(html)

     img_url = html.xpath('//img[@id="mangaFile"]/@src')[0]

     alt = html.xpath('/html/body/div[2]/div[2]/h1/a/text()')[0]

     title = html.xpath('/html/body/div[2]/div[2]/h2/text()')[0]

     print(img_url,alt,title)

     # print(html)

     path='./漫画/'+alt+'/'+title+'/'

     if not os.path.exists(path):

         os.makedirs(path)

     fname=img_url.split('/')[-1]

     # print(fname)

     print(os.path.join(path,fname))

     # request.urlretrieve(img_url,os.path.join(path,fname))

     #请求图片地址

     response = requests.get(img_url)

     #二进制解码

     data= response.content

     #保存文件

     with open(path+fname,'wb') as f:

         f.write(data)

 #解析获取漫画分页链接

 def manhua_url(url):

     response = requests.get(url)

     response.encoding = response.apparent_encoding

     html = response.text

     html = etree.HTML(html)

     # print(html)

     #i为漫画页数

     i = html.xpath('/html/body/div[2]/div[2]/span/text()')[1][1:-1]

     i=int(i)

     # print(i)

     #找到分页规律

     #拼接分页链接，选择用format函数

     url = url +'/index.html?p={}'

     # print(url)

     for n in range(1,i+1):

         fullurl = url.format(n)

         print(fullurl)

         # time.sleep(2)

         #fullurl为所有的分页漫画链接

         manhua(fullurl)

 #解析列表页

 def list(lb_url):

     response = requests.get(lb_url)

     response.encoding = response.apparent_encoding

     html = response.text

     html = BeautifulSoup(html,'lxml')

     #匹配所有章节链接

     url_list = html.select('div.subBookList ul li')

     for url in url_list :

         url = url.select('a')[0].get('href').split('/')[-2]

         # print(url)

         fullurl = os.path.join(lb_url,url)

         print(fullurl)

         #章节链接

         manhua_url(fullurl)

     # print(url_list)

     # print(html)

 #解析首页

 def shouye():

     #首页链接

     base_url = 'http://www.omanhua.com/'

     #发起请求

     response = requests.get(base_url)

     #解码

     response.encoding = response.apparent_encoding

     #获取返回的网页

     html = response.text

     # print(html)

     #解析

     html =BeautifulSoup(html,'lxml')

     #匹配最热漫画链接

     url_list = html.select('ul#cartoon_image_show1 li')

     for url in url_list:

         # print(url)

         url = url.select('a')[0].get('href')[1:]

         # alt = url.select('a')

         # print(alt)

         #拼接链接

         fullurl = os.path.join(base_url,url)

         print(fullurl)

         list(fullurl)

 if __name__ == '__main__':

     # 用自动测试模块selenium模拟浏览器访问，这里用谷歌 图片加载获取不到图片链接

     #后面的路径是chorm驱动路径

     browser = webdriver.Chrome(executable_path=r'C:\Users\zhaozhi\Desktop\chromedriver.exe')

     shouye()

刚开始自学爬虫不久，代码可能写的有点繁琐，希望和大家一起学习学习进步

python爬取哦漫画的更多相关文章

Node.js/Python爬取网上漫画
某个周日晚上偶然发现了<火星异种>这部漫画,便在网上在线看了起来.在看的过程中图片加载很慢,而且有时候还不小心点到广告,大大延缓了我看的进度.后来想到能不能把先把漫画全部抓取到本地再去看. ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

随机推荐

Linux基础命令和文件权限
Linux命令与文件权限 Linux基础命令 reboot 重启 cd 切换目录 cd .. 回到上一级目录 cd ~ 回到主目录 cd / ...
rocketmq 部署启动指南-Docker 版
最近学习使用 rocketmq,需要搭建 rocketmq 服务端,本文主要记录 rocketmq 搭建过程以及这个过程踩到的一些坑. 准备工作在搭建之前,我们需要做一些准备工作,这里我们需要使用 ...
Servlet，过滤器和监听器的配置和使用
一.什么是Servlet Servlet使用Java语言实现的程序,运行于支持Java语言的Web服务器或者应用服务器中.Servlet先于JSP出现,提供和客户端动态交互的功能.Servlet可以处 ...
SCRUM的四大支柱
转自:http://www.scrumcn.com/agile/scrum-knowledge-library/scrum.html#tab-id-9 迭代开发在Scrum的开发模式下,我们将开发周 ...
迷宫问题 POJ - 3984 [kuangbin带你飞]专题一简单搜索
定义一个二维数组: int maze[5][5] = { 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, ...
"ANDROID" 支持的KEYCODE
例子: adb shell input text keyevent 4 0 --> "KEYCODE_UNKNOWN" 1 --> "KEYCODE_ ...
Mysql之zip格式的安装
Mysql之zip格式的安装一.配置环境变量首先,我新建一个文件夹,将其改名为MySQL Sever 5.6,其路径为D:\Program Files (x86)\MySQL\MySQL Seve ...
【LeetCode】78-子集
题目描述给定一组不含重复元素的整数数组 nums,返回该数组所有可能的子集(幂集). 说明:解集不能包含重复的子集. 示例: 输入: nums = [1,2,3] 输出: [ [3], [1], [ ...
数论 Day 13
数论_CRT(中国剩余定理)& Lucas (卢卡斯定理) 前言又是一脸懵逼的一天. 正文按照道理来说,我们应该先做一个介绍. 中国剩余定理中国剩余定理,Chinese Remainde ...
一次写文，多平台直接粘贴&打造最流畅的写作流程
文字爱好者的痛点这一段可以跳过,解决办法在后面.因为大家既然痛过,也就懂了. 对于很多文字爱好者来说,都希望写一篇文章后,可以实现多平台发布. 国内的很多平台都开始支持 Markdown,除了微信公 ...

python爬取哦漫画

python爬取哦漫画的更多相关文章

随机推荐

热门专题