RosimmImage

爬取Rosimm写真网站图片

有图有真相

def main_start(url):

    """

    爬虫入口，主要爬取操作

    """

    try:

        r = requests.get(url+'.html', headers=HEADERS, timeout=10).text

        print(url+'.html')

        name_index = 0

        # 套图名，也作为文件夹名

        folder_name = BeautifulSoup(r, 'lxml').find(

            'h1',class_='article-title').find('a').text.encode('ISO-8859-1').decode('utf-8')

        with lock:

            if make_dir(folder_name):

                # 套图张数

                max_count = BeautifulSoup(r, 'lxml').find(

                    'div',class_='pagination2').find_all('li')[-2].find('a').get_text()

                print('-------max_count-----'+max_count)

                # 套图页面

                page_urls=[]

                for i in range(1,(int(max_count)+1)):

                    if i==1:

                        page_urls.append(url + '.html')

                    else:

                        page_urls.append(url + '_' + str(i)+'.html')

                # 图片地址

                for index, page_url in enumerate(page_urls):

                    print('-----page_url-----'+page_url)

                    result = requests.get(

                        page_url, headers=HEADERS, timeout=10).text

                    img_url=BeautifulSoup(result,'lxml').find('article',class_='article-content').find_all('img')

                    for s_img_url in img_url:

                        real_img='http://www.rosimm8.com'+s_img_url.get('src')

                        print('-----real_img-----'+real_img)

                        name_index=name_index+1

                        save_pic(real_img,name_index)

    except Exception as e:

        print(e)

全部代码传送门：https://github.com/SiberiaDante/RosimmImage

仅供学习参考使用

Python轻松爬取Rosimm写真网站全部图片的更多相关文章

python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
python爬虫---爬取王者荣耀全部皮肤图片
代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...
python 3 爬取某小说网站小说，注释详细
目标:每一个小说保存成一个txt文件思路:获取每个小说地址(图一),进入后获取每章节地址(图二),然后进入获取该章节内容(图三)保存文件中.循环效果图: 每一行都有注释,不多解释了 import ...
Python爬虫爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
python爬虫爬取ip记录网站信息并存入数据库
import requests import re import pymysql #10页仔细观察路由 db = pymysql.connect("localhost",&quo ...

随机推荐

Properties集合_list方法与store方法
Properties集合和流对象结合的功能 list()方法: import java.util.Properties; public class PropertiesDemo { public st ...
RestTemplate 服务名请求
@loadBalance注解修饰的restTemplate才能实现服务名的调用,没有修饰的restTemplate是没有该功能的. @loadBalance是Netflix的ribbon中的一个负载均 ...
cmd 监控网络状况
提示:如果提示curl不是内部命令,请自行百度 windows 安装curl @echo off color 1f title 正在监控 echo 正在监控http://ioscheck.duapp. ...
kubernetes statefulset kafka 部署后，外部访问超时问题解决
k8s 内部的kafka要映射到外网,直接把 kafka 通过 expose 把pod 映射成服务,使用nodeport 连接,出现超时问题, 解决思路: 1. 查看zk中,kafka的注册信息,P ...
ubuntu 16.04 SS安装及配置
安装SS客户端安装pip3 一般情况下,pip3安装的版本比pip安装的新,pip安装的版本比apt安装的新,这里选择最新版本. sudo apt install python3-pip 安装SS ...
(转)清除已运行过Rancher和K8S的主机上的环境数据
文章转自 https://blog.csdn.net/CSDN_duomaomao/article/details/77684571?locationNum=5&fps=1 本文命令主要是参考 ...
shell编程之测试和判断
一.测试程序运行中经常需要根据实际情况来运行特定的命令或代码段.比如判断某个文件或目录是否存在,如果文件或目录不存在,可能首先创建文件或目录.举例说,要判断文件/var/log/mlocate文件是 ...
MATLAB——BP神经网络
1.使用误差反向传播(error back propagation )的网络就叫BP神经网络 2.BP网络的特点: 1)网络由多层构成,层与层之间全连接,同一层之间的神经元无连接 . 2)BP网络的传 ...
linux下模拟一个木马程序运行过程
预备知识: 将一个程序放入到后台,悄悄的执行 ./xxx.sh & 进程: 用户进程:由用户来管理系统进程:由系统内核自行管理系统中的每个进程,都有一个位置的ID,这就是pid,而且每次启 ...
LOJ2541 PKUWC2018 猎人杀期望、容斥、生成函数、分治
传送门首先,每一次有一个猎人死亡之后\(\sum w\)会变化,计算起来很麻烦,所以考虑在某一个猎人死亡之后给其打上标记,仍然计算他的\(w\),只是如果打中了一个打上了标记的人就重新选择.这样对应 ...

Python轻松爬取Rosimm写真网站全部图片

RosimmImage

爬取Rosimm写真网站图片

有图有真相

Python轻松爬取Rosimm写真网站全部图片的更多相关文章

随机推荐

热门专题