煎蛋ooxx

pipeline.py

class Jiandanline(FilesPipeline):

    def get_media_requests(self, item, info):

        for file_url in item['file_urls']:

            yield scrapy.Request(file_url)

    def item_completed(self, results, item, info):

        file_paths = [x['path'] for ok, x in results if ok]

        if not file_paths:

            raise DropItem("Item contains no files")

        item['file_paths'] = file_paths

        return item

    def file_path(self, request, response=None, info=None):

        path = super().file_path(request, response=None, info=None)

        file_store = os.path.join(settings.FILES_STORE,'images')

        if not os.path.exists(file_store):

            os.mkdir(file_store)

        file_name =  os.path.join(file_store,path)

        # file_guid = request.url.split('/')[-1]

        # filename = u'full/{0[name]}/{0[albumname]}/{1}'.format(item, file_guid)

        return file_name

settings.py

ITEM_PIPELINES = {'jiandandan.pipelines.Jiandanline': 2}

FILES_STORE =r'F:\jiandan'

算是第一个运行成功的scrapy吧，特别开心

煎蛋ooxx的更多相关文章

[Python爬虫]煎蛋网OOXX妹子图爬虫（1）——解密图片地址
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
手把手教你用Python爬虫煎蛋妹纸海量图片
我们的目标是用爬虫来干一件略污事情最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛.而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路 ...
python爬虫学习(1)__抓取煎蛋图片
#coding=utf-8 #python_demo 爬取煎蛋妹子图在本地文件夹 import requests import threading import time import os from ...
python爬煎蛋妹子图--20多行代码搞定煎蛋妹子图库
如果说一个人够无聊的话... 就会做一些十分美(wei)丽(suo)的事情啦哈哈哈... 好的,话不多说,进入正题. 正如标题所示,我们今天的目标很简单: 代码要少,妹子要好. 步骤如下: 1. 首先 ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...

随机推荐

windows安装nexus3
1.下载nexus3 https://www.sonatype.com/download-oss-sonatype 2.解压文件D:\javatool\ 3.在path中配置环境变量 D:\javat ...
项目部署到tomcat
准备工作第一步准备项目部署文件准备项目中使用的数据库.sql文件. 准备项目程序(整个项目的war包文件) 第二步安装运行环境依次安装JDK.TOMCAT.MYSQL NAVICAT需要注意 ...
js 类数组对象arguments
function Add() { for (var i = 0; i < arguments.length; i++) { console.log(arguments[i]); } } Add( ...
html5 Canvas绘制时钟以及绘制运动的圆
1.绘制时钟  <script type="text/javascript"> window.onload=function(){ ...
9. http协议_响应状态码_页面渲染流程_路由_中间件
1. http协议超文本传输协议协议详细规定了浏览器和万维网服务器之间互相通信的规则客户端与服务端通信时传输的内容我们称之为报文(请求报文.响应报文) 常见的发送 get 请求方式在浏 ...
Reward List 赏金列表
博主昨晚正在刷题,突然手机语音大声提示“微信支付收款到账”,把博主吓了一跳,打开一看,居然收到了第一笔打赏,还是博主最喜欢的数字,老开心了-感谢网友对于博主工作的认可与支持,多谢多谢!不管大家是物质打 ...
PermissionDispatcher 运行时权限框架
第一步在app的build.gradle文件中添加: dependencies { // PermissionDispatcher 框架的使用 implementation 'com.github.h ...
Java正则表达式过滤并消除非法字符
package sd; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * * @author 大汉 * */ ...
关于python列表和元组的基本操作
一.列表列表是python中最常出现的一种数据存储形式,掌握列表的基本操作可以快速而有效的提高我们的代码书写效率.列表中存放的数据有如下基本操作:如增.删.改.查,掌握了这四个操作,就基本掌握了列表 ...
Codeforces 1154E - Two Teams - [线段树+链表]
题目链接:https://codeforces.com/contest/1154/problem/E 题意: $n$ 个人排成一排,第 $i$ 个人的能力值为 $a[i]$,$a[1 \sim n]$ ...

煎蛋ooxx

煎蛋ooxx的更多相关文章

随机推荐

热门专题