使用requests+pyquery爬取dd373地下城跨五最新商品信息

废话不多说直接上代码：

　　可以使用openpyel库对爬取的信息写入Execl表格中代码我就不上传了

import requests

from urllib.parse import urlencode

from requests import RequestException

from pyquery import PyQuery as pq

def open_sh():

    #获取dd373html信息

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

    }

    data = {

        "minPrice":333,

        "maxPrice":""

    }

    url = "https://www.dd373.com/s/rbg22w-x9kjbs-wwf11b-0-0-0-qquvn4-0-0-0-0-0-0-0-0.html?"+urlencode(data)

    try:

        response = requests.get(url,headers=headers)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        print("链接错误",url)

        return None

def doc_page(html):

    # 获取地下城账号信息

    doc = pq(html)

    content = doc("div.content")

    titleText = content.find(".box.money_ner").items()

    for items in titleText:

        product = {

            "地址":items.find("a.titleText").attr("href"),

            "账号信息":items.find("a.titleText").text(),

            "价格":items.find("div.money_text strong span").text()+'元',

            "是否存在":items.find("div.num.left").text()

        }

        print(product)

def page_sh(pagebox):

    # 循环遍历所有分页

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

    }

    data = {

        "minPrice": 333,

        "maxPrice": ""

    }

    for page in range(1,pagebox+1):

        url = "https://www.dd373.com/s/rbg22w-x9kjbs-wwf11b-0-0-0-qquvn4-0-0-0-0-0-0-0-%s.html?%s"%(page,urlencode(data))

        try:

            page1 = page_currentpage(url)

            if page1==page:

                response = requests.get(url, headers=headers)

                if response.status_code == 200:

                    doc_page(response.text)

        except Exception as e:

            raise e

def page_currentpage(html):

    # 获取分页中被高亮的页数用于判断是否在 当前页面

    doc = pq(html)

    currentpage= doc("a.nb.currentpage").text()

    return int(currentpage)

def page_box(html):

    # 获取所有的页码

    doc = pq(html)

    pagebox = doc(".pagebox.clear ul li.yeshu").text()[9:-1]

    return int(pagebox)

def main():

    html = open_sh()

    page = page_box(html)

    page_sh(page)

if __name__ == "__main__":

    main()

使用requests+pyquery爬取dd373地下城跨五最新商品信息的更多相关文章

利用Python爬虫爬取指定天猫店铺全店商品信息
本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示首先还是完 ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
requests+正则表达式爬取ip
#requests+正则表达式爬取ip #findall方法,如果表达式中包含有子组,则会把子组单独返回出来,如果有多个子组,则会组合成元祖 import requests import re def ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...

随机推荐

STL用法整理
百度百科 STL是Standard Template Library的简称,中文名标准模板库,惠普实验室开发的一系列软件的统称.从根本上说,STL是一些“容器”的集合,这些“容器”有list,vect ...
怎么写自己的CMakeLists.txt
一. 为什么要使用cmake 理论上说,任意一个C++程序都可以用g++来编译.但当程序规模越来越大时,一个工程可能有许多个文件夹和源文件,这时输入的编译命令将越来越长.通常一个小型C++项目可能含有 ...
源码分析 ucosii/source 任务源码详细分析
分析源码: 得先学会读文档, 函数前边的 note :是了解该程序员的思想的途径.不得不重视代码前边的 Notes,了解思想后,然后在分析代码时看他是如何具体实现的. 1. ucosii/sour ...
crontab计划任务实例
使用实例实例1:每1分钟执行一次command 命令: * * * * * command 实例2:每小时的第3和第15分钟执行命令: 3,15 * * * * command 实例3:在上午8点 ...
App自动化（2）--Python&Appium实现安卓手机九宫格解锁
九宫格作为常见的手势密码,我们在使用的时候,是从起点开始,按住不放,然后滑动手指,直到最后一个点松开手指,如果与设置的手势密码匹配,则解锁成功. 现在大多数九宫格作为一个元素存在,很难定位到每一个点. ...
elasticsearch中head插件中的定制增加用户名密码范例
在head插件目录下一般在 elasticsearch目录下的 plugins\head目录下在或 plugins\head\site目录下有一个index.html文件.把这个文件用下面 ...
DML、DDL、DCL的分别是什么
DML.DDL.DCL的分别是什么一直以来,分不清这三者的简称代表什么,甚至在面试中遇到可能会张冠李戴.今天特意记录一下. 一.DML(data manipulation language) 数据操 ...
2018-2019-2 20165232《网络对抗技术》Exp1 缓冲区溢出实验
2018-2019-2 20165232<网络对抗技术>Exp1 缓冲区溢出实验实验点1:逆向及Bof基础实践实践任务用一个pwn1文件. 该程序正常执行流程是:main调用foo函 ...
OA系统开发人事模块关于请假跨月的处理
前言:其实对于跨月的数据单独处理是不难的,但是对于后台显示页面,肯定不是单纯拼接一个where条件的,因此在我的项目也是如此,并不能够用普遍的方法来处理,此时就想尽量用简单的方法来处理跨月数据的准确性 ...
nginx配置vue项目部署访问无问题，刷新出现404问题
现象: 在浏览器中直接访问www.test.com/api1/login会404.但如果你先访问www.test.com后再点“登录" 跳转到www.test.com/api1/login是 ...

使用requests+pyquery爬取dd373地下城跨五最新商品信息

使用requests+pyquery爬取dd373地下城跨五最新商品信息的更多相关文章

随机推荐

热门专题