python爬取梦幻西游召唤兽资质信息（不包含变异）

一.分析

1.爬取网站：https://xyq.163.com/chongwu/

2.获取网页源码：

request.get("https://xyq.163.com/chongwu/").text

这里就有问题了

这是查看网页源代码看到的源码，也是通过requests获取的源码，发现是空的

这是在检查处拿到的源码，发现有数据了

发现代码中没有使用json，js中也无相应json数据（2022.3.18更新：其实是有json文件的，当时没找到），因此数据是通过js动态加载出来的，因此选择selenium+火狐浏览器组合爬取页面（selenium是一个测试工具,selenium通过打开火狐驱动器加载火狐浏览器），可以获取加载js后的HTML页面

3.解析html，获取每个召唤兽data-id和名称

循环请求新的网址：https://xyq.163.com/chongwu/zhsxq.html?id=爬取的id&type=1

同样，新的网址依旧不能通过requests获取源代码

解析并抓取p标签的数据

二.代码实现：

from selenium import webdriver

from pyquery import PyQuery as pq

import pandas as pd

firefox_options = webdriver.FirefoxOptions()

firefox_options.add_argument('--headless')

browser = webdriver.Firefox(options=firefox_options)

browser.get("https://xyq.163.com/chongwu/")

resp = browser.page_source

browser.quit()

data = pq(resp)

ret = data(".xxd li").items()

zhs_list = []

title = ["召唤兽名称"]

count = 0

for i in ret:

    id = i.attr("data-id")

    name = i.text()

    browser2 = webdriver.Firefox(options=firefox_options)

    browser2.get("https://xyq.163.com/chongwu/zhsxq.html?id=%d&type=1" % int(id))

    resp2 = browser2.page_source

    browser2.quit()

    data2 = pq(resp2)

    ret2 = data2(".zhszz p").items()

    # 资质信息

    zizhi_list = [name]

    for j in ret2:

        if count == 0:

            top = j.text().split(" ")[0]

            title.append(top)

        zizhi = j('span').text()

        zizhi_list.append(zizhi)

    count += 1

    zhs_list.append(zizhi_list)

table = pd.DataFrame(zhs_list, columns=title)

print(table)

table.to_csv("梦幻西游召唤兽信息.csv",index=False,encoding="utf-8")

三.可能遇到的问题

1.如果没有下载selenium ，先下载

pip3 install selenium

2. 下载火狐浏览器驱动包firefoxdriver，https://github.com/mozilla/geckodriver/releases，下载完以后，将exe文件放入python.exe目录下，直接使用webdriver.Firefox()即可，否则就需要加上如下代码：

from selenium.webdriver.chrome.service import Service

s=Service(r"你的exe文件路径")

browser = webdriver.Firefox(service=s)

四.运行结果：

python爬取梦幻西游召唤兽资质信息（不包含变异）的更多相关文章

Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...
python 爬取bilibili 视频信息
抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的 ...
python爬取网业信息案例
需求:爬取网站上的公司信息代码如下: import json import os import shutil import requests import re import time reques ...
python爬取电影网站信息
一.爬取前提1)本地安装了mysql数据库 5.6版本2)安装了Python 2.7 二.爬取内容电影名称.电影简介.电影图片.电影下载链接三.爬取逻辑1)进入电影网列表页, 针对列表的html内 ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
python爬取考研专业信息
伴随着2021考研成绩的公布,2021考研国家线也即将到来.大家是否有过考研的想法了?如果想考研我们就需要了解很多的信息,但是百度的上有太多信息需要我们去一一的鉴别,是比较浪费时间的.所以我们可以学习 ...

随机推荐

将ISO镜像文件制作成USB disk
制作USB Live盘有Universal USB Installer.UNetbootin.WinSetupFromUSB.LinuxLive USB Creator.YUMI(Your Unive ...
Xmake 和 C/C++ 包管理
Xmake 是一个基于 Lua 的轻量级跨平台构建工具,关于 Xmake 与构建系统的介绍,我们已经在之前的文章中做了详细的介绍:C/C++ 构建系统,我用 xmake. 如果大家已经对 Xmake ...
[USACO20FEB]Equilateral Triangles P 题解
优雅的暴力. 设三个点为 \((i,j,k)\),则有 \(6\) 个未知数即 \(x_i,x_j,x_k,y_i,y_j,y_k\).又因为有 \(2\) 条关于这 \(6\) 个未知数的方程 \( ...
Python 让我舅舅的书法作品和 PIL 库发生点美的误会
Python 让我舅舅的书法作品和 PIL 库发生点美的误会 1. 前言不久之前写过一篇文章,详细介绍了 PIL 库中的 Image 模块的使用.曾经学习过.使用过一段时间的 PS,认识 PIL 后 ...
ActiveMQ-模块代码-02
模块模式 p2p模式生产者 ConfigBeanQueue package com.producerp2p.producerp2p; import org.apache.activemq.comma ...
利用公网Msf+MS17010跨网段攻击内网
其实很多小白在对利用msf进行ms17010攻击的时候总是不成功,其实这都是因为网上大部分的文章都是写的内网对内网(192.168.1.2-->192.168.1.3)这样的案例,今天写了一下利 ...
CVE-2010-2861（Adobe ColdFusion 文件读取漏洞）
漏洞介绍 Adobe ColdFusion是美国Adobe公司的一款动态Web服务器产品,其运行的CFML(ColdFusion Markup Language)是针对Web应用的一种程序设计语言. ...
面试官：volatile关键字用过吧？说一下作用和实现吧
volatile 可见性的本质类似于CPU的缓存一致性问题,线程内部的副本类似于告诉缓存区面试官:volatile关键字用过吧?说一下作用和实现吧 https://blog.csdn.net/ ...
Java IO流处理
字节流是由字节组成的;字符流是由字符组成的Java里字符由两个字节组成. 1字符=2字节JAVA中的字节流是采用ASCII编码的,字符流是采用好似UTF编码,支持中文的 Java IO流处理面试题汇 ...
tomcat 部署war，umask上传文件后无法通过nginx反向代理访问上传后的文件
Catalina.sh文件,把umask修改为 0022 即可. 引用:https://tomcat.apache.org/tomcat-8.5-doc/security-howto.html

python爬取梦幻西游召唤兽资质信息（不包含变异）

python爬取梦幻西游召唤兽资质信息（不包含变异）的更多相关文章

随机推荐

热门专题