使用Xpath爬取酷狗TOP500的歌曲信息

　　使用xpath爬取酷狗TOP500的歌曲信息, 将排名、歌手名、歌曲名、歌曲时长，提取的结果以文件形式保存下来。参考网址：http://www.kugou.com/yy/rank/home/1-8888.html

　　大概步骤：谷歌F12打开开发者工具-->在Elements找到想爬取的信息-->右键Copy XPath（或是根据Network里Response的代码手动写出Xpath路径）-->对比这类信息的xpath，再定位并提取这类信息

　　注意：我们获取的Network里Response的代码，Elements的html代码是经过渲染的，仅供参考

import time

import json

import requests

from lxml import etree

def get_one_page(url):

    try:

        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

        response = requests.get(url, headers=headers)

        response.encoding = response.apparent_encoding

        if response.status_code == 200:

            return response.text

        else:

            return None

        return None

    except RequestException:

        return None

def parse_one_page(text, id):

    html = etree.HTML(text)

    ranking = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/span[3]//text()')

    #top3的text()文本信息在strong标签下，是span的子孙节点，所以用//

    title = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/@title')

    length = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/span[4]/span/text()')

    if (id == 1):

        ranking = [i for i in ranking if i.strip() != '']

    #去除第一页提取到的空白信息

    for i in range(len(length)):

        yield {

            'ranking': ranking[i].strip(),

            'singer': title[i].split('-')[0].strip(),

            #以-分割，取第0个，并去除首尾空白

            'song': title[i].split('-')[1].strip(),

            'length': length[i].strip()

        }

def write_to_file(content):

    with open('kugou.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

        #ensure_ascii=False不为acsii码，为中文

def main(id):

    url = "http://www.kugou.com/yy/rank/home/" + str(id) + "-8888.html"

    text = get_one_page(url)

    for item in parse_one_page(text, id):

        print(item)

        write_to_file(item)

if __name__ == '__main__':

    for id in range(1,24):

        main(id)

        time.sleep(1)

使用Xpath爬取酷狗TOP500的歌曲信息的更多相关文章

【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
爬虫实例学习——爬取酷狗TOP500数据
酷狗网址:https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 环境:eclipse+pydev import requests from ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
python使用beautifulsoup4爬取酷狗音乐
声明:本文仅为技术交流,请勿用于它处. 小编经常在网上听一些音乐但是有一些网站好多音乐都是付费下载的正好我会点爬虫技术,空闲时间写了一份,截止4月底没有问题的,会下载到当前目录,只要按照bs4库就好, ...
python爬取酷狗音乐排行榜
本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如下
Python爬取酷狗飙升榜前十首（100）首，写入CSV文件
酷狗飙升榜,写入CSV文件爬取酷狗音乐飙升榜的前十首歌名.歌手.时间,是一个很好的爬取网页内容的例子,对爬虫不熟悉的读者可以根据这个例子熟悉爬虫是如何爬取网页内容的. 需要用到的库:requests ...
使用scrapy 爬取酷狗音乐歌手及歌曲名并存入mongodb中
备注还没来得及写,共爬取八千多的歌手,每名歌手平均三十首歌曲算,大概二十多万首歌曲 run.py #!/usr/bin/env python # -*- coding: utf-8 -*- __aut ...
python爬取酷狗音乐
url:https://www.kugou.com/yy/html/rank.html 我们随便访问一个歌曲可以看到url有个hash https://www.kugou.com/song/#hash ...
爬去酷狗top500的数据
import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3. ...

随机推荐

根据map中的某一key进行排序（快速排序实现）
/** * @author Gaoxl * 根据key值排序,要求key值能够转为Long类型(快速排序) * @param maps * @param key * @return */ public ...
《自拍教程29》Sublime_小脚本编写首选
Sublime Sublime 是一个轻量.简洁.高效.跨平台的编辑器, 最新的是Sublime Text 3. Sublime对Python支持非常好,如果只是简单的编写批处理脚本编写, 或者小范围 ...
toj 4353 Estimation(树状数组+二分查找)
Estimation 时间限制(普通/Java):5000MS/15000MS 运行内存限制:65536KByte总提交: 6 测试通过: 1 描述 “There are ...
linux中其他搜索命令(locate/which/whereis/grep)
目录 locate which whereis grep locate 解释命令名称:locate 命令所在路径:/usr/bin/locate 执行权限:所有用户功能描述:在文件资料库中查找文件 ...
StarUML之五、StarUMl中Formatting Diagram-格式化图
这章比较简单,主要是对视图元素的样式调整主要是在视图元素右下角设置,可以修改视图元素的相关样式字体样式颜色链接线样式对齐样式 Stereotype Display-视图元素的样式属性菜单F ...
BOS只读状态修改
update T_META_OBJECTTYPE set FSUPPLIERNAME ='PAEZ',FPACKAGEID =null
gRPC用法
官方文档前置技能 protobuf 什么是 gRPC? A high performance, open-source universal RPC framework RPC : Remote Pr ...
从零开始一个个人博客 by asp.net core and angular（一)
这是一个个人叙述自己建设博客的帖子,既然是第一篇那肯定是不牵扯代码了,主要讲一下大体的东西,微软最新的web框架应该就数asp.net core 3.1了这是一个长期支持版,而且是跨平台又开源版本,所 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
vue_day01
Vue_day01 1. 认识vue 1.1 什么是vue (1)Vue是构建界面的渐进式的js框架 (2)只关注视图层, 采用自底向上增量开发的设计. (3)Vue 的目标是通过尽可能简单的 API ...

使用Xpath爬取酷狗TOP500的歌曲信息

使用Xpath爬取酷狗TOP500的歌曲信息的更多相关文章

随机推荐

热门专题