爬取豆瓣音乐TOP250的数据

参考网址：https://music.douban.com/top250

因为详细页的信息更丰富，本次爬虫在详细页中进行，因此先爬取进入详细页的网址链接，进而爬取数据。

需要爬取的信息有：歌曲名、表演者、流派、发行时间、出版者和评分等。

将数据分别使用TXT、JSON、CSV存储。

import re

import csv

import time

import json

import requests

from bs4 import BeautifulSoup

from requests import RequestException

def get_one_page(url):

    try:

        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36'

                   + '(KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

        response = requests.get(url, headers=headers)

        #response.encoding = response.apparent_encoding

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

def get_detailurl(text):

    detailurl = []

    soup = BeautifulSoup(text, 'lxml')

    nbg = soup.find_all(name='a', class_='nbg')

    for i in nbg:

        detailurl.append(i['href'])

    return detailurl

def parse_one_page(text):

    soup = BeautifulSoup(text, 'lxml') #使用lxml XML 解析库

    performer = soup.select('#info > span > span > a')

    #有标签没有属性的情况下用select, 否则用find_all

    song = soup.select('#wrapper > h1 > span')

    style = re.findall('流派:</span> (.*?)<br', text, re.S) #.*?非贪婪匹配

    #re.S使.匹配包括换行在内的所有字符

    if len(style) == 0: #有的页面没有流派,用NULL填充

        style.append('NULL')

    publisher = re.findall('出版者:</span> (.*?)?<br', text, re.S)

    if len(publisher) == 0: #有的页面没有出版者,用NULL填充

        publisher.append('NULL')

    pattern = re.compile('发行时间:</span> (.*?)?<br', re.S)

    #compile()将正则字符串编译成正则对象，方便之后复用

    time = re.findall(pattern, text)

    score = soup.find_all(name='strong', class_="ll rating_num")

    #有标签有属性的情况下用find_all

    yield {

        'performer': performer[0].string,

        'song': song[0].string,

        'style': style[0].strip(),

        'time': time[0].strip(),

        'publisher': publisher[0].strip(),

        'score': score[0].string,

    }

def write_to_file(content):

    with open('doubanMusicTop250.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False)+'\n')

        #dumps将json对象转化为字符串

def write_to_json(content):

    with open('doubanMusicTop250.json', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False)+'\n')

def write_to_csv(content):

    with open('doubanMusicTop250.csv', 'a', encoding='utf-8') as f:

        fieldnames = ['publisher', 'style', 'song', 'score', 'performer', 'time']

        writer = csv.DictWriter(f, fieldnames=fieldnames)

        writer.writeheader()

        writer.writerows(content)

if __name__ == '__main__':

    url = 'https://music.douban.com/top250?start={}'

    urls = [url.format(page) for page in range(0,256,25)]

    content = []

    for url in urls:

        text1 = get_one_page(url)

        detailurl = get_detailurl(text1)

        for i in detailurl:

            text2 = get_one_page(i)

            for item in parse_one_page(text2):

                print(item)

                write_to_file(item)

                content.append(item)

        time.sleep(1)

    write_to_csv(content)

    write_to_json(content)

爬取豆瓣音乐TOP250的数据的更多相关文章

Python爬虫小白入门（七）爬取豆瓣音乐top250
抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比pytho ...
实例学习——爬取豆瓣音乐TOP250数据
开发环境:(Windows)eclipse+pydev+MongoDB 豆瓣TOP网址:传送门一.连接数据库打开MongoDBx下载路径,新建名为data的文件夹,在此新建名为db的文件夹,d ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...

随机推荐

vSphere虚拟系统添加虚拟服务器
虚拟插槽数:插槽的概念与物理服务器的物理CPU类似,为虚拟机分配m个插槽,相当于为物理服务器配置了m颗物理CPU: 每个插槽的内核数:相当于物理服务器每颗物理CPU的核心数为n: 在上述条件下虚拟机获 ...
linux入门系列13--磁盘管理之RAID、LVM技术
前一篇文章学习了磁盘分区.格式化.挂载等相关知识,本文将讲解RAID和LVM技术. 磁盘管理操作主要是运维人员用的较多,如果只是单纯的开发人员,可以先略过本文.但是在很多小公司里往往都是一人多用,运维 ...
MySQL数据库的备份、还原、迁移
一.单库备份与还原 1.远程连接MySQL数据库 D:\mysql-5.7.14-winx64\bin>mysql -h192.168.2.201 -uroot -pcnbi2018 参数说明: ...
c++ bool
bool 就两个值,真或者假,通常用来存储关系表达式或者逻辑表达式的结果. 以前是用 int 来表示真假,大 int 有多个值,所以才规定 0 为假,非零为真,导致对应关系比较麻烦,有了 bool 就 ...
centos7配置Logstash同步Mysql数据到Elasticsearch
Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到您最喜欢的“存储库”中.个人认为这款插件是比较稳定,容易配置的使用Logstash之前,我们得明确 ...
everspin最新1Gb容量扩大MRAM吸引力
everspin提供了8/16-bit的DDR4-1333MT/s(667MHz)接口,但与较旧的基于DDR3的MRAM组件一样,时序上的差异使得其难以成为DRAM(动态随机存取器)的直接替代品. ...
python——面向对象(3)，搬家具
"""date: 2020.2.9搬家具:将小于房子剩余面积的家具搬进房子1.定义家具类,房屋类""" class Furniture(): ...
nodejs爬虫--抓取CSDN某用户全部文章
最近正在学习node.js,就像搞一些东西来玩玩,于是这个简单的爬虫就诞生了. 准备工作 node.js爬虫肯定要先安装node.js环境创建一个文件夹在该文件夹打开命令行,执行npm init初 ...
Bilibili手机端下载的Download文件批量转换为MP4软件【Bilibili_DownVideoToMp4】原创发布
Bilibili手机端下载的Download文件批量转换为MP4软件[Bilibili_DownVideoToMp4]原创发布起因 Bilibili手机端的视频下载下来只能在手机上看,手机屏幕太小看 ...
Git常用命令 - 随时更新
1. 配置用户信息 git config --global user.name <name> git config --global user.email <email_addres ...

爬取豆瓣音乐TOP250的数据

爬取豆瓣音乐TOP250的数据的更多相关文章

随机推荐

热门专题