python实战之爬取喜玛拉雅专辑信息

 import urllib.request

 import json

 from lxml import etree

 url='http://www.ximalaya.com/dq/8.ajax'

 headers ={

     "User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

 }

 req = urllib.request.Request(url, headers= headers)

 response = urllib.request.urlopen(req)

 jsonobj=json.loads(response.read().decode('utf-8'))

 html=jsonobj['html']

 xml= etree.HTML(html)

 nodeList = xml.xpath('//div[@class="discoverAlbum_item"]')

 for node in nodeList:

     img=node.xpath('.//img/@src')

     print(img[0],end='\t')

     title=node.xpath('.//img/@alt')

     print(title[0],end='\t')

     href = node.xpath('./a/@href')

     print(href[0],end='\t')

采用xpath解析html

python实战之爬取喜玛拉雅专辑信息的更多相关文章

python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
python实战项目 — 爬取妹子图网，保存图片到本地
重点: 1. 用def函数 2. 使用 os.path.dirname("路径保存") , 实现每组图片保存在独立的文件夹中方法1: import requests from l ...
python实战项目 — 爬取中国票房网年度电影信息并保存在csv
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
python之scrapy爬取jd和qq招聘信息
1.settings.py文件 # -*- coding: utf-8 -*- # Scrapy settings for jd project # # For simplicity, this fi ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

随机推荐

ICMP协议广播以查询局域网内的所有主机
看到了很多局域网内的主机扫描工具,在想怎么去实现这样一个工具.前几天看了Ping源码--ICMP协议的实例,ICMP可以用来探测网联网内的任一主机,ICMP和广播地址结合来扫描局域网内的所有主机不是很 ...
linux 解决 Device eth0 does not seem to be present
在虚拟机中安装cent os系统,然后配置网络执行命令ifconfig 没有看到eth0的信息: 重启网卡报错: service network restart Shutting down loop ...
POJ3111 K Best —— 01分数规划二分法
题目链接:http://poj.org/problem?id=3111 K Best Time Limit: 8000MS Memory Limit: 65536K Total Submissio ...
jsp的4大作用域
jsp的4大作用域首先要声明一点,所谓“作用域”就是“信息共享的范围”,也就是说一个信息能够在多大的范围内有效.4个JSP内置对象的作用域分别为:application.session.reques ...
NOIP2008题解
传送门考查题型二分图暴力枚举判断素数 dp T1 传纸条题目描述小渊和小轩是好朋友也是同班同学,他们在一起总有谈不完的话题.一次素质拓展活动中,班上同学安排做成一个m行n列的矩阵,而小渊和 ...
初学者遇到的PostgreSQL字符集问题的解决
当初学者在使用PostgreSQL数据库,输入中文时,会遇到“ERROR: invalid byte sequence for encoding "UTF8": 0xd6d0”的 ...
笔记本电脑处理器(CPU)性能排行榜
笔记本电脑处理器(CPU)性能排行榜本排行榜随新款处理器(CPU)的发布而随时更新.更新日期:2012年7月15日排名型号二级+三级缓存前端总线(MHz) 功率(瓦) 主频(MHz) 核 ...
使用FPDF输出中文
① 下载FPDF相关资料=>https://github.com/DCgithub21/cd_FPDF ② 查看目录文件注:ttf2pt1.zip为字体转换程序 ③ 运行example.ph ...
A. Mishka and Game
time limit per test 1 second memory limit per test 256 megabytes input standard input output standar ...
Codeforces - 9D - How many trees? - 简单dp - 组合数学
https://codeforces.com/problemset/problem/9/D 一开始居然还想直接找公式的,想了想还是放弃了.原来这种结构是要动态规划. 状态是知道怎么设了,$t_{nh} ...

python实战之爬取喜玛拉雅专辑信息

python实战之爬取喜玛拉雅专辑信息的更多相关文章

随机推荐

热门专题