一.需求 好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫芦画瓢般尝试做一做.本文主要是通过网页的歌名搜索,然后获取到页面上的搜索结果,最后自行选择下载搜索结果中的哪条歌曲. 二.应用 在这个过程中,有很多坑,但还好撑过去了.过程中主要用到的东西有 fiddler抓包查看日志.浏览器JS的分析.python ASE的加密.request包 的简单应用.js…
import requests, re, json, os, time from fake_useragent import UserAgent from lxml import etree from urllib import parse class MyError(Exception): def __init__(self, status, msg): self.status = status self.msg = msg class WyRinking(): def __init__(se…
requests是python的一个HTTP客户端库,跟urllib,urllib2类似,但比那两个要简洁的多,至于request库的用法, 推荐一篇不错的博文:https://cuiqingcai.com/2556.html 话不多说,先说准备工作: 1,下载需要的库:request,BeautifulSoup( 解析html和xml字符串),xlwt(将爬取到的数据存入Excel表中) 2,至于BeautifulSoup 解析html方法,推荐一篇博文:http://blog.csdn.ne…
作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 爬虫综合大作业 选择一个热点或者你感兴趣的主题. 选择爬取的对象与范围. 了解爬取对象的限制与约束. 爬取相应内容. 做数据分析与文本分析. 形成一篇文章,有说明.技术要点.有数据.有数据分析图形化展示与说明.文本分析图形化展示与说明. 文章公开发布. 1. 数据爬取 爬虫部分主要是调用官方API,本次用到的API主要有两个: ①获取评论:http://musi…
在Ubuntu18.04.2LTS上使用wine安装qq,微信,迅雷,百度网盘,网易云音乐等软件 一.前言 在Linux上办公有一点一直是大家的痛,那就是这些系统上没有我们常用的一些软件,比如QQ,微信,百度网盘等等,这些不方便导致我们往往要打开两台电脑来进行办公,好在总有一些人意识到了这些问题,在Linux上使用一种虚拟的环境wine来虚拟出我们想使用的常用软件,下面我们来看看这些软件怎么安装和使用. 二.环境布置 2.1 安装git sudo apt-get install git 2.2…
昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 #!/usr/bin/python # coding: utf-8 import urllib.request import re #定义一个获取网页源码的子程序 head = "www.xiaodao.la" def get(): data = urllib.request.urlopen('http://www.xiaodao.la').read() #解码并去除无用文字 str = data.d…
Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下内容: 第二步:进入如下页面分析Network中的内容(网址.编码方式一般为gbk) 第三步:程序详细分析如下所示: # _*_ utf-8 _*_: # author:Administrator from urllib import request #导入请求库,有的版本是import reque…
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫的速度越来越快,很多时候,有人发现,数据爬不了啦,打印出来一看. 不返回数据,而且还甩一句话 是不是很熟悉啊? 要想想看,人是怎么访问网站的? 发请求,对,那么就会带有 request.headers, 那么当你疯狂请求别人的网站时候,人家网站的管理人员就会 觉得有点不对劲了, 他看看请求的 hea…
=====问题======= 虚拟机可以ping通外网,外网能ping通虚拟机但是收不到reply 这个问题本人遇到有两种情况: 1.安装完整openstack-kilo后,在route中和虚拟机中抓包得知,外网能ping通虚拟机,但是ping包在到达虚拟机后就不在了.从虚拟机ping出的包能到达外网网关并能得到reply回应. 2.使用模式的不同导致网络不通. OpenStack internal network (gre)-----------------|-----------------…
写了个小客户端,里面用到了获取内网和外网的IP地址,代码如下: // InnerIP var ipHost = Dns.Resolve(Dns.GetHostName()); ]; innerIP = ipaddress.ToString(); /// <summary> /// 获得客户端外网IP地址 /// </summary> /// <returns>IP地址</returns> private string GetClientInternetIP(…