看了好几本大冰的书,感觉对自己的思维有不少的影响.想看看其他读者的评论.便想从当当下手抓取他们评论做个词云.想着网页版说不定有麻烦的反爬,干脆从手机客户端下手好了.果其不然,找到一个书评的api.发送请求就有详情的json返回,简直不要太方便... 要是对手机客户端做信息爬取,建议安装一个手机模拟器. 思路: 在安装好的手机模拟器设置好用来抓包的代理,我用的charles.记得安装证书,不然抓不了https的数据包. 然后安装当当客户端,打开进到书评页面. 然后成功在charles找到了这个接口…
1.词云图 词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 先看几个词云图 简书签约作者标签词云 全国政协常委会工作报告词云图 2.推荐几个不错的词云图工具 Tagul Tagul云可以自定义字体.词云的形状(有爱心.BUS.雪人.人像.UFO等),颜色等,做出来的词云图很酷炫,为网站访问者提供良好的用户体验.用户可以在网站做好词云图,然后印在衣服.杯子.鼠标垫等地方,自己设计…
百度音乐API抓取 前段时间做了一个本地音乐的播放器 github地址,想实现在线播放的功能,于是到处寻找API,很遗憾,不是歌曲不全就是质量不高.在网上发现这么一个APIMRASONG博客,有“获取榜单,搜索歌词,下载地址,专辑”信息等等接口. 后来发现有些接口使用起来不是很方便,比如获取专辑信息,只能得到歌曲列表的id信息,所以自己决定用fiddler来对百度音乐安卓客户端抓包. 下面是一系列的接口: 一. 关键词建议: GET: http://tingapi.ting.baidu.com/…
海王是前段时间大热的影片,个人对这种动漫题材的电影并不是很感兴趣.然鹅,最近这部电影实在太热了,正好最近看自然语言处理的时候,无意间发现了word cloud这个生成词云的库,还蛮好玩的,那就抓抓这部电影的影评来试试吧. 爬虫抓取豆瓣海王影评 首先我们登陆豆瓣,进入海王的影评页面.然后打开影评的每一页,看看url有什么特点. 第一页 第二页 第三页 还不错,url很规律. 再开个页面,F12看看,,评论内容在<span class="short">的tag下. ok,那就闲…
因为实验室需要全国城市乡镇的地理坐标,有Execl的地名信息,需要一一查找地方的经纬度.Google Map地图实验室提供自带的查找经纬度的方法,不过需要一个点一个点的手输入,过于繁琐,所以自己利用Google Map API编写了一个很小的程序,根据需要有多个版本,挺方便的. 不过还要提一下,利用Baidu Map API 的localsearch很方便查找位于一个城市的街道.城镇或其他信息,比如我要搜索北京市的所有肯德基的地理坐标,如下代码就可以满足: <title>批量获取模糊搜索地址名…
#baidu_hotword.py #get baidu hotword in news.baidu.com import urllib2 import os import re def getHtml(url): page = urllib2.urlopen(url) html = page.read() page.close() return html def getHotWord(html): reg = '<li.*?hotwords_li_a.*?title="(.*?)&quo…
应用抓包过滤,选择Capture | Options,扩展窗口查看到Capture Filter栏.双击选定的接口,如下图所示,弹出Edit Interface Settints窗口. 下图显示了Edit Interface Settings窗口,这里可以设置抓包过滤条件.如果你确知抓包过滤条件的语法,直接在Capture Filter区域输入.在输入错误时,Wireshark通过红色背景区域表明无法处理过滤条件.最有可能的情况是,过滤条件中含有输入错误,或是使用了display filter的…
说明:这里分三个系列介绍Twitter数据的非API抓取方法.有兴趣的QQ群交流: BitCrawler网络爬虫QQ群 322937592 1.Twitter数据抓取(一) 2.Twitter数据抓取(二) 3.Twitter数据抓取(三)…
应用抓包过滤,选择Capture | Options,扩展窗口查看到Capture Filter栏.双击选定的接口,如下图所示,弹出Edit Interface Settints窗口. 下图显示了Edit Interface Settings窗口,这里可以设置抓包过滤条件.如果你确知抓包过滤条件的语法,直接在Capture Filter区域输入.在输入错误时,Wireshark通过红色背景区域表明无法处理过滤条件.最有可能的情况是,过滤条件中含有输入错误,或是使用了display filter的…
网络数据获取(爬取)分为两部分: 1.抓取(抓取网页) · urlib内建模块,特别是urlib.request · Requests第三方库(中小型网络爬虫的开发) · Scrapy框架(大型网络爬虫的开发) 2.解析(解析网页内容) · BeautifulSoup库 · re模块(正则表达式) 或者第三方API抓取和解析. Requests库(http://www.python-requests.org/en/master/) 基本方法: requests.get():请求获取指定URL位置…
在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就 跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的,下面可以看下博客园首页 从首页加载中我们看到,在页面呈现后,还会有5个ajax异步请求,在默认的情况下,爬虫是抓取不到这些ajax生成的内容的, 这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面,目前内核引擎三足鼎立. Trident: 也就是IE内核,WebBrowser就是基于该内核,但是加载性内比…
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的.目前<一出好戏>在猫眼上已经获得近60万个评价,评分为8.2分,票房已破10亿. 我们将使用Python抓取猫眼近10万条评论数据,并对获取到的数据进行分析,看看观众对这部电影的评价究竟如何? 整个数据分析的过程分为四步: 获取数据 处理数据 存储数据…
本文介绍使用PHP获取cookie,获取Token.以及模拟登录.然后抓取数据.最后解析生成json的的过程. 0. 设置Cookie路径 set_time_limit(0); //使用的cookie路径, if (isset($_SERVER['HTTP_APPNAME'])){ $cookie = SAE_TMP_PATH."/cookie.txt"; }else { $cookie = dirname(__FILE__)."/cookie.txt"; } 1.…
9 月 16 日晚间,周董在朋友圈发布了最新单曲<说好不哭> 发布后,真的让一波人哭了 一群想抢鲜听的小伙伴直接泪奔 因为 QQ 音乐直接被搞崩了 没想到干翻 QQ 音乐的不是网易云音乐 也不是虾米音乐 而是周董! 周董成成功地凭一己之力干翻了 QQ 音乐 那么听过周董新歌后的小伙伴都是怎么评价的呢? 这里,我们获取了 QQ 音乐的近 20W 条评论数据进行分析 看看其中有哪些有趣的东西 一.数据获取 1.请求分析 在 QQ 网页版直接搜索『说好不哭』 很容易就能找到单曲页面 拉到页面最下方…
一.起因: 昨天在简书上看到这么一篇文章<中国的父母,大都有毛病>,看完之后个人是比较认同作者的观点. 不过,翻了下评论,发现评论区争议颇大,基本两极化.好奇,想看看整体的评论是个什么样,就写个爬虫,做了词云. 二.怎么做: ① 观察页面,找到获取评论的请求,查看评论数据样式,写爬虫 ② 用 jieba 模块,将爬取的评论做分词处理 ③ 用 wordcloud 模块,生成词云 三.代码如下: #!/usr/bin/env python3 # -*- coding: utf-8 -*- impo…
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道 使用python/casperjs编写终极爬虫-客户端App的抓取…
使用 urllib2 抓取数据时,最简单的方法是: import urllib2, json def getStartImage(): stream = urllib2.urlopen('http://news-at.zhihu.com/api/3/start-image/1080*1776') start_image = json.load(stream) start_image = json.dumps(start_image, encoding='utf-8') return start_…
首先身为一个在线音乐播放器,需要前端和数据库的搭配使用. 在数据库方面,我们没有办法制作,首先是版权问题,再加上数据量.所以我们需要借用其他网络播放器的数据库. 但是这些在线播放器,如百度,酷狗,酷我等在线音乐播放器,是不会提供他们的数据库接口的,所以这个我们需要,在线抓取这些在线音乐播放器的接口,首先,这个事情,是属于违规的.是属于侵犯这些公司的版权的.所以,不能用于商业用途 我们以酷狗音乐为例子,抓取他的连接数据库的API接口 我是用的是谷歌,进入私密模式,因为在这种模式下,不会缓存歌曲 1…
1.概念:SpringCloudConfig 基础配置 2.具体内容 通过名词就可以发现,SpringCloudConfig 核心作用一定就在于进行配置文件的管理上.也就是说为了更好的进行所有微服务的配置项的管理,在 SpringCloud 设计架构里面就考虑到了针对于所有的核心配置文件(application.yml)进行的一项统一管理的工具. 2.1.SpringCloudConfig 的基本概念 现在可以思考一个问题:在一个实际的项目开发过程之中,有可能会出现有上百个微服务(创建微服务的标…
自己安全测试技能很低, 上级给的安全测试的任务给了自动化组的同事来做, 自己之前使用appscan的时候 只知道使用appscan的内置浏览器测试抓取请求 今天与自动化美女同事沟通发现有一个代理的功能.发现自己真实孤陋寡闻... 在这里记录一下,备忘.. 打开appscan 1. 文件->新建扫描 新建常规扫描 下一步选择可以录制手机 也可以入职其他机器 想被录制的机器修改代理信息 使用浏览器进行操作或者是客户端进行操作就可以录制了 停止跟踪进行扫描即可…
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口 统一输出接口数据api.适合正在学习Vue,AngularJs框架学习 开发demo,需要接口并保证接口不跨域的问题,新闻分类(头条/军事/娱乐/体育/科技/艺术/教育/要闻)数据接口视频分类(精品视频/搞笑视频/美女视频/体育视频/新闻现场)接口,图片(cosplay)接口,花瓣相册接口,段子笑话接口.天气预报接口,IT资讯前端开发日报.知乎日报等 · 查看文档   https://ecitlm.git…
在客户端登录或者退出登录的时候会有吐司提示,因此需要抓取来验证用户登录成功或者注销成功: 在获取toast之前需要添加   desired_caps['automationName'] = 'Uiautomator2' , 否则无法获取到toast  调用toast方法一: def is_toast_exist(self,driver, text=None, timeout=8, poll_frequency=0.01): try: toast_loc = ("xpath", &quo…
抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用途,请不要用于非法目的. 摩拜是最早进入成都的共享单车,每天我从地铁站下来的时候,在APP中能看到很多单车,但走到那里的时候,才发现车并不在那里.有些车不知道藏到了哪里:有些车或许是在高楼的后面,由于有GPS的误差而找不到了:有些车被放到了小区里面,一墙之隔让骑车人无法获得到车. 那么有没有一个办法通过获得这些单车的数据,来分析这些车是否变成了僵尸车?是否有人故意放到小区里面…
电光代理成立后,做一篇笔记,记录我使用Requests抓取和测试电光代理的方法 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!QQ群:1097524789 首先点击获取电光代理(需要支付少量费用,总体质量处于市面上开放代理第一梯队) 请获取一个属于您的代理API,如我的是 https:/…
安卓模拟器要选可以桥接网络的,本文中用的是雷电模拟器. 软件的安装都很简单,在此不再赘述. fiddler中的设置 首先,打开fiddler,点击Tools选项卡下的Options. 切换到https选项卡,打开捕获https连接和解密https流量,并将证书文件导出至桌面. 切换到connections选项卡,打开允许远程计算机连接,其它的开不开无所谓,端口号也可以自己改,这里就不改了. 点击ok,fiddler这边的设置就完成了.最后,将鼠标放在右上角的Online上记录下本机的ip地址(这…
1.抓Android logcat工具 在EasyDarwin Github Tool项目(https://github.com/EasyDarwin/Tools)下载Android adb Logcat工具windows版本: 2.开启Android手机调试模式 不同手机开启开发者调试模式的方案不一样,大家可以到网上进行具体的搜索: 开启开发者调试模式后,手机连接线连接至电脑: 3.log抓取与输出 cd到platform-tools所在的目录,调用adb.exe logcat,然后操作手机,…
数据时代,利用数据做决策是大数据的核心价值. 本文手把手,教你使用python进行AWS的CloudTrail配置,进行日志抓取.进行数据分析,发现数据价值! 如今是云的时代,许多公司都把自己的IT架构部署在基础架构云(IaaS)上.著名的IaaS提供商有亚马逊,微软(Azure),IBM等,国内也有诸如阿里云等.其中,亚马逊毫无疑问是该市场的领军者. AWS提供了非常多的服务,领先了竞争对手一大截.并且AWS提供非常丰富的API,其API基于Rest,所以很容易被不同的语言的平台来调用. 在如…
本文面向Android初级开发者,有一定的Java和Android知识即可. 文章覆盖知识点:HttpWatch抓包,HttpClient模拟POST请求,Jsoup解析HTML代码,动态更新ListView 背景介绍:客户端(Client)或称为用户端,是指与服务器相对应,为客户提供本地服务的程序.而android系统上的90%客户端软件都有一个共性,就是为了改善网页在android系统上体验不佳而生,最具有影响力的软件有:新浪微博.人人网.淘宝等,这类软件最突出的特点就是,先有网站再有软件.…
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下 公历时间:2016年04月11日 星期一 农历时间:猴年三月初五 天干地支:丙申年 壬辰月 癸亥日 宜:求子 祈福 开光 祭祀 安床 忌:玉堂(黄道)危日,忌出行 主要包括公历/农历日期,以及忌宜信息的等.但是手里并没有现成的数据可供使用,怎么办呢? 革命前辈曾经说过,没有枪,没有炮,敌(wang)人(luo)给我们造!网络上有很多现成的在线 万年历应用可供使用,虽然没有现成接口,但是我们可以伸出手来,自己去拿.也就是…
序 最近在学习Scrapy的时候发现一个很有意思的网站,可以托管Spider,也可以设置定时抓取的任务,相当方便.于是研究了一下,把其中比较有意思的功能分享一下: 抓取图片并显示在item里: 下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片: 1. 创建一个scrapy project: scrapy startproject lianjia_shub 这时会在当前文件夹下创建如下文件夹: │  scrapy.cfg │ └─lianjia_shub     │  items.p…