# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址,可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Req…
1.获取子标签: thr_msgs = soup.find_all('div',class_=re.compile('msg'))   for i in thr_msgs:     print(i)     first = i.select('em:nth-of-type(1)')     print(first)       >>>   <div class='\"msg\"'><em>佛山</em><em>1-3年&…
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 from bs4 import BeautifulSoup import urllib.request html_doc = "http://tieba.baidu.com/p/2460150866" req = urllib.request.Request(html_doc) webpage = urllib.reques…
1. 主角出场:Hawk介绍 Hawk是沙漠之鹰开发的一款数据抓取和清洗工具,目前已经在Github开源.详细介绍可参考:http://www.cnblogs.com/buptzym/p/5454190.html 强烈建议先读这篇文章,该文介绍了详细原理和抓取链家二手房的攻略,以此为基础,才能较好的理解整个操作. GitHub地址:https://github.com/ferventdesert/Hawk 本文将讲解通过本软件,获取大众点评的所有美食数据,可选择任一城市,也可以很方便地修改成获取…
原文发表在我的博客主页,转载请注明出处. 前言 因为出差,前后准备总结了一周多,所以博客有所搁置.出差真是累人的活计,不过确实可以学习到很多东西,跟着老板学习做人,学习交流的技巧.入正题~ wireshark对于研究网络的人来说是一个必不可少的工具,从wireshark2.0开始,已经全面支持OpenFlow协议,对于研究SDN的人来说,也是一个很大的福音,今天就来介绍一个技巧--如何利用wireshark抓取远程linux上的数据包,利用这个技巧,我们不需要再搬个显示器到处跑,更不会对服务器束…
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request # 改变标准输出的默认编码为utf-8 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8') # 获取该页面编码并解码成utf-8 sauce = urllib.request.urlopen( 'http://flas…
抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用途,请不要用于非法目的. 摩拜是最早进入成都的共享单车,每天我从地铁站下来的时候,在APP中能看到很多单车,但走到那里的时候,才发现车并不在那里.有些车不知道藏到了哪里:有些车或许是在高楼的后面,由于有GPS的误差而找不到了:有些车被放到了小区里面,一墙之隔让骑车人无法获得到车. 那么有没有一个办法通过获得这些单车的数据,来分析这些车是否变成了僵尸车?是否有人故意放到小区里面…
使用 usbmon 抓取 usb 总线上的数据 usbmon 即 usb monitor,是 linux 内置的 usb 抓包工具.usbmon 本质是一个内核模块,在我的 ubuntu14.0 4中,模块的位置:/lib/modules/4.4.0-31-generic/kernel/drivers/usb/mon/usbmon.ko. 1.检测内核是否支持 debugfs 文件系统 linux 系统支持很多类型的文件系统,像 ext3.sysfs.ramfs.tmpfs等文件系统,首先检测内…
SQL Server定时自动抓取耗时SQL并归档数据发邮件脚本分享 第一步建库和建表 USE [master] GO CREATE DATABASE [MonitorElapsedHighSQL] GO --建表 USE [MonitorElapsedHighSQL] GO --1.表[SQLCountStatisticsByDay] --抓取到的sql语句数量 CREATE TABLE [dbo].[SQLCountStatisticsByDay] ( id , ) PRIMARY KEY ,…
原文:SQL Server定时自动抓取耗时SQL并归档数据脚本分享 SQL Server定时自动抓取耗时SQL并归档数据脚本分享 第一步建库 USE [master] GO CREATE DATABASE [MonitorElapsedHighSQL] GO 第二步创建sp_who3存储过程 -- http://sqlserverplanet.com/dba/a-better-sp_who2-using-dmvs-sp_who3 USE [MonitorElapsedHighSQL] GO CR…