这篇文章是看了网上有人写了之后,才去试试看的,但是因为我用的是python3.3,与python2.x有些不同,所以就写了下来,以供参考. get_webJpg.py #coding=utf-8 import urllib.request import re def getHtml(url): html = urllib.request.urlopen(url).read() return html def getImg(html): reg = r'src="(.+?\.jpg)"…
很多时候想看小说但是在网页上找不到资源,即使找到了资源也没有提供下载,小说当然是下载下来用手机看才爽快啦! 于是程序员的思维出来了,不能下载我就直接用爬虫把各个章节爬下来,存入一个txt文件中,这样,一部小说就爬下来啦. 这一次我爬的书为<黑客>,一本网络小说,相信很多人都看过吧,看看他的代码吧. 代码见如下: import re import urllib.request import time # root = 'http://www.biquge.com.tw/3_3542/' # 伪造…
笔趣看小说Python3爬虫抓取 获取HTML信息 解析HTML信息 整合代码 获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ == '__main__': target = 'http://www.biqukan.com/1_1094/5403177.html' req = requests.get(url=target) print(req.text) 解析HTML信息 提取的方法有很多,例如使用正则表达式.Xpath.…
Window下通过charles代理抓取iphone手机Https请求乱码问题 如果保持默认设置,https的reqeust和response都是乱码,设置完之后https就可以抓包了 手机端操作: 1.连接上charles的代理 查看电脑IP地址,在手机无线里设置代理即可(手机wifi网络需要和charles软件的电脑在一个网段) 手机配置代理 2.下载Charles证书https://www.charlesproxy.com/assets/legacy-ssl/ssl.zip 解压后导入到i…
PHP 利用 Curl  可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集 数据可以利用 PHPquery类来采集数据库,在此之外也可以用 Curl ,借助Curl 这个功能实现并发多线程的访问多个url地址以实现并发多线程抓取网页或者下载文件. 至于具体实现过程,请参考下面几个例子: 1.实现抓取多个URL并将内容写入指定的文件 $urls = array( '路径地址', '路径地址', '路径地址…
毕业一年多了,一直做cable modem的测试,总是觉得在国内这一行的人才很少,想找个师傅真的很不容易. 苦闷了许久之后,终于决定,自己去写点东西,万一就找到同行了呢? 下面就是本小姐写的第一篇博客,关于在win7下如何用python获取cable modem的设备信息的. 当然用mib browser是非常方便的,但是想到以后可能要做自动化方面的东西,所以就无聊的写了下面的代码. snmp_get_sysDescr.py from pysnmp.entity.rfc3413.oneliner…
## 摘要 由于windows系统没有提供本地回环网络的接口,用Wireshark监控网络的话看不到localhost的流量. 想要获取本地的网络数据包,可以通过一款小巧的开源软件RawCap来进行抓包,然后使用Wireshark进行分析. ## 需要 1. wireshark(下载地址:https://www.wireshark.org/download.html) 2. RawCap(下载地址:http://www.netresec.com/?page=RawCap) ## 步骤 1. 以管…
最近做了测试抓取XX时报的数据,由于需要事先登录,并且有验证码,关于验证码解决有两个途径:一是利用打码平台,其原理是把验证码的图片上传发送给打码平台, 然后返回其验证码.二就是自己研究验证码技术问题.这个有时间再研究. 目前主要是测试从XX时报抓取数据,目前暂时用了笨方法,利用人工介入,输入验证码. 登录界面: 具体代码如下: #coding=utf-8 import os import re from selenium import webdriver from selenium.webdri…
1. 准备charles 下载链接:https://www.charlesproxy.com/download/ 2. 配置charles 2.1)配置http代理.打开Charles软件,配置http代理(勾选了SOCKS Proxy,可以截获到浏览器的http访问请求): 2.2)配置SSL代理. 首先在charles的 Proxy选项选择SSL Proxy Settings: 点add添加需要监视的域名,支持 *号通配符,端口一般都是443: 2.3)为手机设置代理 iPhone:设置->…
cURL的底层是由一个命令行工具实现的,用于获取远程文件或传输文件,更多的情况是用来模拟get/post表单提交.也可以用户文件上传,爬取文件,支持FTP/FTPS,HTTP/HTTPS等协议,通俗来讲,这些类型的服务器,cURL都可以抓取. 今天尝试了一下用cURL抓取无聊网网上的图片.上代码. 1 <?php 2 $url = 'http://wuliaoo.com/tuhua/'; 3 $ch = curl_init(); 4 5 curl_setopt($ch,CURLOPT_URL,$…