说明: 1. 2017.3.12,周六从中午吃完包子12点多折腾了一下午加一个晚上,试了4个网站的爬虫,发现都不能下载!甚至前几天测试能下载的都不能用了! 2. 到晚上发现煎蛋网的可以用了,立即试了下漫画网,尼玛居然也能用了!不过下载了几个之后又不能用了!真是法克了! 3. 过了一会,又是一会儿能用一会儿不能用.又过了一会儿,完全不能用了.真是草你麻痹了!能不能有个准了? 4. 从网上找的代理ip,各种不靠谱,反正只要代码里用了代理,就不能用,访问被拒绝.不过还是放上一个代理地址,万一以后用到h…
说明: 1. 某本子网站爬虫,现在只实现了扒取一页,已经凌晨两点了,又饿又困,先睡觉,明天再写总结吧! 2. 我是明天,我来写总结了! 3. 这个网站的结构是这样的: 主页: 主页-第1页-漫画1封面-漫画1地址 -漫画2封面-漫画2地址 -漫画3封面-漫画3地址 -漫画4封面-漫画4地址 -漫画5封面-漫画5地址 -......... -第2页-漫画1封面-漫画1地址 -漫画2封面-漫画2地址 -漫画3封面-漫画3地址 -漫画4封面-漫画4地址 -漫画5封面-漫画5地址 -.........…
说明(2017.3.14): 1. 在主文件夹生成一个main.html作为目录 2. 在每个子文件夹生成一个index.html作为看图网页 3. 通过python批量生成html网页,js配合进行遍历输出a链接 4. 生成一个booklist.js文件,存放目录数组,不然字符串不能与数组连接.这个数组是通过字符串伪装出来的,遍历数组,每个元素加上引号和逗号,去掉最后一个逗号,最后两边加上括号,var赋值就可以了. 5. 效果还不错,可以作为本地小黄网了! #!/usr/bin/python…
一.什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网页解析器.应用程序(爬取的有价值数据). 调度器:相当于一台电脑的CPU,主要负责调度URL管理器.下载器.解析器之间的协调工作. URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存.数据库.缓存数据库来实现. 网页…
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网页 htmlCode = page.read() #获取网页源代码 print(chardet.detect(htmlCode)) #打印返回网页的编码方式 {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''} data = htmlCo…
Django它是一个开源Web应用程序框架.由Python书面. 通过MVC软件设计模式,这种模式M,视图V和控制器C. 它最初是一个数字新闻内容为主的网站已经发展到管理劳伦斯出版集团.那是,CMS(内容管理系统)软件. 于2005年7月在BSD许可证下公布.这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的. --百度百科 官网下载:https://www.djangoproject.com/download/ 官网中也给出了一些命令行安装方法,以下要说得是下载的压缩…
1.有道的翻译 网页:www.youdao.com Fig1 Fig2 Fig3 Fig4 再次点击"自动翻译"->选中'Network'->选中'第一项',如下: Fig5 然后显示出如下内容,红框画出的部分是等会编写代码需要的地方: Fig6 Fig7 再看看翻译的结果: Fig8 2.python实现英译汉: 原理:把需要翻译的内容输入给有道词典,然后通过程序把翻译的结果爬下来. # -*- coding:utf-8 -*- """ Cr…
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器”网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器” 网页解析器——Beautiful Soup-语法: 例如以下代码: 对应的代码: 1.创建BeautifulSoap对象 2.搜索节点(find…
最近博主在找工作换新环境.昨天电话面试中问到python中threading模块进行接口性能测试的时候.如何生成性能测试报告 我现在还停留在打印在屏幕中.所以今天想着是否可以生成相应的性能测试报告 首先想到的是python是否支持生成图表.有很多模块可以支持 博主这里就先试一试matplotlib模块 具体这个模块的来源.我就不细说明了.直接就是下载安装 这里给出pypi的下载地址: https://pypi.python.org/pypi/matplotlib/ 根据需要的版本下载对应的安装包…
python支持对mysql的操作 已经安装配置成功python.mysql 之后根据各自电脑配置选择对应系统的MySQL-python 文件是EXE格式.打开下一步即可 下载地址博主分享下: http://pan.baidu.com/s/1c2uhVwc 安装成功.在IDLE中输入: import MySQLdb 查看是否安装成功 下面是一些简单的使用代码: #!/usr/bin/env python # -*- coding: utf_8 -*- import MySQLdb import…