说明: 1. 有很多细节需要注意! 2. str是保留字,不要作为变量名 3. 保存为txt报错,encoding=utf-8 4. 403错误,添加headers的方法 5. 正则match只能从开头匹配,search可以中间匹配,返回对象,可以用span()查看匹配的字符索引,不过还是用findall全部查找 比较方便,直接返回一个数组. 6. import urllib.request import re # <span class="current-comment-page&quo…
SpringMVC:学习笔记(10)——整合Ckeditor且实现图片上传 配置CKEDITOR 精简文件 解压之后可以看到ckeditor/lang下面有很多语言的js,如果不需要那么多种语言的,可以只剩下en.js,zh.js,zh-cn.js 图片上传时图像信息中的预览会显示一堆英文信息,会干扰预览.找到ckeditor/plugins/image/dialogs/image.js,搜索“d.config.image_previewText”就能找到这段鸟语了,(d.config.imag…
说明: 1. 这个其实是在下载漫画之前写的,比那个稍微简单点,之前忘放到博客备份了. 2. 不想说啥了,总结放到漫画那个里面吧! import urllib.request import re import os # http://jandan.net/ooxx/page-2381#comments # <span class="current-comment-page">[2381]</span> # <img src="//wx4.sinai…
#coding=utf-8 #python_demo 爬取煎蛋妹子图在本地文件夹 import requests import threading import time import os from bs4 import BeautifulSoup #伪造头文件 headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chr…
零.引言 在<Dive into Python>(深入python)中,第七章介绍正則表達式,开篇非常好的引出了正則表達式,以下借用一下:我们都知道python中字符串也有比較简单的方法,比方能够进行搜索(index,find和count),替换(replace)和解析(split),这在本系列前篇数据结构篇中有所涉及,可是有种种限制.比方要进行大写和小写不敏感的搜索时,可能就须要先对字符串进行str.lower()或str.upper()将字符串先统一转换成小写或者大写在进行搜索. 那么,本…
一.类和实例 1.类(Class): 用来描述具有相同的属性和方法的对象的集合.它定义了该集合中每个对象所共有的属性和方法.对象是类的实例. 2.对象:通过类定义的数据结构实例.对象包括两个数据成员(类变量和实例变量)和方法. 3.类变量:类变量在整个实例化的对象中是公用的.类变量定义在类中且在函数体之外.类变量通常不作为实例变量使用. 4.实例变量:定义在方法中的变量,只作用于当前实例的类. 5.对“类”和“对象”的使用: 类就是一个模板,模板里可以包含多个函数,函数里实现一些功能. 对象则是…
一.什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网页解析器.应用程序(爬取的有价值数据). 调度器:相当于一台电脑的CPU,主要负责调度URL管理器.下载器.解析器之间的协调工作. URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存.数据库.缓存数据库来实现. 网页…
  用这张图激励一下自己,身边也就只有一位全栈数据工程师!!! 32. Python的内存管理 1. 对象的内存使用 对于整型和短字符串对象,一般内存中只有一个存储,多次引用.其他的长字符串和其他对象,对象就有相同的多份存储. 查看对象的内存存储,可以用内置函数id().比如: a=1 b=1 print(id(a), id(b)) # 相同 a='a very good morning' b='a very good morning' print(id(a), id(b)) # 不相同 也可以…
  1.函数式编程   理论就来自lambda演算,虽然没有学过lisp,一直被其大名震撼. 特性: 函数是以一等公民 可以作为参数 可以作为返回值 具有闭包特性   1.1参数传递方式 一般参数传递:值传递,引用传递 命名参数传递,使用"参数名=值"的格式,Python内成为关键字参数(keyword argument) 默认参数设置 可变参数,使用*开头,被解析成为一个元组 可变参数,使用**开头,被解析成为一个字典,必须使用关键字参数的方式 在调用的时候如何加上*,则会被解成元组…
Django它是一个开源Web应用程序框架.由Python书面. 通过MVC软件设计模式,这种模式M,视图V和控制器C. 它最初是一个数字新闻内容为主的网站已经发展到管理劳伦斯出版集团.那是,CMS(内容管理系统)软件. 于2005年7月在BSD许可证下公布.这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的. --百度百科 官网下载:https://www.djangoproject.com/download/ 官网中也给出了一些命令行安装方法,以下要说得是下载的压缩…
念念不忘,必有回响. 今天继续学习Python 类.…
1.有道的翻译 网页:www.youdao.com Fig1 Fig2 Fig3 Fig4 再次点击"自动翻译"->选中'Network'->选中'第一项',如下: Fig5 然后显示出如下内容,红框画出的部分是等会编写代码需要的地方: Fig6 Fig7 再看看翻译的结果: Fig8 2.python实现英译汉: 原理:把需要翻译的内容输入给有道词典,然后通过程序把翻译的结果爬下来. # -*- coding:utf-8 -*- """ Cr…
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器”网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器” 网页解析器——Beautiful Soup-语法: 例如以下代码: 对应的代码: 1.创建BeautifulSoap对象 2.搜索节点(find…
1 关于URL URL(Uniform / Universal Resource Locator):统一资源定位符,用于完整地描述Internet上网页和其他资源的地址的一种标识方法 URL是爬虫的入口,——非常重要 基本格式: scheme://host[:port# ]/path/.../[?query-string][#anchor] scheme:协议(例如:http.https.ftp) host:服务器的IP地址或域名 port#:服务器端口(协议默认端口80,可缺省) path:访…
最近博主在找工作换新环境.昨天电话面试中问到python中threading模块进行接口性能测试的时候.如何生成性能测试报告 我现在还停留在打印在屏幕中.所以今天想着是否可以生成相应的性能测试报告 首先想到的是python是否支持生成图表.有很多模块可以支持 博主这里就先试一试matplotlib模块 具体这个模块的来源.我就不细说明了.直接就是下载安装 这里给出pypi的下载地址: https://pypi.python.org/pypi/matplotlib/ 根据需要的版本下载对应的安装包…
python支持对mysql的操作 已经安装配置成功python.mysql 之后根据各自电脑配置选择对应系统的MySQL-python 文件是EXE格式.打开下一步即可 下载地址博主分享下: http://pan.baidu.com/s/1c2uhVwc 安装成功.在IDLE中输入: import MySQLdb 查看是否安装成功 下面是一些简单的使用代码: #!/usr/bin/env python # -*- coding: utf_8 -*- import MySQLdb import…
之前博客评论中有人建议我面对多个python版本的情况.可以使用virtualenv这个python虚拟沙盒 首页是利用pip下载.关于pip如何下载安装前面的博客中已经提到就不细说 cmd直接进入pyhton中script路径.输入 pip install virtualenv 下载安装成功后.即可在相应目录下新建虚拟环境 如:  “E:\work\python project\learn_virtualenv” 目录下新建虚拟环境名称 “env” cmd进入相应路径后.输入 virtuale…
python有很多扩展模块需要安装 这个时候万能的pip就可以提供帮助 首页进入官网下载压缩包: https://pypi.python.org/pypi/pip#downloads 解压文件 cmd进入解压文件路径下输入 python setup.py install 下来要使用pip一定要先进入通过cmd 进入python\Scripts中 之后即可安装自己需要的模块 如输入 pip install locustio…
网络编程 网络编程需要知道的概念 网络体系结构就是使用这些用不同媒介连接起来的不同设备和网络系统在不同的应用环境下实现互操作性,并满足各种业务需求的一种粘合剂.网络体系结构解决互质性问题彩是分层方法. 1.网络(OSI)的7层模型: 应用层--->为应用程序提供网络通信服务 表示层--->数据表示 会话层--->主机间通信(两个应用进程间) 传输层--->端到端的连接,隔离网络的上下层协议,使得网络应用与下层协议无关 网络层--->寻找最优路径,转发数据包 数据链路层---&…
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网页 htmlCode = page.read() #获取网页源代码 print(chardet.detect(htmlCode)) #打印返回网页的编码方式 {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''} data = htmlCo…
定义 Python 的 Class 比较特别,和我们习惯的静态语言类型定义有很大区别. 1. 使用一个名为 __init__ 的方法来完成初始化.2. 使用一个名为 __del__ 的方法来完成类似析购操作.3. 所有的实例方法都拥有一个 self 参数来传递当前实例,类似于 this.4. 可以使用 __class__ 来访问类型成员 >>>>>> class MyClass: def __init__(self): print "initialize.&q…
一.函数的定义 在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明和函数定义可以出现在不同的文件中,比如C语言),但是在Python中,函数声明和函数定义是视为一体的.在Python中,函数定义的基本形式如下: def function(params): block return expression/value 注意: (1)在Python中采用def关键字进行函数的定义,不用指定返回值的类型. (2)函数参数params可以是零个.一个或者多个,同样的,函数参数也不…
python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module named 'cookielib' Python3中,import cookielib改成 import http.cookiejar,然后方法里cookielib也改成 http.cookiejar. 2. ModuleNotFoundError: No module named 'urllib…
import requests from bs4 import BeautifulSoup import openpyxl wb=openpyxl.Workbook() sheet=wb.active sheet.title='product1' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Saf…
循环(loop),指的是在满足条件的情况下,重复执行同一段代码.比如,while 语句. 迭代(iterate),指的是按照某种顺序逐个访问列表中的每一项.比如,for 语句. 递归(recursion),指的是一个函数不断调用自身的行为.比如,以编程方式输出著名的斐波纳契数列. 遍历(traversal),指的是按照一定的规则访问树形结构中的每个节点,而且每个节点都只访问一次. 迭代 我们常常将哪些能够用诸如循环语句之类的方法来一个一个读取元素的对象,就称之为可迭代的对象.那么用来循环的如 f…
函数其实一段带名字的代码段,我们可以根据代码段,重复执行某一段代码段,或者有条件的执行某一段代码段. 将一段代码定义成函数后,我们可以很方便的根据自己的需求,随时调用该代码段.遇到需求变化的时候,只需要修改该函数,就可以满足需求,不需要到处修改特定的代码. 比如我们定义一个print hello的函数: def say_hello(): print("Hello!") say_hello() ''' Hello! ''' 我们可以看到,我们使用def来定义函数, 以冒号结尾. 输入回车…
生成式深度学习 机器学习模型能够对图像.音乐和故事的统计潜在空间(latent space)进行学习,然后从这个空间中采样(sample),创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品 使用 LSTM 生成文本 生成序列数据 用深度学习生成序列数据的通用方法,就是使用前面的标记作为输入,训练一个网络(通常是循环神经网络或卷积神经网络)来预测序列中接下来的一个或多个标记.例如,给定输入the cat is on the ma,训练网络来预测目标 t,即下一个字符.与前面处理文本数据…
[python学习笔记]10.充电时刻 任何python都可以作为模块倒入 *.pyc:平台无关的经过编译的的python文件, 模块在第一次导入到程序中时被执行,包括定义类,函数,变量,执行语句 可以通过modle.func这种方法调用模块中的函数 __name__ 变量: 主程序中的值是__main__,模块中的值是__modlename__ 包是模块所在的目录,必须包含一个命名为__init__ py的文件,文件的内容就是包的内容 包的搜索路径添加 sys.path.append(path…
golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍 go语言爬虫框架:gocolly/colly,goquery,colly,chromedp,webloop,go_spider,Pholcus https://github.com/hu17889/go_spiderPholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国https://www.golangtc.com/p/557473c9b09ecc2aa70…
Python学习笔记之基础篇(-)初识python Python的理念:崇尚优美.清晰.简单,是一个优秀并广泛使用的语言. python的历史: 1989年,为了打发圣诞节假期,作者Guido开始写Python语言的编译器.Python这个名字,来自Guido所挚爱的电视剧Monty Python’s Flying Circus.然后这个新语言就叫python,能符合他的理想:创造一种C和shell之间,功能全面,易学易用,可拓展的语言. 1991年,第一个Python编译器诞生.它是用C语言实…