正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配. python中的re模块拥有全部的正则表达式功能. 判断字符: 类型: 数目:有无:   个数:单值     区间      离散 判断一个字符: 表示一个字符:①确定    (1)字符             a,b,1,4     (2)转义字符       \.    ②完全不确定   (.)      匹配任意单个字符,不包括换行 ③相对确定      [ abc]     表示a或b或c 判断多个字符 类型:数字,单词,…
python爬虫之re正则表达式库 正则表达式是用来简洁表达一组字符串的表达式. 编译:将符合正则表达式语法的字符串转换成正则表达式特征 操作符 说明 实例 . 表示任何单个字符 [ ] 字符集,对单个字符给出取值范围 [abc]表示a.b.c,[a‐z]表示a到z单个字符 [^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展 abc* 表示ab.abc.abcc.abccc等 + 前一个字符1次或无限次扩展 abc+ 表示abc.a…
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,并且这次的爬虫不只能够爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/以下的图片都会被爬到,并且提供了多种分辨率图片的文件下载,详细设置方法代码凝视里面有介绍. 这次的代码仍然有点不足,Ctrl-C无法终止程序…
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我…
三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获取数据. res= requests.get(‘http://bj.xiaozhu.com/’) #打印返回值,<response [200]>成功,<response [404]>,<response [400]>失败 print(res) #打印返回文本 print(r…
爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息 互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程 多页面爬虫流程: (1)手动翻页并观察各页面的URL构成特点,构造出所有页面的URL存入列表 (2)根据URL列表依次循环取出URL (3)定义爬虫函数 (4)循环调用爬虫函数,存储数据. (5)循环结束,结束爬虫程序. 跨页面的爬虫程序: (1)定义爬…
介绍python函数的定义与使用方法,介绍Python的常用控制语句:判断和循环 函数: 格式 def   函数名(参数1,参数2): return ‘结果’ 判断语句:就是多选一 二选一: if condition: do else: do 多选一: if  condition: do elif condition: do else: do 实例:密码登录 def count_login(): password= input('password:') if( password== '12345…
from selenium import webdriver url='https://www.jianshu.com/p/a64529b4ccf3' def get_info(url): include_title=[] driver=webdriver.PhantomJS() driver.get(url) driver.implicitly_wait(20) author=driver.find_element_by_xpath('/html/body/div[1]/div[1]/div[…
非关系型数据库:MongoDB.关系型数据库:MySQL 关系型和非关系型的区别: 安装: 使用: 应用场景: mongoDB是一种非关系型数据库,分为四大类:键值存储数据库,列存储数据库,文档型数据库,图形数据库. 重点学习mysql import pymysql conn= pymysql.connect(host='localhost',user='root',passwd='root',db='mydb',port=3306,charset='utf8') cursor=conn.cur…
lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码. 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本地打开,路径)进行初始化,③etree库把HTML文档解析为Element对象. from lxml import etree text=""" <div > <div class="sidebarContent">sdssdds &l…