python_正则表达式随笔

webpage_regex = re.search(r'span_ed7[\s\S]*', dd)

[\s\S]*  匹配多行，转义字符

webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)

# -*- encoding: utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
import re
import requests

url = 'http://www.muu22.com/knstz_385866.html?ucmidtm=1538566880.7'
url = 'http://www.muu22.com/knstz_718071.html'
#url = "http://www.youjizz.com"
#url = "https://www.youjizz.com/videos/japanese-schoolgirl-with-her-young-brother-47424491.html"
response = urllib2.urlopen(url)
dd = response.read()
#print dd
title = re.search(r'<title>.*?</title>', dd)
title = title.group()
print title[7:-8]

webpage_regex = re.search(r'span_ed7([\s\S]*)span_ed8', dd)
print webpage_regex.group()
fasdfa = re.compile('<img[^>]+src=["\'](.*?)["\']', re.IGNORECASE)
fdasffa =  fasdfa.findall(webpage_regex.group())
tines = 1
for i in fdasffa:
    print 'get picture'
    pic = requests.get(i)
    print 'prepare path & name'
    string = u'[Ligui丽柜] 网络丽人 Model 王欣竹[53P]_nnuu22/'+str(tines)+'.jpg'
    print 'prepare write'
    fp = open(string, 'wb')
    fp.write(pic.content)
    fp.close()
    print i
    tines+=1
print 'end'

python_正则表达式随笔的更多相关文章

python_正则表达式
re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. 函数语法: \[re.match(pattern, strin ...
Python_正则表达式二
''' 正则表达式对象的sub(repl,string[,count=0])和subn(repl,string[,count=0])方法用来实现字符串替换功能 ''' example='''Beaut ...
Python_正则表达式一
''' 常用的正则表达式元字符 . 匹配换行符以外的任意单个字符 * 匹配位于'*'之前的字符或子模的0次或多次出现 + 匹配位于'+'之前的字符或子模式的1次或多次出现 - 用在[]之内用来表示范围 ...
Python_正则表达式样例
''' 正则表达式是字符串处理的有力工具和技术,正则表达式使用预定义的特定模式去匹配一类具有共同特征的字符串, 主要用于字符串处理,可以快速.准确地完成复杂的查找.替换等处理要求. 正则表达式由元字符 ...
python_正则表达式概述
正则表达式(RegularExpression, re) - 是一个计算机科学的概念- 用于使用单个字符串来描述,匹配符合某个规则的字符串- 常常用来检索,替换某些模式的文本 # 正则的写法- .(点 ...
python_正则表达式学习
re.match()函数: 函数语法: re.mathch ( pattern , string , flags = 0) 参数说明: pattem 匹配的正则表达式 string 要匹配的字符串 f ...
Python_正则表达式语法
1.正则表达式中的操作符: 2.re库的使用: import re #search方法要求只要待匹配的字符串中包含正则表达式中的字符串就可以 match = re.search('python+',' ...
JavaScript正则表达式随笔
概念先行. 正则表达式:又称规则表达式.常用于检索,替换符合某种符合(规则)的文本. 组成:普通字符和元字符,普通字符就是一个普通的查找串,如abc,原字符具有特殊含义. 这里研究的是JavaScri ...
Linux入门第二天——基本命令入门（中）
一.文件搜索命令 1.文件搜索命令:locate 速度很快(具体见Linux工具网址的对比),注意无法找到新建的文件(原理暂不展开) locate命令其实是“find -name”的另一种写法,但是要 ...

随机推荐

图解Go语言内存分配
目录基础概念内存管理单元内存管理组件 mcache mcentral mheap 内存分配流程总结参考资料 Go语言内置运行时(就是runtime),抛弃了传统的内存分配方式,改为自主管理. ...
微信小程序开发06-一个业务页面的完成
前言接上文:微信小程序开发05-日历组件的实现 github地址:https://github.com/yexiaochai/wxdemo 这里来说一说我们的理念,我们也学习小程序开发有一周多了,从 ...
SQL优化 MySQL版 - 多表优化及细节详讲
多表优化及细节详讲作者 : Stanley 罗昊 [转载请注明出处和署名,谢谢!] 注:本文章需要MySQL数据库优化基础或观看前几篇文章,传送门: B树索引详讲(初识SQL优化,认识索引):htt ...
Spring Boot(六)：如何优雅的使用 Mybatis
*:first-child{margin-top: 0 !important}.markdown-body>*:last-child{margin-bottom: 0 !important}.m ...
Java开发笔记（序）章节目录
现将本博客的Java学习文章整理成以下笔记目录,方便查阅. 第一章初识JavaJava开发笔记(一)第一个Java程序Java开发笔记(二)Java工程的帝国区划Java开发笔记(三)Java帝国的 ...
Java设计模式---ChainOfResponsibility责任链模式
参考于 : 大话设计模式马士兵设计模式视频代码参考于马士兵设计模式视频写在开头:职责链模式:使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系图来自大话设计模式,下面我的代 ...
Servlet--创建和配置Servlet
在web开发中,一般由Servlet进行数据流的控制,并通过HttpServletResponse对象对请求做出响应.创建的Servlet必须继承HttpServlet类,并实现doGet()和doP ...
flex 圣杯布局
基本思路圣杯布局分为3段:上.中.下. 中段被分为:左.中.右3块. 1:采用flex布局时,先把弹性容器主轴设置为垂直方向(flex-direction:column) 2:上.中.下3块弹性项 ...
四款让你绝对上瘾的手机APP 用一次就会爱不释手
如今我们出门在外,无时无刻不都在使用手机,在外游玩吃饭.乘地铁公交.购物逛街等,只要有手机不需要现金就可以完成这些事情,手机功能我们每天都在使用着,不用多说,大家都知道手机的重要性. 下面就是分享福利 ...
BestSync多终端文件资料同步利器
分享一款多终端文件同步的强力软件,windows下使用. 我这里的多终端意思是,多台电脑.移动存储.云端. 就我个人而言,实用性在于移动硬盘和电脑上都有的文件,比如保存项目资料,电脑上需要编辑,有时外 ...

python_正则表达式随笔

python_正则表达式随笔的更多相关文章

随机推荐

热门专题