python爬虫之路——对字符串的处理
对字符串的处理分类:分段,连接,剔除,提取,综合
连接:+,*
+(加法)的使用
a='i'
b=' love'
c=' you'
print(a+b+c)
#return i love you
*(乘法)的使用
a='word'
print(a*3)
#result wodwordword
分段:split()
split():将字符串按标志(默认为空格)分成列表格式
a='www.baidu.com'
print(a.split('.'))
#return ['www','baidu','com']
剔除:strip(),
strip():剔除两侧字符,默认空格,自定义为!结尾。
#默认
a=' python is cool '
print(a.strip())
#return 'python is cool'
#自定义
a='*********python **is** cool***********'
print(a.strip('*!'))
#return 'python **is** cool'
利用RE模块的正则表达式功能,sub(函数)
import re
phone='123-456-789'
new_phone=re.sub('\D','',phone)
print(new_phone)
#return 123456789
提取:切片和索引
切片和索引
索引:正值和负值
a='123456789'
print(a[0])
#return 1
print(a[-1])
#return 9
切片:包头不包尾(将数字看成角标)
a='123456789'
print(a[0:1])
#return 1
print(a[0:3])
#return 123
综合:替换, 字符串格式化符
替换:replace(), 原值=》替换值
如果有多个原值效果未知
以值查询或位置查询为索引替换
替换is为are
a=''there is apples''
b=a.replace('is','are')
print(b)
#return 'there are apples'
将电话号码中间四位屏蔽
def change_number(number):
hiding_number=number.replace(number[3:7],'*'*4)
print(hiding_number)
change_number('13813986643')
#return 138****6643
format(): 单词用replace(),长句用format()
#字符串使用
a='{} is my love'.format('python')
print(a)
#return 'python is my love'
#url使用
content=input('输入搜索内容?')
url_path='https://www.abc.com/{}'.format(content)
print(url_path)
#url_path=www.abc.com.content
利用RE模块的正则表达式功能,sub(函数)
import re
phone='123-456-789'
new_phone=re.sub('\D','*',phone)
print(new_phone)
#return 123*456*789
python爬虫之路——对字符串的处理的更多相关文章
- Python爬虫之路——简单网页抓图升级版(添加多线程支持)
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要 ...
- python学习之路06——字符串
字符串 1.概念 字符串就是由若干个字符组成的有限序列 字符:字母,数字,特殊符号,中文 表示形式:采用的单引号或者双引号 注意:字符串属于不可变实体 2.创建字符串 str1 = "hel ...
- 我的Python自学之路-003 字符串的知识
'''字符串是以引号或者单引号括起来的任意文本,例如"123","asdfjk",'adfa'引号或者单引号,只是一种表示方法,并不是字符串的一部分如果字符串本 ...
- python爬虫之路——正则表达式初识
正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配. python中的re模块拥有全部的正则表达式功能. 判断字符: 类型: 数目:有无: 个数:单值 区间 离散 判 ...
- python爬虫之路——变量和变量类型
变量类型: ①单值:int ②多值:数组 ③复杂:类 变量类型:就是变量的数据结构,表示这个变量所代表的内容的格式是怎样的. (多值)四种基本数据结构: 列表,字典,元组,集合 列表: ①元素可变, ...
- Python学习之路3 - 字符串操作&字典
本节内容: 常用的字符串处理. 格式化输出字符串. 字符串的替换. 字符串和二进制的相互转化. 字典的操作 字符串操作 常用的字符串处理 name = 'vector' print(name.capi ...
- python爬虫之路——Python的re模块及其方法
介绍常用的三种方法:search(),sub(),findall() search():匹配并提取第一个符合规律的内容,然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a ...
- python爬虫之路——初识爬虫三大库,requests,lxml,beautiful.
三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获 ...
- python爬虫之路——初识爬虫原理
爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息 互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要 ...
随机推荐
- hive-0.11.0安装
一.安装 . 下载安装hive hive-0.11.0.tar.gz(稳定版) 目录:/data tar –zxvfhive-0.11.0.tar.gz . 配置 把所有 ...
- HashMap为什么是线程不安全的
HashMap底层是一个Entry数组,当发生hash冲突的时候,hashmap是采用链表的方式来解决的,在对应的数组位置存放链表的头结点.对链表而言,新加入的节点会从头结点加入. 我们来分析一下多线 ...
- Spring入门第十二课
Bean的配置方法 通过工厂方法(静态工厂方法&实例工厂方法),FactoryBean 通过调用静态工厂方法创建Bean 调用静态工厂方法创建Bean是将对象创建的过程封装到静态方法中,当客户 ...
- NativeScript官方书籍:NativeScript in Action-用你现有技术构建移动应用程序
大家好,我用nativescript做企业级移动应用开发一年多了.从最初只能看nativescript英文文档,到现在看到官方发布正式的书籍,感觉nativescript变得越来越好. 当然,在这个过 ...
- UITableView设置Cell左滑多个按钮(编辑,删除,置顶等)
一.iOS7不支持cell多个按钮这个时候可以使用一个三方库JZTableViewRowAction,引用类扩展文件并实现其代理方法 JZTableViewRowAction下载地址:http://d ...
- Razor的主版页面框架
类似于2.0版本中的MasterPage主版页面框架,不过mvc3.0推出的RazorView内建的主版页面语法与原本的webFormview的MasterPage相差甚远 1,Razor的页面执 ...
- 记微软OpenHack机器学习挑战赛
有幸参加了微软OpenHack挑战赛,虽然题目难度不大,但是很有意思,学到了很多东西,还有幸认识了微软梁健老师,谢谢您的帮助!同时还认识同行的很多朋友,非常高兴,把这段难忘的比赛记录一下~~也分享一下 ...
- Linux之vim常用扩展操作
多窗口编辑 批量注释和自定义注释 显示行号 1.多窗口编辑 2.批量注释和自定义注释 3.显示行号(临时生效) 命令行模式下输入: set nu 显示行号 set nonu 不显示行号
- FISCO BCOS WorkShop | 区块链开发特训营,开课啦!
FISCO BCOS是完全开源的联盟区块链底层技术平台,由金融区块链合作联盟(深圳)(简称金链盟)成立开源工作组通力打造.开源工作组成员包括博彦科技.华为.深证通.神州数码.四方精创.腾讯.微众银行. ...
- ES6简述
啥是ES6 大家都知道,JavaScript由DOM.BOM.ECMAScript组成,ECMAScript是标准. ES6的全称其实是ES2015(6.0)每年更新,依次类推 ES2016(7) . ...