python爬虫之路——对字符串的处理

对字符串的处理分类:分段,连接,剔除,提取,综合连接:+,* +(加法)的使用 a='i' b=' love' c=' you' print(a+b+c) #return i love you *(乘法)的使用 a='word' print(a*3) #result wodwordword 分段:split() split():将字符串按标志(默认为空格)分成列表格式 a='www.baidu.com' print(a.split('.')) #return ['www','baidu','c…

Python爬虫之路——简单网页抓图升级版（添加多线程支持）

转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,并且这次的爬虫不只能够爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/以下的图片都会被爬到,并且提供了多种分辨率图片的文件下载,详细设置方法代码凝视里面有介绍. 这次的代码仍然有点不足,Ctrl-C无法终止程序…

python学习之路06——字符串

字符串 1.概念字符串就是由若干个字符组成的有限序列字符:字母,数字,特殊符号,中文表示形式:采用的单引号或者双引号注意:字符串属于不可变实体 2.创建字符串 str1 = "hello" str2 = 'hello' str3 = 'h' #Python不支持单字符类型,单字符在Python中也是一个字符串关于字符串下列说法错误的是 () A.字符应该视为长度为 1的字符串 B.字符串以\0标志字符串的结束 C.既可以用单引号,也可以用双引号创建字符串 D.在三引号字符串中…

我的Python自学之路-003 字符串的知识

'''字符串是以引号或者单引号括起来的任意文本,例如"123","asdfjk",'adfa'引号或者单引号,只是一种表示方法,并不是字符串的一部分如果字符串本身含有单引号,则外部使用双引号,例如:a = "Let's go!"如果字符串本身含有双引号,则外部使用单引号,例如:b = '这是一个"好"事儿'''' #1.创建字符串 var1 = "Hello,world!" var2 = 'Python p…

python爬虫之路——正则表达式初识

正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配. python中的re模块拥有全部的正则表达式功能. 判断字符: 类型: 数目:有无: 个数:单值区间离散判断一个字符: 表示一个字符:①确定 (1)字符 a,b,1,4 (2)转义字符 \. ②完全不确定 (.) 匹配任意单个字符,不包括换行 ③相对确定 [ abc] 表示a或b或c 判断多个字符类型:数字,单词,…

python爬虫之路——变量和变量类型

变量类型: ①单值:int ②多值:数组 ③复杂:类变量类型:就是变量的数据结构,表示这个变量所代表的内容的格式是怎样的. (多值)四种基本数据结构: 列表,字典,元组,集合列表: ①元素可变, 意义:可对列表进行,增,删,改,爬虫使用较少 ②位置有序 ③可存储所有对象使用: 列表中位置有序,用法与字符串的切片和索引类似 #索引 list=['aa','bb','cc','dd'] print(list[0]) #return aa (string) #切片 print(list[1…

Python学习之路3 - 字符串操作&字典

本节内容: 常用的字符串处理. 格式化输出字符串. 字符串的替换. 字符串和二进制的相互转化. 字典的操作字符串操作常用的字符串处理 name = 'vector' print(name.capitalize()) # 首字母大写 print(name.count('e')) # 判断字符e在字符串中有多少个 print(name.center(50,'-')) # 一共打印50个字符,将vector放在中间,两边用-填充 print(name.endswith('r')) # 判断字符串以…

python爬虫之路——Python的re模块及其方法

介绍常用的三种方法:search(),sub(),findall() search():匹配并提取第一个符合规律的内容,然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a='a1b2d3f4' infos=re.search('\d+',a) print(infos) #返回一个正则表达式的对象 print(infos.group()) #return 1 sub():替换 import re phone='123-456-789' new_phone=re.sub…

python爬虫之路——初识爬虫三大库，requests,lxml,beautiful.

三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获取数据. res= requests.get(‘http://bj.xiaozhu.com/’) #打印返回值,<response [200]>成功,<response [404]>,<response [400]>失败 print(res) #打印返回文本 print(r…

python爬虫之路——初识爬虫原理

爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程多页面爬虫流程: (1)手动翻页并观察各页面的URL构成特点,构造出所有页面的URL存入列表 (2)根据URL列表依次循环取出URL (3)定义爬虫函数 (4)循环调用爬虫函数,存储数据. (5)循环结束,结束爬虫程序. 跨页面的爬虫程序: (1)定义爬…

python爬虫之路——基本文件操作

介绍python如何打开文件和读取数据新建TXT文档,为追加模式: f=open('c;/wendang/demo.txt','a+') content="abcdefg123456789" f.write(content) f.close()…

python爬虫之路——初识函数与控制语句

介绍python函数的定义与使用方法,介绍Python的常用控制语句:判断和循环函数: 格式 def 函数名(参数1,参数2): return ‘结果’ 判断语句:就是多选一二选一: if condition: do else: do 多选一: if condition: do elif condition: do else: do 实例:密码登录 def count_login(): password= input('password:') if( password== '12345…

Python爬虫之路——简单的网页抓图

转载自我自己的博客:http://www.mylonly.com/archives/1401.html 用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本.主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片,通过得到图集的起始URL地址.得到第一张图片,然后不断的去获取其下一个图片的URL.继而得到全部首页的图集的图片. 整个源代码例如以下.比較简单.写这个仅仅是简单的练手而已 #coding: utf-8 #############…

python爬虫下正则各种字符串数据匹配

s = '*\/:?"<>|' #这9个字符在Windows系统下是不可以出现在文件名中的str1 = '\巴拉<1"!11[]>1*hgn/p:?|' #样例 1.提取感兴趣(想要)的字符 a = re.findall('[\u4e00-\u9fa5a-zA-Z0-9]+',str1,re.S) #只要字符串中的中文,字母,数字a = "".join(a)print(a) 结果如下: 巴拉1111hgnp2.只去除不想要的,比如只去除不能作…

python爬虫之路——无头浏览器初识及简单例子

from selenium import webdriver url='https://www.jianshu.com/p/a64529b4ccf3' def get_info(url): include_title=[] driver=webdriver.PhantomJS() driver.get(url) driver.implicitly_wait(20) author=driver.find_element_by_xpath('/html/body/div[1]/div[1]/div[…

python爬虫之路——初识数据库存储

非关系型数据库:MongoDB.关系型数据库:MySQL 关系型和非关系型的区别: 安装: 使用: 应用场景: mongoDB是一种非关系型数据库,分为四大类:键值存储数据库,列存储数据库,文档型数据库,图形数据库. 重点学习mysql import pymysql conn= pymysql.connect(host='localhost',user='root',passwd='root',db='mydb',port=3306,charset='utf8') cursor=conn.cur…

python爬虫之路——初识lxml库和xpath语法

lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码. 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本地打开,路径)进行初始化,③etree库把HTML文档解析为Element对象. from lxml import etree text=""" <div > <div class="sidebarContent">sdssdds &l…

python爬虫之路——初识基本页面构造原理

通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script></script>标签就是javaScript代码. 通俗比喻:把网页比喻成一个房子HTML文件是框架,CSS样式是装修,javaScript代码是房子的电器. 审查元素和查看网页源码的区别:是源代码和DOM的区别,审查元素实际上是查看DOM,DOM渲染过了,查看网页源码看到的才是未解析的源…

python爬虫之路——构造URL集

例某网站的URL集是这样的 https://www.555zw.com/book/40/40934/10334793.html https://www.555zw.com/book/40/40934/10334794.html https://www.555zw.com/book/40/40934/10334795.html https://www.555zw.com/book/40/40934/10334796.html https://www.555zw.com/book/40/40934/…

1，Python爬虫环境的安装

前言很早以前就听说了Python爬虫,但是一直没有去了解:想着先要把一个方面的知识学好再去了解其他新兴的技术. 但是现在项目有需求,要到网上爬取一些信息,然后做数据分析.所以便从零开始学习Python爬虫,如果你也对Python爬虫感兴趣,那么可以跟着我一起学习了解一下! 闲话就不多说了,下面就开始Python爬虫之路! 首先,Python爬虫,那肯定需要用Python语言来写,那么第一步肯定需要安装Python环境(安装完Python环境后我们才能愉快的写代码). 1,理解Python环境…

python爬虫成长之路（一）：抓取证券之星的股票数据

获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所有A股数据.程序主要分为三个部分:网页源码的获取.所需内容的提取.所得结果的整理. 一.网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手.只需以下几行代码既可抓取大部分网页的源码. import urllib.request url='http://quote.stockstar…

Python爬虫——城市公交、地铁站点和线路数据采集

本篇博文为博主原创,转载请注明. 城市公交.地铁数据反映了城市的公共交通,研究该数据可以挖掘城市的交通结构.路网规划.公交选址等.但是,这类数据往往掌握在特定部门中,很难获取.互联网地图上有大量的信息,包含公交.地铁等数据,解析其数据反馈方式,可以通过Python爬虫采集.闲言少叙,接下来将详细介绍如何使用Python爬虫爬取城市公交.地铁站点和数据. 首先,爬取研究城市的所有公交和地铁线路名称,即XX路,地铁X号线.可以通过图吧公交.公交网.8684.本地宝等网站获取,该类网站提供了按数字和字…

python 爬虫学习之路

2016-6-18 --今天实现了第一个用urllib2实现的爬虫程序. --过程中发现 req = urllib2.Request(url,headers = headers) 总是报错: 主要原因在于 url 地址错误. 例如:http://www.neihan8.com/wenzi/index_1.html 这个网址打开的是404网页错误. 但是 http://www.neihan8.com/wenzi/index_2.html 这个网页却可以了. 源代码如下: #-*- codin…

谈谈哥的python爬虫书写之路

为了做一个百度网盘搜索引擎,哥开始研究爬虫,从此迷上爬虫而一发不可收拾,现在就大概谈谈哥的爬虫之路,顺便给出引擎:http://www.quzhuanpan.com 首先基本的 Python 语法你要了解吧,推荐一本书<Python基础教程>,很适合入门. 其次分析你的爬虫需求.程序具体流程是怎么样的?把程序的大致框架搭起来.另外可能还有哪些难点? 然后了解一下一般写爬虫需要用哪些库,这些库可以很好的帮助你解决很多问题.推荐强悍的 Requests: HTTP for Humans 另外还…

Python 爬虫从入门到进阶之路（八）

在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在之前写的爬虫程序中,都只是获取到了页面的全部内容,也就是只进行到了第2步,但是大部分的东西是我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来.这时候我们就需要用到…

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】

[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9),如下图所示: 网上查找了一些方法,以为是遇到了网站加密处理.后来发现通过F12还是能获取网页的元素,那么有什么办法能规避乱码问题呢?答案是:用selenium. [效果如下] [示例代码] # coding=utf-8 # @Auther : "鹏哥贼优秀" # @D…

Python 爬虫从入门到进阶之路（二）

上一篇文章我们对爬虫有了一个初步认识,本篇文章我们开始学习 Python 爬虫实例. 在 Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取. 在 Python2.x 和 Python3.x 中 urllib 模块是不一样的,但是用法上差不多,我们先用 Python2.x 中的 urllib 来实现一个 demo. 在 Python2.x 中内置了 urllib 模块,但是 Python 创始人 Guido van Rossum 觉得其太臃…