一、文件读写

1.打开文件

# 以读文件模式代开new.txt

f=open(r"c:\new.txt",“r”)

f=open("c:\new.txt",“r”)

常见文件读取模式:‘r’-读模式;‘w’-写模式;‘a’-追加模式;‘b’-二进制模式;‘+’-读/写模式

更多文件读取模式:http://www.runoob.com/python/python-files-io.html

file对象的属性:

file.closed     返回true如果文件已被关闭,否则返回false。
file.mode   返回被打开文件的访问模式。
file.name    返回文件的名称。
file.softspace 如果用print输出后,必须跟一个空格符,则返回false。否则返回true

详见实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*- # 打开一个文件
fo = open("foo.txt", "w")
print "文件名: ", fo.name
print "是否已关闭 : ", fo.closed
print "访问模式 : ", fo.mode
print "末尾是否强制加空格 : ", fo.softspace 返回结果如下:
文件名: foo.txt
是否已关闭 : False
访问模式 : w
末尾是否强制加空格 : 0

2.文件读取

①.file.read([size])      size未指定则返回整个文件,如果文件大小>2倍内存则有问题.f.read()读到文件尾时返回""(空字串)

②.file.readline()       返回一行

③.file.readlines([size])   返回包含size行的列表,size 未指定则返回全部行

④.for line in f: 
  
   print line #通过迭代器访问

3.文件写入

f.write("hello\n")   #如果要写入字符串以外的数据,先将他转换为字符串.

4.文件关闭

f.close()     关闭文件

5.更多file对象方法:

f.tell()   返回一个整数,表示当前文件指针的位置(就是到文件头的比特数).

f.seek(偏移量,[起始位置]) 用来移动文件指针.

  偏移量:单位:比特,可正可负
  起始位置:0-文件头,默认值;1-当前位置;2-文件尾

省略写法:

with open(‘C:new.txt’,‘r’) as f:
f.write()

二、文件及目录操作方法

os.getcwd()    # 获取当前python脚本工作目录路径
os.listdir(path) # 返回指定目录下的所有文件及目录名
os.remove(filepath) # 删除1个文件
os.removedirs(r"d:\python") #删除多个空目录
os.path。isfile(filepath) #检验路径是否是一个文件
os.path.isdir(filepath) #检验路径是否是一个目录
os.path.isabs()    #判断是否为绝对路径
os.path.exists()    #检验路径是否存在
os.path.split()    #分离一个路径的目录名和文件名,如:
os.path.split(r"/home/new.txt")
返回结果为:(‘/home’,‘new.txt’) os.path.splitext()    #分离扩展名,如:
os.path.splitext(r"/home/new.txt")
返回结果为:(‘/home/new’,'.txt') os.path.dirname(filepath)    #获取路径名
os.path.basename(filepath)    #获取文件名
os.rename(old,new)    #重命名文件或目录
os.makedirs(r"c:|python、test")    #创建多级目录
os.makedir("test")    #创建单个目录
os.path.getsize(filename)    #获取文件大小
shutil.copytree('olddir','newdir')    #复制文件夹
shutil.copyfile('oldfile','newfile')    #复制文件
shuti.move('oldpos','newpos')    #移动文件
os.rmdir('dir')    #删除空目录

三、序列化

  序列化:把内存中的变量编程可存储或可传输的过程。

  反序列化:把变量内容从序列化的对象重新读取到内存的过程。

  Python中有2个模块,可实现序列化,即:cPickle、pickle,前者效率较高

1.dumps()方法

功能:将任意对象序列化成一个str,然后将这个str写入文件进行保存。

import pickle

d = dict(url = ‘index.html’,title = ‘首页’,content = ‘首页’)
pickle。dumps(d)

2.dump()方法

功能:将序列化后的文件直接写入文件

f = open(r'D:\new.txt',‘wb’)
pickle.dump(d,f)
f.close()

3.loads()与load()方法

loads()功能:将str反序列化为对象
load()功能:将文件直接反序列化为对象 f = open(r'D:\new.txt','rb')
d = pickle.load(f)
f.cloese

python爬虫【第1篇】的更多相关文章

  1. Python爬虫笔记安装篇

    目录 爬虫三步 请求库 Requests:阻塞式请求库 Requests是什么 Requests安装 selenium:浏览器自动化测试 selenium安装 PhantomJS:隐藏浏览器窗口 Ph ...

  2. Python爬虫番外篇之Cookie和Session

    关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解 什么 ...

  3. Python爬虫番外篇之关于登录

    常见的登录方式有以下两种: 查看登录页面,csrf,cookie;授权:cookie 直接发送post请求,获取cookie 上面只是简单的描述,下面是详细的针对两种登录方式的时候爬虫的处理方法 第一 ...

  4. Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb

    创建项目 scrapy startproject zhaoping 创建爬虫 cd zhaoping scrapy genspider hr zhaopingwang.com 目录结构 items.p ...

  5. Python爬虫【实战篇】百度翻译

    先看代码 import requests headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS ...

  6. python爬虫入门---第一篇:获取某一网页所有超链接

    这是一个通过使用requests和BeautifulSoup库,简单爬取网站的所有超链接的小爬虫.有任何问题欢迎留言讨论. import requests from bs4 import Beauti ...

  7. python爬虫番外篇(一)进程,线程的初步了解

    一.进程 程序并不能单独和运行只有将程序装载到内存中,系统为他分配资源才能运行,而这种执行的程序就称之为进程.程序和进程的区别在于:程序是指令的集合,它是进程的静态描述文本:进程是程序的一次执行活动, ...

  8. Python爬虫【实战篇】获取网易云歌词

    先看代码 import requests import json headers = { "User-Agent": "Mozilla/5.0 (iPhone; CPU ...

  9. Python爬虫【实战篇】bilibili视频弹幕提取

    两个重要点 1.获取弹幕的url是以 .xml 结尾 2.弹幕url的所需参数在视频url响应的 javascript 中 先看代码 import requests from lxml import ...

  10. python爬虫【实战篇】模拟登录人人网

    requests 提供了一个叫做session类,来实现客户端和服务端的会话保持 使用方法 1.实例化一个session对象 2.让session发送get或者post请求 session = req ...

随机推荐

  1. JavaSE-14 异常处理

    学习要点 使用try-catch-finally处理异常 使用throw.throws抛出异常 异常及其分类 log4j记录日志 异常 1  异常的定义 异常是指在程序的运行过程中所发生的不正常的事件 ...

  2. 面试之Linux

    Linux的体系结构 体系结构主要分为用户态(用户上层活动)和内核态 内核:本质是一段管理计算机硬件设备的程序 系统调用:内核的访问接口,是一种不能再简化的操作 公用函数库:系统调用的组合拳 Shel ...

  3. 记录一次通过命令行方式来使用svn碰到的一系列问题

    由于使用Xcode自带的svn管理碰到很多问题,搞得头昏脑胀,找资料时看到小码哥这方面的视频,看完就开始折腾了. 准备:1.远程仓库地址及授权账号(用户名和密码) 2.一份项目代码,之所以要有这份代码 ...

  4. python爬取网页图片

    # html:网页地址 def getImg2(html): soup = BeautifulSoup(html, 'html.parser') href_regex = re.compile(r'^ ...

  5. 级数求和(C++)

    题目描述 已知:Sn​=1+1/2+1/3+…+1/n.显然对于任意一个整数K,当n足够大的时候,Sn​大于K. 现给出一个整数K(1≤K≤15),要求计算出一个最小的n:使得Sn​>K. 输入 ...

  6. [转]Delphi调用cmd并取得输出文本

    //转自http://www.oschina.net/code/snippet_136241_3980 1 procedure CheckResult(b: Boolean); begin if no ...

  7. Nginx(alias 和 root的区别)

    Nginx(alias 和 root的区别)1.alias 和 root 的区别: location /request_path/image { root /local_path/image/; } ...

  8. python第一章计算机基础

    第一章 计算机基础 1.1 硬件 计算机基本的硬件由:CPU / 内存 / 主板 / 硬盘 / 网卡 / 显卡 / 显示器 等组成,只有硬件但硬件之间无法进行交流和通信. 1.2 操作系统 操作系统用 ...

  9. S3C2440的内存情况在NAND FLASH或者NOR FLASH启动的情况下

    1,从NANDFLASH启动时,在ARM上电时,ARM会自动把NANDFLASH前4K的内容拷贝到S3C2440内部SRAM中,同时把SRAM的地址映射到0X00000000.ARM上电后会从SRAM ...

  10. 找到多个与名为“Home”的控制器匹配的类型。

    原因分析 其实上面已经讲的很清楚了,找到了两个同名Home控制器,需要配置命名空间来区分. 解决方法 方法一:修改RouteConfig.cs 方法二:修改RouteConfig.cs 和 Admin ...