来源:在工作过程中,需要统计一些trace信息,也就是一些打点信息,而打点是通过关键字进行的,因此对一个很大的文件进行分析时,想把两个打点之间的内容单独拷贝出来进行分析 #!/usr/bin/env python #__*__ coding: utf-8 __*__ import re import linecache def fileParse(): inputfile = input('Input SourcFile:') ##输入源文件,如A.txt fp = open(inputfile…
IO编程 IO在计算机中指Input/Output,也就是输入和输出.由于程序和运行时数据是在内存中驻留,由CPU这个超快的计算核心来执行,涉及到数据交换的地方,通常是磁盘.网络等,就需要IO接口.从磁盘读取文件到内存,就只有Input操作,反过来,把数据写到磁盘文件里,就只是一个Output操作. 由于CPU和内存的速度远远高于外设的速度,所以,在IO编程中,就存在速度严重不匹配的问题.举个例子来说,比如要把100M的数据写入磁盘,CPU输出100M的数据只需要0.01秒,可是磁盘要接收这10…
1. 环境. Python:3.6.1 Python IDE:pycharm 系统:win7 2. 简单示例 import pymongo # mongodb服务的地址和端口号mongo_url = "127.0.0.1:27017" # 连接到mongodb,如果参数不填,默认为“localhost:27017”client = pymongo.MongoClient(mongo_url) #连接到数据库myDatabaseDATABASE = "myDatabase&qu…
一.文件操作步骤 step1:打开文件,得到文件句柄并赋值给一个变量step2:通过句柄对文件进行操作step3:关闭文件 举例: a = open('hello world', 'r', encoding = 'utf-8') #打开 ‘hello world’ 文件,得到文件句柄并赋值给一个变量 a data = a.read() #通过句柄对文件进行读操作 a.close() #关闭文件 注意事项一: 关于 a.close() 关闭文件 打开一个文件包含两部分资源:操作系统级打开的文件+应…
什么是倒排索引? 倒排索引(英语:Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文档检索系统中最常用的数据结构.通过倒排索引,可以根据单词快速获取包含这个单词的文档列表.倒排索引主要由两个部分组成:“单词词典”和“倒排文件”. 假设我们现在有文件: test1.txt中存有:我们爱自然语言处理 test2.txt中存有:我们爱计算机视觉 正向索引:{“test1.txt”:["我…
一.数据类型 1. 数据类型 数字(整形,长整形,浮点型,复数) 字符串 字节串(字节bytes类型) 列表 元组 字典 集合 2. 按照以下几个点展开数据类型的学习 #======================================基本使用====================================== #1.用途 #2.定义方式 #3.常用操作+内置的方法 #======================================该类型总结============…
1.搜索文件名中以指定的字符串开头(如搜索dll,结果中含有dll a,dll abc等) 我的目录下有dll a.txt和dll.txt文件 其中a文件夹下还有这两个文件 我希望通过python选择寻找关键字dll来把这四个文件找出 import os result=[]def search(path=".", name=""): for item in os.listdir(path): item_path = os.path.join(path, item)…
文件操作 一般步骤1. 文件打开 2. 文件操作 3. 文件关闭 1. 打开文件 使用open(文件名(绝对路径), 打开模式, 编码) 文件打开的模式有: r:  只读模式(默认) w: 只写模式 (不可读,文件不存在就创建,存在则清空) x:  只写模式 (不可读,文件不存在就创建,存在则报错) a:  追加模式 (不可读,如果文件不存在就创建,如果存在则在原文件后面追加) 以上都是以字符串方式打开 '+' 表示可以同时读写某个文件 'b' 表示以字节的方式操作 -> 后续socket部分会…
Python格式化输出: Python的字符串格式化有两种方式: 百分号方式.format方式 百分号的方式相对来说比较老,而format方式则是比较先进的方式,企图替换古老的方式,目前两者并存.[PEP-3101] (1)百分号格式化 %[(name)][flags][width][.precision]typecode .... (name) 可选,用于选择指定的key flags 可选,可供选择的值有: + 右对齐:正数前加正好,负数前加负号: - 左对齐:正数前无符号,负数前加负号: 空…
Python作为一种脚本语言.其很适合文件级的各种操作.以下的代码能够批量删除指定目录下的所有特定类型(CSV类型)的文件. import sys, csv , operator import os import glob for i in range(0, 20): path = "C:\\Python34\\Folder_" + str(i) for infile in glob.glob( os.path.join(path, '*.csv') ): os.remove(infi…
因为需要从一些下载一个页PDF文件.但是需要下载PDF有数百个文件,这是不可能用人工点击下载.只是Python有相关模块,所以写一个程序PDF文件下载,顺便熟悉Python的urllib模块和ulrllib2模块. 1.问题描写叙述 须要从http://www.cvpapers.com/cvpr2014.html上下载几百个论文的PDF文件,该网页例如以下图所看到的: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2d1YWloYWk=/fo…
1.内置函数 上一篇文章中,我重点写了reduce.map.filter3个内置函数,在本篇章节中,会补充其他的一些常规内置函数,并重点写max,min函数,其他没有说明的函数,会在后面写到类和面向对象的文章中具体写出. abs() a=-2 print(abs(a)) 取绝对值,传入变量的数据类型必须是数字.否则程序报错 运行结果: 2 all() a=[1,2,3] print(all(a)) 遍历传入的每一个元素,返回一个布尔值,如果元素中存在0,None或空,则返回结果为False,否则…
读取fasta文件genome_test.fa,并计算染色体总长,同时输出最长染色体编号.序列以及长度 fasta文件genom_test.fa的内容如下: >chr1ATATATATAT>chr2ATATATATATCGCGCGCGCG>chr3ATATATATATCGCGCGCGCGATATATATAT>chr4ATATATATATCGCGCGCGCGATATATATATCGCGCGCGCG>chr5ATATATATATCGCGCGCGCGATATATATATCGCGCG…
1.安装 pyinstaller 插件 cmd命令:pip install PyInstaller PS . o.o 不知道 easy_install 的百度吧. 2.pyinstaller 简介 他能很方便的帮我把 python脚本打包成一个 .exe 程序. cmd打包指令:pyinstaller [一些参数] [打包 .py 脚本的路径] 打包后会在用户目录下产生 两个文件夹 (其中 打包成品 在 build 文件夹下): 1.当我们什么参数都不给的时候: 打包后的结果为一个文件夹: 文件…
前言 到python3.6为止,python内置的关键字有33个,比python2.7的版本多了2个.下面总结一下python3的关键字的使用. python内置关键字 解释器在加载上下文的时候,如果遇到一些预先设定的变量值,就会触发解释器内置的一些操作,这些预定的变量值就是关键字. 查看关键字 查看当前版本的关键字信息,使用: help("keywords") # python3结果 False def if raise None del import return True eli…
Linux 搜某个文件里关键字的上下500行到执行文件里grep '300000111110' -C 500 ./saastom7061_APP3/logs/sass.log >/app/saastom7061_APP3/logs/1.txt…
一.字符编码 重点 ***** 1. 什么是字符编码:将人识别的字符转换计算机能识别的01,转换的规则就是字符编码表2. 常用的编码表:ascii.unicode.GBK.Shift_JIS.Euc-kr3. 编码操作:编码encode().解码decode()4. 了解:编码表的发展史 A.ascii(ASCII)表:字母.数字.英文符号与计算机01标识符的对应关系思考:如何将128个字符用01完全标签二进制:1111111=====>>>255====>>1bytes(1…
循环查看指定路径下的所有文件.文件夹,包含隐藏文件注:“.filename” 以点开头的是隐藏文件 import os for cur_path,cur_dirs,cur_files in os.walk(r'E:\Python学习\pycharm\python脚本\day6'): print('当前路径',cur_path) print('当前目录下有哪些文件夹',cur_dirs) print('当前目录下有哪些文件', cur_files) print('='*20) #输出: 当前路径…
运营那边有个需求. 下载了一批视频文件,由于当时下载的时候陆陆续续创建了很多文件夹,并且,每个文件夹下面还有子文件夹以及视频文件,子文件夹下面有视频文件或者文件夹 现在因为需要转码,转码软件只能对单个文件夹操作. 这时候找上我,问我能不能帮忙把所有的文件单独提取出来到一个文件夹中.他们那边转码完毕,还要放回原来的文件夹 这边琢磨下下.匆忙写了个脚本.功能实现了.但是代码需要优化(后面有空了再说吧) 使用递归方法获取每个文件绝对路径(不要单独的目录),并放入列表中.最终存到excel表中 exce…
第三百三十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式 我们自定义一个main.py来作为启动文件 main.py #!/usr/bin/env python # -*- coding:utf8 -*- from scrapy.cmdline import execute #导入执行scrapy命令方法 import sys import os sys.path.append(os.path.join(os.getcwd())) #给Py…
Python xlrd.xlwt.xlutils读取.修改Excel文件 一.xlrd读取excel 这里介绍一个不错的包xlrs,可以工作在任何平台.这也就意味着你可以在Linux下读取Excel文件. 首先,打开workbook:    import xlrdwb = xlrd.open_workbook('myworkbook.xls') 检查表单名字:    wb.sheet_names() 得到第一张表单,两种方式:索引和名字    sh = wb.sheet_by_index(0)s…
Python:笔记(7)——yield关键字 yield与生成器 所谓生成器是一个函数,它可以生成一个值的序列,以便在迭代中使用.函数使用yield关键字可以定义生成器对象. 一个例子 我们调用该函数,就会发现其中的代码不会开始执行 def countdown(n): print('从%d开始减少'%n) while(n>0): yield n n-=1 return countdown(10) 相应的,该函数返回一个生成器对象.接着该生成器对象就会在__next__被调用时执行函数,如: c…
我们自定义一个main.py来作为启动文件 main.py #!/usr/bin/env python # -*- coding:utf8 -*- from scrapy.cmdline import execute #导入执行scrapy命令方法 import sys import os sys.path.append(os.path.join(os.getcwd())) #给Python解释器,添加模块新路径 ,将main.py文件所在目录添加到Python解释器 execute(['scr…
一. 解决问题: 工作中常会遇到合并Excel文件的需求,Excel文件数量不确定,里面的Sheet 数量是可变的,Sheet Name是可变的,所以,需要用到遍历一个文件夹下有几个Excel文件,判断每个 Excel文件有几个Sheet,Sheet name是什么. 二.系统环境: OS:Win 10 64位 Python版本:3.7 三.准备: 1.文件路径:C:\Work\Python\MergeExel 编写的python文件放在此文件路径下 2.在上面这个文件路径下建立一个Source…
本示例特点: 1.读取CSV,写入Excel 2.读取CSV里具体行.具体列,具体行列的值 一.系统环境 1. OS:Win10 64位英文版 2. Python 3.7 3. 使用第三方库:csv.xlwt 二.准备 一个CSV文件,Book1.csv 三.代码 import csv from xlwt import * import time #读取csv文件 sCsvFileName='Book1.csv' #避免读取CSV文件出现中文显示乱码,加encoding='utf-8' work…
打开文件 open(name[mode[,buffing]) name: 是强制选项,模式和缓冲是可选的 #假设文件不在.会报以下错误: >>> f = open(r'D:\text.txt','r') Traceback (most recent call last): File "<stdin>", line 1, in <module> IOError: [Errno 2] No such file or directory: 'D:\\…
<python基础教程(第二版)>学习笔记 文件和素材(第11章) 打开文件:open(filename[,mode[,buffering]]) mode是读写文件的模式f=open(r'c:\somefile.txt') #默认是读模式+ 表示是可以读写:r 读模式:w 写模式:a 追加模式:b 二进制模式:换行符在Windows为\r\n,在Unix中为\n, Python会自动转换: buffering缓冲:0表示无缓冲:1表示有缓冲(使用flush或close才会写到硬盘中): sys…
摘自:http://www.jb51.net/article/100218.htm Python标准模块中,有多个模块用于数据的压缩与解压缩,如zipfile,gzip, bz2等等. python中zlib模块是用来压缩或者解压缩数据,以便保存和传输.它是其他压缩工具的基础.下面来一起看看python用模块zlib压缩与解压字符串和文件的方法.话不多说,直接来看示例代码. 例子1:压缩与解压字符串 import zlib message = 'abcd1234' compressed = zl…
Python:将爬取的网页数据写入Excel文件中 通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的简单实现方法. 必要的第三方库:requests.beautifulsoup4.xlwt. 先来看看通过使用Excel文件保存数据的一个简单实例. #导入xlwt模块 import xlwt #创建一个Workbook对象,即创建一个Excel工作簿 f = xlwt.Workbook() #创建学…
lambda表达式 学习条件运算时,对于简单的 if else 语句,可以使用三元运算来表示,即: # 普通条件语句 if 1 == 1: name = 'prime' else: name = 'ciri' # 三元运算 name = 'prime' if 1 == 1 else 'ciri' 对于简单的函数,也存在一种简便的表示方式,即:lambda表达式 #普通函数 # 定义函数(普通方式) def func(arg): return arg + 1 # 执行函数 result = fun…