前言:前两篇转载别人的精彩文章,自己也总结一下吧!

最近又开始用起py,是为什么呢?

自己要做一个文本相似度匹配程序,大致思路就是两个文档,一个是试题,一个是材料,我将试题按每题分割出来,再将每题的内容与材料中进行文本相似度匹配。

所以先首先要做的是将试题把每道题作为一个字符串切割开来,存放到字典中。

程序入下:

# -*- coding:utf-8 -*-
import re #正则模块
f = open('test.txt','r')
s = f.read()
s1 = s.split('工作人员考试')#一级切割,把每套题分割开来
print len(s1)
r1 = re.split('(\d{1,3}\.)',s1[0])#用正则按比如"1.","11.","170."把每套题中的题亩切割开来
for i in r1:
print i
f.close() #关闭文件

文本内容:

一、判断題(正确的选A,错误的选B,涂在答题卡的相应位置:每题1分,共20分)
1. 沟通仅仅是两个或两个以上的人之间的意思传送。()
2. 扁平型组织的控制跨度要小些。 ()
3. 企业人员素质普遍偏高,对领导的意图能很好地意会,则适合采取集权管理。()
4. 决策的关键是目标,没有目标就没有决策。 ()
5. 头脑风暴法是为了保证群体决策的创造性,提高决策质量,改善群体决策而发展起来。()
6. 优秀领导者不仅依靠合法的地位所赋予他的职权,而且能以个人的才能、魄力和威望来促使他人努力工作。 ()

输出结果:

Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> ================================ RESTART ================================
>>>
13
2016年4月16日重庆市綦江区事业单位公开招聘
一、判断題(正确的选A,错误的选B,涂在答题卡的相应位置:每题1分,共20分) 1.
沟通仅仅是两个或两个以上的人之间的意思传送。() 2.
扁平型组织的控制跨度要小些。 () 3.
企业人员素质普遍偏高,对领导的意图能很好地意会,则适合采取集权管理。() 4.
决策的关键是目标,没有目标就没有决策。 () 5.
头脑风暴法是为了保证群体决策的创造性,提高决策质量,改善群体决策而发展起来。() 6.
优秀领导者不仅依靠合法的地位所赋予他的职权,而且能以个人的才能、魄力和威望来促使他人努力工作。 ()

最后说明一下:
re.split('(\d{1,3}\.)',s1[0])#这里若去掉括号,则分割符号不会被保留

输出结果如下:

>>> ================================ RESTART ================================
>>>
13
2016年4月16日重庆市綦江区事业单位公开招聘
一、判断題(正确的选A,错误的选B,涂在答题卡的相应位置:每题1分,共20分) 沟通仅仅是两个或两个以上的人之间的意思传送。() 扁平型组织的控制跨度要小些。 () 企业人员素质普遍偏高,对领导的意图能很好地意会,则适合采取集权管理。() 决策的关键是目标,没有目标就没有决策。 () 头脑风暴法是为了保证群体决策的创造性,提高决策质量,改善群体决策而发展起来。() 优秀领导者不仅依靠合法的地位所赋予他的职权,而且能以个人的才能、魄力和威望来促使他人努力工作。 ()

前两篇转载别人的精彩文章,自己也总结一下python split的用法吧!的更多相关文章

  1. aspx页面调用发送邮件验证码(结合前两篇)

    <%@ Page Language="C#" AutoEventWireup="true" CodeFile="Default3.aspx.cs ...

  2. SpringMvc支持Ajax概述【见前两篇随笔--详述前后数据互通】

    1.原生javaWeb:不再用 1).导入GSON: 2).返回的数据用GSON转成json 3).写出去: 2.SpringMVC快速的完成ajax功能? 导包 jackson-annotation ...

  3. wp-query调用前几篇文章的方法

    ---恢复内容开始--- 利用强大的wp-query函数调用指定分类下的前几篇文章,下面的代码表示调用的是分类ID4下的前两篇文章. <?php $cunt_wenzhen = array('c ...

  4. 用mvc模式,整理前两次的代码并增加登陆注册

    简单的servlet连接mysql数据库 使用mvc的登录注册 commons-dbutils-1.6 mysql-connector-java-5.1.40-bin c3p0-0.9.5.2 mch ...

  5. 《转载-两篇很好的文章整合》Android中自定义控件

    两篇很好的文章,有相互借鉴的地方,整合到一起收藏 分别转载自:http://blog.csdn.net/xu_fu/article/details/7829721 http://www.cnblogs ...

  6. 两篇文章带你走入.NET Core 世界:CentOS+Kestrel+Ngnix 虚拟机先走一遍(一)

    背景: 上一篇:ASP.Net Core on Linux (CentOS7)共享第三方依赖库部署 已经交待了背景,这篇就省下背景了. 折腾的过程分两步: 第一步是:本机跑虚拟机部署试一下: 第二步是 ...

  7. 两篇很好的EPG相关文章

    两篇很好的EPG相关文章 原文地址:http://blog.sina.com.cn/s/blog_53220cef0100pi8j.html 1 基于DVB-SI的数字有线电视机顶盒节目指南的设计实现 ...

  8. 关于DataTable的两篇基础文章

    DataTable有的时候还是很有用的.记录两篇不错的文章,当字典 1.http://blog.csdn.net/imagse/article/details/3085870 2.https://ms ...

  9. jq最新前三篇文章高亮显示

    /*---------最新前三篇文章高亮显示-------------*/ function latest(){ var color_arr=new Array( "blue", ...

随机推荐

  1. TODOList项目

    [ 爱上Swift]十二期:TODOList项目   好久没有写Swift甚是想念,Swift,Xcode都比较稳定了写个程序熟悉一下,当然时间原因都是小Demo,废话不多说先上图. 下面是跑起来之后 ...

  2. 使用OpenWrt的SDK

    原文:http://wiki.openwrt.org/doc/howto/obtain.firmware.sdk 为什么要使用SDK: Reasons for using the SDK are: C ...

  3. 微软BI 之SSIS 系列 - 使用 Script Task 访问非 Windows 验证下的 SMTP 服务器发送邮件

    原文:微软BI 之SSIS 系列 - 使用 Script Task 访问非 Windows 验证下的 SMTP 服务器发送邮件 开篇介绍 大多数情况下我们的 SSIS 包都会配置在 SQL Agent ...

  4. javascript立即调用的函数表达式N种写法(第二篇)

    原文:javascript立即调用的函数表达式N种写法(第二篇) 上一篇博客我谈到将函数声明转换为函数表达式最常见的一种写法是:通过括号()将匿名函数声明转换为函数表达式即(function(){}) ...

  5. CentOS下JAVA WEB 环境搭建

    首先介绍下我的软件环境.虚拟机Vmware9.0(已经汉化),CentOS6.4(选择安装语言为简体中文),xshell4.0(强大的安全终端模拟软件),xftp4.0(FTP工具). 方便大家环境搭 ...

  6. sql内置函数pivot强大的行转列功能

    原文:sql内置函数pivot强大的行转列功能 语法: PIVOT用于将列值旋转为列名(即行转列),在SQL Server 2000可以用聚合函数配合CASE语句实现 PIVOT的一般语法是:PIVO ...

  7. 输出,变量的使用,子查询,逻辑语句,循环,case..when..then..end多分支语句,Exists(判断存在)

    --------------输出----------------print 'hello world'--以文本形式输出select 'hello world'--以网格形式输出,也可以设置成以文本形 ...

  8. visual studio code, asp.net5, mvc6资料汇总

    最近在试探性地跟随微软最新发布的一些产品,现列下某些挺好的文章和链接 code.visualstudio.com http://blogs.msdn.com/b/cesardelatorre/arch ...

  9. 《剑指Offer》面试题-从头到尾打印链表

    题目描述: 输入一个链表,从尾到头打印链表每个节点的值. 输入: 每个输入文件仅包含一组测试样例.每一组测试案例包含多行,每行一个大于0的整数,代表一个链表的节点.第一行是链表第一个节点的值,依次类推 ...

  10. 二分法-C++

    对于一个非线性方程f(x)=0求改方程的根,我们的思路可以这么想: 1.根的存在性.若该方程没有根,何必徒劳想法设法去求它的解呢?对于一个方程,我们怎么去找他的根,有连续函数零点定理可知:若有f(a) ...