面试的时候被问到这样一个问题:有A、B两个数组,找出B中有A中没有的所有元素(换言之即是求差集B-A)。当时比较紧张,用了最原始的双重嵌套循环逐个比较,很显然这种时间复杂度高达O(n2)的算法相当low。

回去之后经过思考,有了一个新的思路,即先对A、B进行排序,时间复杂度为O(nlog2n),再对排序后的数组同时遍历进行比较,这里的时间复杂度为O(n),这样总体的时间复杂度为O(nlog2n),效率比之前有了改进。(PS:在网上搜索过之后,发现还有hash的方法可以更简单,这里暂不详叙。)

于是用刚学不久的Python来编写代码实现新的思路:

 a=[1,2,3,4,5,7,9,11,19,17]
b=[1,2,4,5,6,8,10,12,14,22,16,15] a.sort()
b.sort()
print "sorted a=",a
print "sorted b=",b i=0,j=0
print ("The numbers which are in list b but not in list a include:")
while i<len(a) and j<len(b):
if a[i]==b[j] :
i=i+1
j=j+1
elif a[i]>b[j] :
c.append(b[j])
j=j+1
elif a[i]<b[j] :
i=i+1
while j<len(b):
c.append(b[j])
j=j+1
print(c)

输出的结果为:

sorted a= [1, 2, 3, 4, 5, 7, 9, 11, 17, 19]
       sorted b= [1, 2, 4, 5, 6, 8, 10, 12, 14, 15, 16, 22]
       The numbers which are in list b but not in list a include:
       [6, 8, 10, 12, 14, 15, 16, 22]

与预期的结果一致。

  PS:这里的代码有一点小问题,因为之前用Python3,后来改成了Python2.7,在后者中,print的内容不需要括号,而代码中多余的括号并没有完全移除,这里因为每一句print的内容只有一个,所以输出结果不会有差别,但是如果同一句print要输出多个元素,就会出现不同的情况。举个例子:

  print "a","b"

  print ("a","b")

  这样的两行代码,在Python3中,前一句会报错,后一句会输出:a  b 。

  而在Python2.7中,前一句会输出:a b,后一句会输出:('a','b')。


学习了一段时间Python后,发现了set()这个数据结构。在Python中,set()是一种无序不重复的数据结构,并且可以直接进行求交集、并集、差集的步骤。于是,上述问题可以直接这样写:

 import copy

 a=[1,2,3,4,5,7,9,11,19,17]
b=[1,2,4,5,6,8,10,12,14,22,16,15] A=copy.copy(a)
B=copy.copy(b) print "A=",A
print "B=",B
print "Another way to solve it : "
print list(set(B)-set(A))

输出的结果为:

  Another way to solve it :
  [6, 8, 10, 12, 14, 15, 16, 22]

  结果也是正确的。

  思路很简单,把list先转变成set,求差集之后再转回list即可。注意这里用了Python的copy这个库,因为这段代码和前面的方法实际上是写在同一个程序中,如果直接用A=a,B=b的话,A和B的内容将是排序后的a和b。理由是A=a的写法只是让A指向a的引用地址,a改变的时候,A也会随之改变;用copy.copy()的话,A才能记录原始的数组a。


用set()的方法只需要一行代码,相当简洁,但是这里存在另外一个问题:假如数组b中存在着若干个重复的元素,且这些元素不存在于数组a中,而要求的结果恰好需要重复的元素也一并列出,并且不能改变元素在数组b中出现的顺序。比如a=[1,5,2],b=[2,4,3,3],按照要求需要输出[4,3,3],然而由于set()是不重复的数据结构,如果采取上述方法会自动排序和自动剔除重复的元素,输出为[3,4],和要求不符合,那么只能寻找其他的方法了。

  之后在operator库中找到了方法,代码如下:

 import operator
a=[1,5,2]
b=[2,4,3,3] print "Without changing the order :"
for num in b:
if operator.contains(a,num)==False:
print num,

  输出的结果为:

  Without changing the order:

  4,3,3

  这样即使重复出现在数组b中的元素3也能在结果中同样重复出现,元素顺序也没有更改。operator.contains(a,num)语句的作用是判断num是否在a中,在的话为True,否则为False。


  最后查看了一下operator的源码,发现operator.contains(list,num)函数的定义仅仅是判断num in list or not,于是得到了不使用库的版本:

 a=[1,5,2]
b=[2,4,3,3]
print "With no modules:"
for num in b:
if num not in a:
print num,

  输出的结果为:

  With no modules:

  4,3,3

Python学习笔记(1)——数组差集的更多相关文章

  1. 小甲鱼:Python学习笔记002_数组_元组_字符串

    创建普通数组 >>> member=["山东黄金","九阳股份"] >>> member ['山东黄金', '九阳股份'] ...

  2. OpenCV之Python学习笔记

    OpenCV之Python学习笔记 直都在用Python+OpenCV做一些算法的原型.本来想留下发布一些文章的,可是整理一下就有点无奈了,都是写零散不成系统的小片段.现在看 到一本国外的新书< ...

  3. Python学习笔记基础篇——总览

    Python初识与简介[开篇] Python学习笔记——基础篇[第一周]——变量与赋值.用户交互.条件判断.循环控制.数据类型.文本操作 Python学习笔记——基础篇[第二周]——解释器.字符串.列 ...

  4. Python学习笔记(七)

    Python学习笔记(七): 深浅拷贝 Set-集合 函数 1. 深浅拷贝 1. 浅拷贝-多层嵌套只拷贝第一层 a = [[1,2],3,4] b = a.copy() print(b) # 结果:[ ...

  5. Python学习笔记(八)

    Python学习笔记(八): 复习回顾 递归函数 内置函数 1. 复习回顾 1. 深浅拷贝 2. 集合 应用: 去重 关系操作:交集,并集,差集,对称差集 操作: 定义 s1 = set('alvin ...

  6. python学习笔记(一)、列表和元祖

    该一系列python学习笔记都是根据<Python基础教程(第3版)>内容所记录整理的 1.通用的序列操作 有几种操作适用于所有序列,包括索引.切片.相加.相乘和成员资格检查.另外,Pyt ...

  7. Deep learning with Python 学习笔记(10)

    生成式深度学习 机器学习模型能够对图像.音乐和故事的统计潜在空间(latent space)进行学习,然后从这个空间中采样(sample),创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品 ...

  8. Deep learning with Python 学习笔记(9)

    神经网络模型的优化 使用 Keras 回调函数 使用 model.fit()或 model.fit_generator() 在一个大型数据集上启动数十轮的训练,有点类似于扔一架纸飞机,一开始给它一点推 ...

  9. Deep learning with Python 学习笔记(6)

    本节介绍循环神经网络及其优化 循环神经网络(RNN,recurrent neural network)处理序列的方式是,遍历所有序列元素,并保存一个状态(state),其中包含与已查看内容相关的信息. ...

  10. Deep learning with Python 学习笔记(4)

    本节讲卷积神经网络的可视化 三种方法 可视化卷积神经网络的中间输出(中间激活) 有助于理解卷积神经网络连续的层如何对输入进行变换,也有助于初步了解卷积神经网络每个过滤器的含义 可视化卷积神经网络的过滤 ...

随机推荐

  1. [C入门 - 游戏编程系列] 贪吃蛇篇(三) - 蛇定义

    蛇是这个游戏的主角,要实现的功能也是最复杂的一个.因为蛇不止有属性,还有行为.它会动,还会吃东西,还会长大!而且还会死!这是很要命的.我一向看不懂复杂的代码,也写不出复杂的代码.所以对于蛇,我很纠结, ...

  2. iOS学习之详解AppDelegate

    AppDelegate, 类似于监听接口. 用个很简单的例子说:ios系统会控制每个程序的开始和结束.但是ios又不知道每个程序的开始需要运行成么代码,结束需要运行什么代码.这个时候,ios就制定了一 ...

  3. IOS 项目问题总结

    把自己项目中遇到的问题总结一下,供大家参考,希望大家多多提出意见!! 在Xcode 6.2中遇到Your build settings specify a provisioning profile w ...

  4. java.lang.NoSuchMethodError: main Exception in thread "main"

    java.lang.NoSuchMethodError: main Exception in thread "main" 一般是主函数出问题 检查核对一下 public stati ...

  5. position: absolute;绝对定位水平居中问题

    position: absolute;绝对定位水平居中问题 用CSS让元素居中显示并不是件很简单的事情—同样的合法CSS居中设置在不同浏览器中的表现行为却各有千秋.让我们先来看一下CSS中常见的几种让 ...

  6. VS代码生成工具ReSharper使用手册:配置快捷键

    原文 http://www.cnblogs.com/PHPIDE/archive/2013/05/16/3081783.html VS代码生成工具ReSharper提供了丰富的快捷键,可以极大地提高你 ...

  7. UML--核心元素之包

    包是一种容器,如同文件夹一样. 包是UML非常常用的一个元素,它最主要的作用就是容纳并为其他元素分类.包可以容纳用例.业务实体.类图等,也包含子包. 分包的原则 1.如果将元素分为三个包A.B.C,那 ...

  8. UVA10817--状态压缩DP

    第一次做状态压缩dp..没有思路..看书看明白的,不过看完发现汝哥的做法多算了一些东西,完全可以省去不算.. 用两个集合,s1表示恰好有一个人教的科目,s2表示至少有两个人教的科目.d(i,s1,s2 ...

  9. Fedora 22(15以上版本)开机自启动脚本

    前段时间做了一个网站btdog磁力与btdog电视直播.DHT爬虫需要消耗比较多的资源,原来的服务器不够用了,于是自己使用电脑搭了一台服务器,使用Fedora22系统.在Fedora22中自动写了些开 ...

  10. C++小知识之wsprintf使用

    在C语言中格式化字符串可以使用printf,但是在WINDOWS编程设计中却行不通了,但是却有变通的方法,那就是用 wsprintf这个函数.它的格式如下: int wsprintf (    LPT ...