之前有解释预处理部分的函数,不过觉得还不够详细,同时文字解释还不够直观,所以现在想一步步运行下,打印输出

首先读取原始数据,包括相应的注释(即结节标签)【注意】注释文件中的标签是按x,y,z的顺序给的,但是origin以及spacing都是按照z,y,x的顺序,所以要逆序处理一下([:,::-1])

  1. raw_data,origin,spacing,isflip = load_itk_image("/home/dataset/LUNA16/subset3/1.3.6.1.4.1.14519.5.2.1.6279.6001.126631670596873065041988320084.mhd")
    annos = np.array(pandas.read_csv("/home/dataset/LUNA16/CSVFILES/annotations.csv"))
    this_annos = np.copy(annos[annos[:,0]==("1.3.6.1.4.1.14519.5.2.1.6279.6001.126631670596873065041988320084")])
    raw_label = (this_annos[:,1:-1][:,::-1]-origin)/spacing

然后输出下原始数据的shape,以及标签的内容

  1. print(raw_data.shape)
  2. print(raw_label)

输出

  1. (272, 512, 512)
    [[83.84986792 232.12420469969365 348.18196764820215] [229.169256536 308.7302064585643 158.2345410262112]]

然后可视化其中一张切片

  1. plt.imshow(raw_data[229])

效果

现在开始进入预处理流程

之前读取过原始数据,此处不再读取,除原始数据及标签外,还需要读取LUNA16为每个CT提供的掩码,用于剔除肺部以外区域

  1. Mask,origin,spacing,isflip = load_itk_image("/home/dataset/LUNA16/seg-lungs-LUNA16/1.3.6.1.4.1.14519.5.2.1.6279.6001.126631670596873065041988320084.mhd")

掩码是与CT图像同样大小的三维图像,区别在于掩码只有0,1两种值,这张CT的大小是(272,512,512),掩码也是(272,512,512)

值得注意的是此处的掩码却并不是0,1二值,而是0,3,4三种值,0依然代表肺部以外区域,3代表左肺,4代表右肺,为便于将肺部一起处理,还需要将左右两个肺合并一下

  1. m1 = Mask==3 #LUNA16的掩码有两种值,3和4
  2. m2 = Mask==4
  3. Mask = m1+m2

然后这里做了一个我认为没那么重要但是给处理带来很多麻烦的环节,那就是对掩码求取边界(肺部边界),只保留边界内的数据

不妨想象一个正方形,里面有一个小圆,小圆就是掩码,那么此处做的就是求小圆的最小外接矩形,将矩形外的部分砍掉

  1. xx,yy,zz= np.where(Mask)
  2. box = np.array([[np.min(xx),np.max(xx)],[np.min(yy),np.max(yy)],[np.min(zz),np.max(zz)]])

打印输出看一下box

  1. array([[ 21, 264], [130, 407], [ 62, 441]])

做到这,预处理已经差不多了,再加几步

  1. box = box*np.expand_dims(spacing,1)/np.expand_dims(resolution,1) #对边界即掩码的最小外部长方体应用新分辨率 box = np.floor(box).astype('int')

打印输出

  1. array([[ 26, 330], [ 96, 302], [ 46, 327]])

对这个边界向外扩展一点,为了处理边缘的像素

  1. margin = 5 extendbox = np.vstack([np.max([[0,0,0],box[:,0]-margin],0),np.min([newshape,box[:,1]+2*margin],axis=0).T]).T

打印输出

  1. array([[ 21, 340], [ 91, 312], [ 41, 337]])

然后对掩码进行一点处理

  1. convex_mask = m1
    dm1 = process_mask(m1) #对掩码采取膨胀操作,去除肺部黑洞
    dm2 = process_mask(m2)
    dilatedMask = dm1+dm2
    Mask = m1+m2
    extramask = dilatedMask ^ Mask #异或操作,求出相比于原始掩码膨胀后多出来的区域

这里mask的大小没有变过,仍然是(272,512,512)

  1. bone_thresh = 210
    pad_value = 170
    sliceim = lumTrans(sliceim) #对原始数据阈值化,并归一化
    sliceim = sliceim*dilatedMask+pad_value*(1-dilatedMask).astype('uint8') #170对应归一化话后的水,掩码(膨胀过后)外的区域补充为水
    bones = (sliceim*extramask)>bone_thresh #210对应归一化后的骨头,凡是大于骨头的区域都填充为水
    sliceim[bones] = pad_value

此时CT数据即sliceim的大小也没有变过,现在要变化一下,进行重采样

  1. sliceim1,_ = resample(sliceim,spacing,resolution,order=1)

查看下此时的大小

  1. (340, 380, 380)

最后还记得之前求的box吗,我们只需要box内的数据即可

  1. sliceim2 = sliceim1[extendbox[0,0]:extendbox[0,1], #将extendbox内数据取出作为最后结果
    extendbox[1,0]:extendbox[1,1],
    extendbox[2,0]:extendbox[2,1]]

处理完数据,还需要处理标签

之前已经将世界坐标转换为体素坐标,现在要对其应用新的分辨率(这里取[1,1,1])

  1. raw_label = raw_label*spacing/resolution

输出

  1. array([[104.8123349, 172.279793861, 258.41647013999994], [286.46157067, 229.13584731999998, 117.43977386999997]], dtype=object)

最后的最后,减去box的下界

得到

  1. [[83.84986792 232.12420469969365 348.18196764820215] [229.169256536 308.7302064585643 158.2345410262112]]

上面处理过的数据和标签与完整预处理后的clean.npy和label.npy是一样的,证明这个分解的过程没什么纰漏

完结,撒花

对DeepLung数据预处理部分的详细展示的更多相关文章

  1. 第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)

    前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...

  2. 借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率

    原文链接 简介 为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...

  3. weka数据预处理

    Weka数据预处理(一) 对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类.聚类.关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbag ...

  4. 对数据预处理的一点理解[ZZ]

    数据预处理没有统一的标准,只能说是根据不同类型的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,这里面经 ...

  5. 数据准备<3>:数据预处理

    数据预处理是指因为算法或者分析需要,对经过数据质量检查后的数据进行转换.衍生.规约等操作的过程.整个数据预处理工作主要包括五个方面内容:简单函数变换.标准化.衍生虚拟变量.离散化.降维.本文将作展开介 ...

  6. sklearn数据预处理

    一.standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准 ...

  7. 文本数据预处理:sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer

    文本数据预处理的第一步通常是进行分词,分词后会进行向量化的操作.在介绍向量化之前,我们先来了解下词袋模型. 1.词袋模型(Bag of words,简称 BoW ) 词袋模型假设我们不考虑文本中词与词 ...

  8. 目标检测之Faster-RCNN的pytorch代码详解(数据预处理篇)

    首先贴上代码原作者的github:https://github.com/chenyuntc/simple-faster-rcnn-pytorch(非代码作者,博文只解释代码) 今天看完了simple- ...

  9. sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,沉寂了这么久我又出来啦,这次先不翻译优质的文章了,这次我们回到Python中的机器学习,看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下我的开发环境是 ...

随机推荐

  1. 11-23网页基础--JavaScript基础知识

    第一课 JavaScript简介 一.定义:JavaScript是脚本语言,需要宿主文件,它的宿主文件是html文件. JavaScript 是一种轻量级的编程语言. JavaScript 是可插入 ...

  2. css水平居中(一)

    第一种方法:使用text-align属性. 看到一篇博客,也不知道是不是我理解的问题,博客上说text-align可以是内联元素水平居中,我感觉这样的说法是不是有些不准确. text-align属性规 ...

  3. vmstat详细说明

    下面是关于Unix下vmstat命令的详细介绍,收录在这里,以备日后参考 vmstat是用来实时查看内存使用情况,反映的情况比用top直观一些.作为一个CPU监视器,vmstat命令比iostat命令 ...

  4. [patl2-018]多项式A除以B

    解题关键:多项式除法的模拟. #include<cstdio> #include<cstring> #include<algorithm> #include< ...

  5. 【总结整理】JS的继承

    参考阮一峰的文章:http://javascript.ruanyifeng.com/oop/inheritance.html#toc4 function Shape() { this.x = 0; t ...

  6. jquery获取元素在文档中的位置信息以及滚动条位置(转)

    jquery获取元素在文档中的位置信息以及滚动条位置 http://blog.csdn.net/qq_34095777/article/details/78750886     原文链接 原创 201 ...

  7. Python01 python入门介绍

    1 python简介 1.1 为什么学python python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van ...

  8. elasticsearch 6.2.4 安装 elasticsearch-analysis-ik 分词器 (windows 10下)

    访问 https://github.com/medcl/elasticsearch-analysis-ik  找 releases 找到对应的 es 版本 下载 elasticsearch-analy ...

  9. Python程序设计1——基础知识

    1 Python脚本设计简介 1.1 输出"Hello World" 和一般的语言一样,运行python程序有两种方式,一种是GUI交互式命令,一种是通过脚本文件,前者适合小型简单 ...

  10. 数据结构 merge_link合并链表

    问题描述 本题任务是维护一条非递减的链表,初始长度为 0,记这条链表为主链表.对主链表做 N 次操作,操作分两种:1 k a1 a2 … ak,表示一条长度为 k 且非递减的链表,需要将这条链表合并到 ...