kmeans聚类和WGCNA

总结了3篇论文中kmeans聚类和WGCNA的运用。

论文1

Comprehensive dissection of transcript and metabolite shifts during seed germination and post-germination stages in poplar[Qu et al. BMC Plant Biology, 2019]

前言: 介绍了种子萌发过程,以及杨树作为模式植物,通过转录组和代谢组分析来研究种子萌发过程基因和代谢物变化的重要性。
内容: 通过kmeans将全部差异基因分为了24类,这24个类别对应了种子萌发的6个时期。根据24个类别的表达特征的相关性又细分为9个类别。再 对9个类别的基因做了富集分析。

下一步对全部的差异表达基因进行了WGCNA。然后对所有颜色模块采用了FISHER检验,查看模块的富集途径。

对绿色和棕色模块进行了富集图分析以及对比。然后对这两个模块进行了网络图分析。

选取的4个初级代谢途径中相关的代谢产物进行了分析以及对代谢产物相关的表达基因进行了热图分析。最后将转录组数据和代谢组数据进行了联合分析。

论文2

Comparative Transcriptome Analysis of Different
Dendrobium Species Reveals Active Ingredients-Related Genes and Pathways [Yuan et al., International Journal of Molecular Sciences, 2019]

前言: 介绍了石斛的营养成分,转录组技术以及共表达网络分析和数据来源。
结果: 测定了数据的根茎叶的生物碱以及多糖的含量。分析了石斛根茎叶中差异表达的基因。做了火山图和韦恩图。通过K-means 聚类了所有的差异表达基因。

然后进行了GO与KEGG 富集分析以及WGCNA。

论文3

A Predictive Coexpression Network Identifies Novel Genes Controlling the Seed-to-Seedling Phase Transition in Arabidopsis thaliana1 [Anderson Tadeu Silva et al., Plant Physiology, 2016]

介绍: 了解种子发芽过程的重要性,介绍了转录组的作用和论文目的。
结果:

  1. 种子到幼苗过渡期间转录组变化(PCA分析)介绍7个不同发育时期(DS,6H,TR,RP,RH,GC,OC)差异表达基因的数目。

  2. 将19,130个转录组映射到种子萌发6个阶段。结果表明,不同组基因在不同的位置显示出表达高峰发展阶段,这表明它们与特定阶段的开发功能具有较高相关性。

  3. 通过K-means分成10个簇(DP1-10)进行了GO富集分析。得知K-mean 10个簇富集种子不同萌发阶段的主要参与基因的变化。

  4. 作者的主要目的是研究种子从自养到异养的光合作用过渡时期是哪些基因在起作用。基因集与过渡区域(DP1、DP2 DP6, DP7,和DP10)明显丰富细胞分化,增殖,光合作用。 DP2、DP6 DP10可能进行细胞分裂与后续细胞化过程但没有光合作用。 然而,光合作用和叶绿素绑定在DP1和DP7丰富。 光合作用相关基因表达可能已经在TR阶段开始。观察了DP1,DP2,DP6,DP7和DP10变化相关的基因相互作用区域。 DP2和DP10显示基因表达模式从DS增加到6H,而DP1和DP6显示基因表达从6H增加到TR。这表明这四个DP与种子发芽的早期相关,与幼苗的生长无关。因此,在这五个DP(DP1,DP2,DP6,DP7和DP10)中,预计DP7中的基因是调控发芽和幼苗期的主要基因。因此,DP7是与从发芽(6H)到早期幼苗建立(OC)的过渡相关的最具代表性的基因集。 DP7的独特之处在于RP后转录本丰度增加,此后一直保持较高水平。 DP7的表达模式表明,所有的转录本一致地上调表达直到幼苗发育。这可能表明RP的调节过程会影响1600多个转录本,这些转录本将控制幼苗的生长。

  5. 最后对DP7的基因进一步确定和分析功能。

总结

第一、二篇论文将K-means和WGCNA分开分析,而第三篇将这两个分析合并起来,文章整体性和逻辑性更强。

[论文总结] kmeans聚类和WGCNA的更多相关文章

  1. 第十三篇:K-Means 聚类算法原理分析与代码实现

    前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...

  2. Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解

        Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解 在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下: 输入:参数0--存储样本数据的文本文件inpu ...

  3. 浅谈K-means聚类算法

    K-means算法的起源 1967年,James MacQueen在他的论文<用于多变量观测分类和分析的一些方法>中首次提出 “K-means”这一术语.1957年,贝尔实验室也将标准算法 ...

  4. K-Means 聚类算法

    K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...

  5. 用scikit-learn学习K-Means聚类

    在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类.重点讲述如何选择合适的k值. 1. K-Means类概述 在sc ...

  6. K-Means聚类算法原理

    K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体 ...

  7. K-means聚类算法

    聚类分析(英语:Cluster analysis,亦称为群集分析) K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般.最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中, ...

  8. k-means聚类算法python实现

    K-means聚类算法 算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据 算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...

  9. K-Means 聚类算法原理分析与代码实现

    前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...

随机推荐

  1. Linux 下搭建 Hive 环境

    Linux 下搭建 Hive 环境 作者:Grey 原文地址: 博客园:Linux 下搭建 Hive 环境 CSDN:Linux 下搭建 Hive 环境 前置工作 首先,需要先完成 Linux 下搭建 ...

  2. 提高工作效率的神器:基于前端表格实现Chrome Excel扩展插件

    Chrome插件,官方名称extensions(扩展程序):为了方便理解,以下都称为插件. 我们开发的插件需要在浏览器里面运行,打开浏览器,通过右上角的三个点(自定义及控制)-更多工具-拓展程序-打开 ...

  3. Vue3.x+element-plus+ts踩坑笔记

    闲聊 前段时间小颖在B站找了个学习vue3+TS的视频,自己尝试着搭建了一些基础代码,在实现功能的过程中遇到了一些问题,为了防止自己遗忘,写个随笔记录一下嘻嘻 项目代码 git地址:vue3.x-ts ...

  4. Vulnhub 靶机 pwnlab_init 渗透——详细教程

    1. 下载 pwnlab_ini 靶机的 .ova 文件并导入 VMware: pwnlab下载地址:PwnLab: init ~ VulnHub 导入VMware时遇到VMware上虚机太多,无法确 ...

  5. 表单快速启用城市地区功能 齐博x1齐博x2齐博x3齐博x4齐博x5齐博x6齐博x7齐博x8齐博x9齐博x10

    比如分类系统\application\fenlei\config.php 修改这个文件,里边加入参数 'use_area'=>true, 那么会员中心与后台的,修改发布页面,都会自动加上城市地区 ...

  6. SpringBoot 自动装配原理

    早期的Spring项目需要添加需要配置繁琐的xml,比如MVC.事务.数据库连接等繁琐的配置.Spring Boot的出现就无需这些繁琐的配置,因为Spring Boot基于约定大于配置的理念,在项目 ...

  7. 论文笔记 - Active Learning by Acquiring Contrastive Examples

    Motivation 最常用来在 Active Learning 中作为样本检索的两个指标分别是: 基于不确定性(给模型上难度): 基于多样性(扩大模型的推理空间). 指标一可能会导致总是选到不提供有 ...

  8. 记录因Sharding Jdbc批量操作引发的一次fullGC

    周五晚上告警群突然收到了一条告警消息,点开一看,应用 fullGC 了. 于是赶紧联系运维下载堆内存快照,进行分析. 内存分析 使用 MemoryAnalyzer 打开堆文件 mat 下载地址:htt ...

  9. prefetch和preload

    前面的话 基于VUE的前端小站改造成SSR服务器端渲染后,HTML文档会自动使用preload和prefetch来预加载所需资源,本文将详细介绍preload和prefetch的使用 资源优先级 在介 ...

  10. zk系列二:zookeeper实战之分布式统一配置获取

    前面介绍了zk的一些基础知识,这篇文章主要介绍下如何在java环境下获取zk的配置信息:主要基于zk的监听器以及回调函数通过响应式编程的思想将核心代码糅合成一个工具类,几乎做到了拿来即用: 在分布式集 ...