尔云间 一个专门做科研的团队
原创 小果 生信果 关注我们
(资料图片)
小伙伴们好啊,小果和大家又见面了,大家在做GSEA分析的时候有没有想过,那些富集用的数据库里面有哪些基因,我们找基因集的时候能不能从这个数据库里找,接下来就让我们一起来了解一下吧。
Gene Set Enrichment Analysis,中文名称为基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法,在提出该方法的同时还对应提供了分析的软件GSEA和一个基因集数据库MSigDB。
对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。
这里的基因集有九个大类
01H: hallmark gene sets
该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。共包含50个基因集。
02C1: positional gene sets
该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。包含299个基因集。
03 C2:curated gene sets
该类别包含了已知数据库,文献和专家支持的基因集信息。
04 C3 : regulatory target gene sets
该类别包含了miRNA靶基因和转录因子结合区域等基因集合。
05C4 : computational gene sets
该类别包含计算机软件预测出来的基因集合,主要是和癌症相关的基因。
06C5 : GO gene sets
该类别包含了Gene Ontology对应的基因集合,分为3大类别,即BP,MF,CC。
每个基因集对应一个GO term。
07C6 : oncogenic signatures
该类别包含已知条件处理后基因表达量发生变化的基因,包括189个基因集。
08C7 : immunologic signatures
该类别包含了免疫系统功能相关的基因集合。
09C8 : cell type signature gene sets
包含在人类组织的单细胞测序研究中确定的细胞类型的簇标记物的基因集,共包含700个基因集。
功能通路的开头可以帮助我们快速找到想要的基因集,如HP_SEVERE_LACTIC_ACIDOSIS,HP开头,需要在C5的HPO里找。
好了,小伙伴们,这就是今天的主要内容了,小伙伴们有什么问题欢迎和小果讨论分享啊
推荐阅读
多种花样都能懂,富集图的看法
相关性图谱之相关性热图学习
小果教你快速优雅使用Genecards数据库
从UCSC下载TCGA数据
简单高效利用Batch Entrez批量获取基因别名
关注小果,小果将会持续为你带来更多生信干货哦。
“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。
关键词:
责任编辑:Rex_25