前几次教程“GEO数据挖掘(一)简单快速下载GEO数据”、“GEO数据挖掘(一)下载SRA库原始测序数据”、 “GEO数据挖掘(二)--基因差别表达分析及可视化全套代码分享”已经分享过下载数据、基因差别分析等步调。本次将分享若何将提取出来的差别基因停止基因富集分析,并停止可视化展现。 经过前面的教程我们已经挑选出来了差别基因,可是基因的所属分类很多,那怎样才能晓得这些基因所代表的生物学意义呢,这就需要操纵基因富集分析来为这些基因正文功用,分析它究竟富集到哪个基因集上,介入了哪些调控,从而影响了疾病的发生。富集分析的道理简单来说就是分析一组基因在某个功用节点上能否相比于随机水平更明显,是由单个基因的简单正文扩大到多个基因调集的成组性分析。今朝最常用的富集方式就是基于GO和KEGG的富集分析,来揭露一类基因所代表的生物学布景。 GO term功用富集分析基因本体(gene ontology, GO)数据库是今朝利用最普遍的基因通路正文系统之一。其道理简单了解就是计较介入调控进程的差别基因能否明显聚集在以下三个层面中:细胞成份(Cellular component,CC) 、份子功用(Molecular function,MF)、生物学进程 (Biological process,BP)。
rm(list = ls()) load("step4_output.Rdata") library(clusterProfiler) library(dplyr) library(ggplot2) source("kegg_plot_function.R") #(1)输入数据 gene_up = deg[deg$change == 'up','ENTREZID'] gene_down = deg[deg$change == 'down','ENTREZID'] gene_diff = c(gene_up,gene_down) gene_all = deg[,'ENTREZID'] #(2)GO分析,分三部分 #以下步调耗时很长,现实运转时留意把if前面的括号里F改成T library(org.Hs.eg.db) if(T){ #细胞组分 ego_CC <- enrichGO(gene = gene_diff, OrgDb= org.Hs.eg.db, ont = "CC", pAdjustMethod = "BH", minGSSize = 1, pvalueCutoff = 0.01, qvalueCutoff = 0.01, readable = TRUE) #生物进程 ego_BP <- enrichGO(gene = gene_diff, OrgDb= org.Hs.eg.db, ont = "BP", pAdjustMethod = "BH", minGSSize = 1, pvalueCutoff = 0.01, qvalueCutoff = 0.01, readable = TRUE) #份子功用: ego_MF <- enrichGO(gene = gene_diff, OrgDb= org.Hs.eg.db, ont = "MF", pAdjustMethod = "BH", minGSSize = 1, pvalueCutoff = 0.01, qvalueCutoff = 0.01, readable = TRUE) save(ego_CC,ego_BP,ego_MF,file = "ego_GSE42872.Rdata") } load(file = "ego_GSE42872.Rdata") #(3)可视化 #条带图 barplot(ego_CC,showCategory=20) #气泡图 dotplot(ego_CC) geneList = deg$logFC names(geneList)=deg$ENTREZID geneList = sort(geneList,decreasing = T) #(3)展现top5通路的配合基因。 #Gene-Concept Network cnetplot(ego_CC, categorySize="pvalue", foldChange=geneList,colorEdge = TRUE) cnetplot(ego_CC, foldChange=geneList, circular = TRUE, colorEdge = TRUE) #Enrichment Map emAPPlot(ego_CC) #(4)展现通路关系 goplot(ego_CC) #(5)Heatmap-like functional classification heatplot(ego_CC,foldChange = geneList) pdf("heatplot.pdf",width = 14,height = 5) heatplot(ego_CC,foldChange = geneList) dev.off() KEGG 富集分析KEGG pathway通路富集(Kyoto encyclopedia of genes and genomes, KEGG)是系统分析基因功用、基因组信息的数据库,整合了基因组学、生物化学及系统功用组学的信息,有助于我们把基因及表达信息作为一个整体停止研讨。KEGG的每个通路图都包括一个份子相互感化和反应收集,会将基因组中的基因与通路中的基因产物联系起来,诠释细胞和生物体的新陈代谢和各类其他功用的生物学布景。 #上调、下调、差别、一切基因#(1)输入数据 gene_up = deg[deg$change == 'up','ENTREZID'] gene_down = deg[deg$change == 'down','ENTREZID'] gene_diff = c(gene_up,gene_down) gene_all = deg[,'ENTREZID'] #(2)对上调/下调/一切差别基因停止富集分析 if(T){ kk.up <- enrichKEGG(gene = gene_up, organism = 'hsa', universe = gene_all, pvalueCutoff = 0.9, qvalueCutoff = 0.9) kk.down <- enrichKEGG(gene = gene_down, organism = 'hsa', universe = gene_all, pvalueCutoff = 0.9, qvalueCutoff =0.9) kk.diff <- enrichKEGG(gene = gene_diff, organism = 'hsa', pvalueCutoff = 0.9) save(kk.diff,kk.down,kk.up,file = "GSE21933kegg.Rdata") } load("GSE21933kegg.Rdata") #(3)从富集成果中提取出成果数据框 kegg_diff_dt <- kk.diff@result #(4)依照pvalue挑选通路 #在enrichkegg时没有设备pvaluecutoff,在此处挑选 down_kegg <- kk.down@result %>% filter(pvalue<0.05) %>% #挑选行 mutate(group=-1) #新增列 up_kegg <- kk.up@result %>% filter(pvalue<0.05) %>% mutate(group=1) #(5)可视化 g_kegg <- kegg_plot(up_kegg,down_kegg) #g_kegg +scale_y_continuous(labels = c(20,15,10,5,0,5)) ggsave(g_kegg,filename = 'kegg_up_down.png') 今朝我们已经走完“GEO数据挖掘”的根基流程,感激大师的延续关注,可是今朝只是简单分析教程,要想把握GEO数据挖掘的精华,还需方法会每一步分析背后所处理的生物学题目和应用算法,后续还会继续为大师分享相关常识。 请延续关注诺禾致源“GEO数据挖掘”系列文章,每周一个适用干货带您上手生信分析。 |
导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结
整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济
做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几
我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而
在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职
如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季
1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的
数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名
编辑导语:数据分析是让很多职场人头疼的一个话题,一张简简单单的图片上有几条曲线,
本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。“Big Data is like teena
编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据。随着用户数据与业
8月16日,国家统计局发布了2022年7月70个大中城市商品住宅销售价格变动情况。数据显示
本文来源:时代周报 作者:阿力米热人口是国家发展的基础性、全局性、长期性和战略性
中新网7月23日电 (中新财经 吴涛)23日,在第五届数字中国建设峰会期间举行的大数据分
来源:环球时报【环球时报综合报道】受疫情影响,今年上半年访韩外国游客数量持续猛减
日前,国家统计局公布了中国一季度的实际GDP增长率,结果2022年1季度中国GDP实际增长
原文链接:知乎专栏目录:一、为什么要做一份数据报告二、制作数据报告的流程一、为什
文 | 李童 孟令稀编辑 | 陈臣自9月30日首度回应“双标”争议以来,海天味业市值已下跌
编辑导语:无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,那么数
数据分析在如今的求职场上越来越重要。然而,让很多朋友困惑的是,我是没有编程基础的
声明:本站内容由网友分享或转载自互联网公开发布的内容,如有侵权请反馈到邮箱 1415941@qq.com,我们会在3个工作日内删除,加急删除请添加站长微信:15314649589
Copyright @ 2022-2044 杭州共生网络 www.gongshengyun.cn Powered by Discuz!