尔云间 一个专门做科研的团队
原创 云生信学生物信息学
Gene Expression Omnibus (GEO) 数据库作为一个提供免费高通量测序数据的数据库,在科研圈中无人不知,无人不晓。每年利用这些公共数据发的文章不计其数。但是作为一个生信小白你是否对GEO还是满脑袋问号,不知道该怎们用呢?今天小编就吐血整理了关于GEO数据库的相关问题,都是你可能会遇到的哦,希望对你有帮助。
下面我们具体看一下相关问题吧:
01.我为什么要向GEO提交数据?不提交可以吗?
一般情况下发表研究的期刊会要求作者将微阵列或序列数据存储到符合MIAME或MINSEQE的公共存储库,这其中就包括了GEO数据库。(当然也可以不提交给GEO,而提交给其他数据库)
- 把数据提交给GEO当然还是好处多多的,比如你提交之后,数据不但可以得到长期存档,而且还可以与其他NCBI资源整合,从而提高数据的可用性和可见性。在提交的内容中还可以包含你自己的项目网站的链接,进而可以提高自己研究的知名度。
02.我如何将我的数据提交给GEO?
首先通过NCBI帐户登录。(如果您没有NCBI帐户,可以创建一个新的。然后按要求填写“我的GEO个人资料”表格)
但是自从2021年6月1日之后,NCBI就不提供直接的注册页面(即之前只需要提供用户名和密码)的形式,开始提供需要第三方账号登录的形式,包括下面这几种:
选择其中一种点击进入之后就可以到达注册账号的页面。按照要求注册即可。
03.我应该什么时候向GEO提交我的数据?提交之后多久可以收到登录号?
GEO处理时间大约是提交完成后的5个工作日。一旦通过审核,就会收到一封审核人的信息确认电子邮件。(如果提交后的5个工作日内没有收到电子邮件,那就需要检查一下垃圾邮件了,邮件可能被自动归类为垃圾邮件了)
04.什么类型的数据可以提交给GEO?
多种类型的数据都可以提交给GEO,包括但不限于下面几种:
- 通过微阵列或下一代测序进行基因表达谱分析(还包括非编码RNA分析、染色质免疫沉淀(ChIP)分析、基因组甲基化分析);
- 高通量RT-PCR;
- 按阵列(arrayCGH)进行基因组变异分析;
- SNP阵列;
- 基因表达系列分析(SAGE);
- 蛋白质阵列。
05.我测序做的数据只用了一次,下篇文章还想用,我可以只提交部分吗?
NO。应提供完整的、未经过滤的数据集。
06.在我的手稿准备或审核期间,我可以将我的数据保密吗?手稿发表后呢?
在向公众提供引用GEO登录号的手稿之前,GEO记录可以保持私密状态。(在提交过程中,系统会提示你指定记录的发布日期。虽然最长允许期限为三年,但该日期可以随时提前或推迟 )手稿表发之后数据则必须公开。
07.GEO中可以进行哪些类型的检索?
获取GEO数据的方法有多种。这些方法包括对GEO数据集和GEO剖面数据库执行简单或复杂的查询、在Accession Display栏中输入有效的GEO登录号、浏览当前GEO存储库内容的列表或从GEO FTP站点下载数据。
08.如何查询和分析GEO数据?
- 一旦确定了感兴趣的基因表达谱图,Profile记录上有几种类型的链接有助于识别相关的感兴趣的基因。
- 如果没有可用的精选数据集,则可使用GEO2R分析系列,因为GEO2R可以比较样本组并识别差异表达的基因。
- 可以使用自己喜欢的软件包进行分析。
- 使用track[filter]搜索可以检索到所有带有标记的记录;这些记录上的“查看基因组数据查看器”按钮链接到NCBI的基因组数据查看器上的相应文件。
09.我的研究重点是一种疾病,怎样进行相关检索?
我们以肝癌(liver cancer)为例进行说明,首先在检索框输入liver cancer,随后就会出现以下界面,可以进一步点击自己感兴趣的地方进行深入搜索。
10.我对一个数据集很感兴趣,但是查询之后的页面看不懂具体信息怎么办?
我们以GSE52903为例进行说明。
11.DataSet、Platform、Samples、Series分别代表什么?
GEO Series (GSExxx)是原始提交者提供的总结研究的记录。这些数据由GEO工作人员重新组合成精选的GEO DataSet (GDSxxx)。
DataSet表示使用同一平台处理的生物学和统计学上可比较的样本集合。反映实验变量的信息通过DataSet子集提供。Series和DataSet都可以使用GEO数据集界面进行搜索,但只有DataSet构成了GEO高级数据显示和分析工具的基础,包括基因表达谱图和数据集集群。
Platform是用来提交关于测序平台相关描述的;
Sample则是用来提交相关样本的处理条件的。
以上就是今天分享的关于GEO数据库的内容。满满的干货,赶快学起来吧。还有什么关于GEO数据库使用方面的问题欢迎补充,提问哦。