当前位置: 首页 > news >正文

生物信息学中的可重复性研究

科学就其本质而言,是累积渐进的。无论你是使用基于网络的还是基于命令行的工具,在进行研究时都应保证该研究可被其他研究人员重复。这有利于你的工作的累积与进展。在生物信息学领域,这意味着如下内容。

  • 工作流应该有据可查。这可能包括在电脑中保留文本文档以便复制和粘贴复杂命令、网址或其他形式的数据。许多人选择保留传统的手写的实验笔记本,但是现在越来越需要同时保存某些形式的电子记录。

  • 为了方便你的工作,存储在计算机上的信息应被妥善整理。可参考文献:Noble, W.S. 2009. A quick guide to organizing computational biology projects. PLos Computational Biology

  • 数据应该可被他人使用,特别是存储高通量数据的存储库。 这方面的鸽子包括NCBI的Gene Expression Omnibus (GEO)和Sequence Read Archive (SRA)、ArrayExpress 和 EBI 的European Nucleotide Archive (ENA)。

    如果期刊没有特别要求,现在可以将数据上传到 GSA (Genome Sequence Archive)。如果是敏感的遗传资源数据,可能只能上传到GSA。

  • 元数据和数据一样同等重要。元数据是指数据集相关的信息。对于一个已被测序的细菌基因组而言,元数据可能包括该细菌被分离的位置信息、培养条件,以及它是否致病等信息。在一个关于人类大脑的基因表达的研究中,元数据可能包括死后采样时间 、性别、疾病表型和RNA分离方法等。元数据为统计分析提供关键信息,使研究者可以探索各种参数对结果的影响。

  • 所使用的数据库应做好记录。由于数据库的内容可随时间改变所以记录版本号和获取日期非常重要。

  • 软件应做好记录。对于已被认可的软件包,应提供版本号。进一步记录使用软件的具体步骤,可使他人能够独立重复你所做的分析。为了共享软件,许多研究人员使用如GitHub等软件存储库。

    我一般使用 Git 来管理项目的源代码以及相关文档。可以参考我之前写的一篇 Git 最佳实践的文章。生物信息基础:实用Git命令,掌握这些就够了

c818bf2d8fe59a30a4134eb77113e5bb.png

Galaxy 生信云平台(UseGalaxy.CN)的重要特色就是可重复性研究,它解决了如下问题:

  • 工作流有据可查。分析过程所有步骤都有记录,可重复。

  • Galaxy有非常科学的管理数据生命周期的流程。数据从上传,到分析以及存档,都尽最大可能为用户提供优质的使用体验。

  • 数据分析所使用的软件和数据库版本,以及相关参数,都记录在案,便于重复研究。

  • 数据分析的相关步骤、参数以及数据等,都可以与他人分享。可以设置指定人员可见,或者通过分享链接可见以及所有人可见。

参考资料:《生物信息学与功能基因组学》P11

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

55df01ab8542741ce5991421d120801c.png

http://www.lryc.cn/news/277333.html

相关文章:

  • css-img图像同比缩小
  • SpringBoot+Prometheus+Grafana搭建应用监控系统
  • QT c++和qml交互实例
  • mysql基础-数据操作之增删改
  • 写字母(文件)
  • 基于Jackson自定义json数据的对象转换器
  • 【Java】缓存击穿解决方案
  • 【HarmonyOS】掌握 Stage 模型的核心概念与应用
  • 2024年甘肃省职业院校技能大赛 “信息安全管理与评估”赛项样题卷①
  • 我的AI之旅开始了
  • Day25 235二叉搜索树的公共祖先 701二叉搜索树插入 450二叉搜索树删除
  • android系列-init 挂载文件系统
  • Spring 七种事务传播性介绍
  • Count the Colors ZOJ - 1610
  • MATLAB点云处理总目录
  • C语言逗号表达式如何计算
  • Ubuntu 本地部署 ChatGPT-Next-Web
  • 小程序商城搭建:快速入门指南
  • c# windows10大小端试
  • 【算法专题】动态规划之斐波那契数列模型
  • K2P路由器刷OpenWrt官方最新版本固件OpenWrt 23.05.2方法 其他型号的智能路由器OpenWrt固件刷入方法也基本上适用
  • AI大语言模型会带来了新一波人工智能浪潮?
  • How to view the high-tech zone atmospheric project
  • sqlalchemy 中的缓存机制解释
  • 网络安全B模块(笔记详解)- 漏洞扫描与利用
  • 【C语言】指针——从底层原理到应用
  • 想了解步进伺服的朋友可以了解下这个方案
  • 航天航空线束工艺3D虚拟展馆支持多人异地参观漫游
  • JAVA面向对象基础-容器
  • 2022年山东省职业院校技能大赛高职组信息安全管理与评估—开发测试服务器解析