大家下面来详细了解一下现代生物信息学与信息学的关联。
生物信息学
是一种混合学科,它将生物的数据与信息存储、分发和分析技术联系起来,以支持包括生物医学在内的多个科学研究领域。生物信息学研究的是高通量基因数据生成实验提供的数据,这些实验包括基因组序列确定和基因表达模式的测量等等。数据库项目负责整理和注释数据,然后通过万维网进行分发。挖掘这些数据产生新的科学发现并确定新的临床应用。特别是在医学领域,已经出现了生物信息学的许多重要应用。例如,它可用于识别基因序列与疾病之间的相关性,从氨基酸序列预测蛋白质结构,帮助设计新药以及根据患者的DNA序列为患者量身定制治疗方法(药物基因组学)等等。
上图:这张的计算机图像显示了炭疽杆菌某蛋白质中七个单元的各种结构关系,并展示了与蛋白质结合的药物(以黄色显示)的相互作用,以阻断所谓的致死因子单位。给定分子的单个结构,生物信息学在使科学家能够预测药物分子在蛋白质中结合的位点方面起着重要作用。
生物信息学涉及到数据挖掘,数据挖掘可能需要涉及到编程。
生物信息学的经典数据包括基因的DNA序列或完整的基因组。蛋白质的氨基酸序列;蛋白质、核酸和蛋白质-核酸复合物的三维结构数据等。其他数据流包括:
转录组学、即从DNA合成RNA的模式;
蛋白质组学,蛋白质在细胞中的分布;
相互作用组学,蛋白质-蛋白质和蛋白质-核酸相互作用的模式;
和代谢组学,小分子通过细胞中活跃的生化途径转化的性质和运输模式。
在上述各种情况下,都希望获得针对特定细胞类型的全面、准确的数据,并确定数据中的变化模式。例如,数据可能会根据细胞类型,数据收集的时间(在细胞周期或昼夜,季节或年度变化期间),发育阶段和各种外部条件而波动。而此外,元基因组学和元蛋白质组学将这些测量范围扩展到对环境样本(例如一桶海水或土壤样本)中生物的全面描述。
上图:生物信息学涉及到的方方面面。
生物信息学一直受到生物学数据生成过程的巨大推动。基因组测序方法可能显示出最戏剧性的效果。1999年,核酸序列档案库共包含35亿个核苷酸,比单个人类基因组的长度略长;十年后,该库包含超过2830亿个核苷酸,约95个人类基因组的长度。
有多种用于数据挖掘的编程语言,主要包括以下几种:
R语言
Julia语言
Python语言
上图:2014年数据挖掘的主要编程语言占比情况。
数据存储与检索
在生物信息学中,数据库用于存储和组织数据。这些实体中有许多从科学论文和基因组计划中收集DNA和RNA序列。许多数据库掌握在国际组织手中,例如:
由英国欧洲分子生物学实验室核苷酸序列数据库(EMBL-Bank),日本DNA数据库(DDBJ)和美国国家生物技术信息中心(NCBI)的GenBank组成的咨询委员会负责监督国际核苷酸序列数据库合作组织(INSDC)。为了确保可自由获得序列数据,科学期刊要求新的核苷酸序列存放在公众可访问的数据库中,作为发表文章的条件。(类似条件适用于核酸和蛋白质结构。)还存在基因组浏览器、数据库,这些数据库将有关特定物种的所有可用基因组和分子信息汇集在一起。
生物大分子结构的主要数据库是全球蛋白质数据库(wwPDB),由美国结构生物信息学研究合作机构(RCSB),英国欧洲生物信息学研究所的欧洲蛋白质数据库(PDBe)和日本大阪大学的蛋白质数据库联合支持。
从数据档案中检索信息使用标准工具通过关键字识别数据项;例如,可以在Google中输入“土豚肌红蛋白”并检索该分子的氨基酸序列。
数据挖掘编程可能涉及到从这些数据库中导入数据。
生物信息学的目标
开发用于测量序列相似性的有效算法是生物信息学的重要目标。基于动态编程的Needleman-Wunsch算法可确保找到序列对的最佳比对。该算法从本质上将一个大问题(完整序列)划分为一系列较小的问题(短序列段),并使用较小问题的解决方案来构造该较大问题的解决方案。在矩阵中对序列的相似性评分,并且该算法允许检测序列比对中的缺口。
尽管Needleman-Wunsch算法是有效的,但它对于探测大型序列数据库仍然太慢。因此,人们已经非常关注寻找可以处理档案中大量数据的快速信息检索算法。一个例子是BLAST程序(基本局部比对搜索工具)。BLAST的开发采用称为位置特异性迭代(或PSI-)BLAST的技术,它利用相关序列中的保守性模式,并结合BLAST的高速性和极高的敏感性来寻找相关序列。
生物信息学的另一个目标是通过预测来扩展实验数据。计算生物学的基本目标是根据氨基酸序列预测蛋白质结构。蛋白质的自发折叠表明这应该是可能的。通过两年一次的结构预测关键评估(CASP)程序来测量预测蛋白质折叠方法的进展,该程序涉及结构预测方法的盲测。
给定可配合的单个结构,生物信息学也可用于预测蛋白质之间的相互作用。这被称为“停靠问题”。蛋白质-蛋白质复合物在表面形状和极性上显示出良好的互补性,并且在很大程度上由于弱相互作用而稳定,例如疏水面的埋入、氢键和范德华力等等。
计算机程序可以模拟这些相互作用,以预测结合伴侣之间的最佳空间关系。设计一种与靶蛋白具有高亲和力的抗体就是可能具有重要治疗用途的挑战课题之一。
上图:蛋白质的停靠问题。
早年,许多生物信息学研究的重点相对狭窄,专注于设计用于分析特定类型数据的算法,例如基因序列或蛋白质结构。然而,现在,生物信息学的目标是综合的,旨在弄清楚如何将不同类型的数据组合用于理解自然现象,包括生物和疾病。因此内容越来越丰富。
所以对于一些前沿研究项目,生物学或者遗传学研究者可能需要自己编程开发研究工具。所以学习编程技能也是有帮助的。
生物学方面的应用
DNA或脱氧核糖核酸为每种生物提供了一套完整的描述。每个生物体中的每个细胞都包含完整的DNA副本。基因是编码并存储在DNA中的核苷酸序列集。每个基因编码某种蛋白质。DNA被转录成mRNA,即信使核糖核酸,然后被翻译成蛋白质。蛋白质由氨基酸序列定义。单个氨基酸由称为密码子的三个核苷酸编码。如下图所示,有64个可能的密码子和只有20个氨基酸。由于只有20个氨基酸,因此多个密码子编码相同的氨基酸。这被称为遗传密码的简并性。由于遗传密码的这种简并性,某些SNP不会导致蛋白质序列发生变化。这称为同义突变。如果SNP导致蛋白质序列改变,这被称为非同义改变。
在人类基因组中发现单个核苷酸的变化可能就像“在大海捞针”,但是,生物信息学资源可以做到这一点。
上图:此密码子表显示了遗传密码如何转换为组成蛋白质的氨基酸序列。
一个单核苷酸多态性,或SNP,是人类的DNA序列中可能发生的微小遗传变化或变异。SNP代表人类中发现的最常见的DNA变异类型。这些变异可用于研究和跟踪家庭的继承。尽管整个人群中超过99%的人类DNA序列是相同的,但是DNA序列(例如SNP)的微小变化可能会对人类对疾病,环境因素和药物的反应产生重大影响。有趣的是,SNP在进化上是稳定的。这意味着它们代代相传的变化不大。话虽如此,SNP在生物医学研究中具有极大的兴趣和价值。SNP数据正在影响开发药品或医疗诊断程序。
上图:在这里您可以看到一个单核苷酸多态性,即SNP,它导致序列1和序列2之间的遗传变化很小。
人类DNA序列的变异会影响人类发展疾病和对药物的反应。尽管SNP不会引起疾病,但它们可以帮助确定某人患上特定疾病的可能性。
计算生物学,即分析和解释数据的实际过程,结合了生物信息学,被用于称为数据挖掘的技术。随着人类基因组计划在2003年的完成,大量的基因组数据可用于数据库挖掘,即通过识别DNA中相似或不相似的序列来生成关于某些目的基因或蛋白质的功能或结构假设的过程。
国际HapMap项目旨在通过HapMap向研究人员提供信息,HapMap是人类常见遗传变异的目录,也提供对变异的描述以及它们在大家DNA中的位置。该目录提供了研究人员将遗传变异与特定疾病风险联系起来所需的信息。
总结
生物学、遗传学与计算机科学的关系越来越紧密了,但关于编程方面的技能需求目前主要可能是在数据挖掘方面,因为生物学和基因学是实实在在的大数据。