快讯

曙光生物基因序列研究解决方案

2007-07-26 17:15  出处:  作者:曙光供稿  责任编辑:gongjianhui 

  

  摘要:       

  人类基因组研究已进入一个新时期,2003年4月14日正式发表了人类基因组全图,到2006年初为止,GenBank中的DNA碱基数目已达60亿,DNA序列数目达到5千多万。      

  如何分析这些基因数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。基因组的研究也将全面进入信息提取和数据分析阶段,即基因组信息学发挥重要作用的阶段。      

  基因组信息学是生物信息学的核心。包括基因组信息的获取、处理、存储、分配和解释。包括了两层含义,一是对海量基因数据的收集、整理与服务;二是从数据中发现新的规律,也就是用好这些数据。      

  广泛使用的基因序列比对和搜索软件有Fasta ,Blast,以及多序列搜索工具Clustalw,Clustalx,这些基因组信息学软件都已经在曙光服务器上得到部署和应用,并有相应的成功案例。

  曙光公司助力生物信息学的发展,可为基因组信息学研究提供系统的解决方案,包括相应的硬件平台和软件配置。

  1.生物信息学和基因组信息学      

  生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。而基因组信息学是生物信息学的核心,生物信息学则以基因组信息学为基础。  
   
基因组信息学包括了基因组信息的获取、处理、存储、分配和解释。有两层含义,一是对海量基因数据的收集、整理与服务;二是从数据中发现新的规律,也就是用好这些数据。      

  生物信息学是把基因组 DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和 RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在 DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。     

   生物信息学利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

  2.生物信息数据库及其查询      

  生物学中最重要的两种物质有:DNA和蛋白质。DNA是一种由碱基按一定规则排列而成的双链结构生物大分子,这种碱基排列顺序就构成了生物的遗传信息。蛋白质是由DNA根据链结构上的某些功能碱基序列复制而成的具有特殊功能的生物大分子。生物基因包括DNA链上的碱基及其排列顺序。虽然碱基的数目只有四种Adenine(A)、Cytosine(C)、Guanine(G)、Thymine(T),而它们在DNA上做各种有序的排列形成了生物的多样性。所以对这种碱基序列进行测序、编码和研究是生物学研究最重要的工作。生物基因序列数据就是对于某一生物基因采用某种编码方式编码产生的数据。      

  近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。       

  这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有GenBank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

键盘也能翻页,试试“← →”键