- 新生儿基因筛查
- 赵正言 周文浩 梁德生主编
- 5149字
- 2025-03-19 15:08:06
第四节 人类基因组
一、人类基因组和染色体
基因组(genome)在不同学科中有不一样的定义。在细胞遗传学领域,基因组指的是一个生物体内的所有染色体的总和,譬如人类体内的22条常染色体以及2条性染色体(X+X或X+Y);在分子遗传学领域,基因组指的是一个生物体内所有DNA分子的综合。而人类基因组,通常指代的是人体的核基因组,即22条常染色体及2条性染色体。但从更完整的角度看,还包含了线粒体基因组及人体内的微生物组群。本章主要针对的是人体的核基因组。
人类基因组包含多个组成部分:即编码基因、假基因、非编码RNA、重复序列等。编码基因是基因组中最具生物学功能的部分。进一步细分,还可以将蛋白质编码基因细分为:
基因表达调控序列(包括TATA框、CAAT框、CpG岛、启动子等),转录起始位点,5'非翻译区(5'-UTR),内含子与外显子(包含翻译起始密码识别序列、起始密码子、翻译终止密码子等),3'非翻译区(3'-UTR),转录终止信号、加A信号与随后的加A位点等。
假基因,是一类与编码基因序列非常相似的非功能性序列。根据Ensembl数据库2020年8月统计数据,已在人类基因组中发现19961个假基因。
非编码RNA(ncRNA),占人类基因组的大部分区域(> 75%),是一类能够转录,却无法被翻译成蛋白质的序列。ncRNA可分为rRNA、tRNA、miRNA等类型,能够精准调控基因的表达、细胞的增殖和分化、个体的生长发育等过程。
重复序列,是指在同一区域,或不同区域重复出现的相同或相似序列,是人类基因组的重要特征之一,包括了微卫星DNA(microsatellite DNA)和转座因子(transposable element)等。
人类基因组总计包含30亿碱基对(约3Gb),蕴含有个体生长、发育、衰老等全部遗传信息,对应着人体46条染色体。人类染色体根据大小进行编号,但其中21号和22号染色体因为历史原因而例外。每条染色体都由对应的DNA分子与蛋白质组合形成。最长的1号染色体DNA,长约250Mb占全基因组的8%;21号染色体最小,长约48Mb占全基因组的1.5%。
DNA与蛋白质结合形成染色体(chromosome)。这一包装结合,对于细胞而言,具有非常重要的生理意义:
(1)压缩:
DNA通过与组蛋白(histone,一种小型碱性蛋白)有规律地结合,形成核小体,从而将线性DNA压缩至原有长度的万分之一。再通过后续多级压缩,使得染色体DNA能够容纳进10~15μm的人细胞核中(单倍体核基因组的DNA若完全开展相连,总长度可达1m)。
(2)调控:
与染色体DNA结合的蛋白质,包括组蛋白和非组蛋白。两者均含有大量的DNA结合蛋白,用于调控细胞DNA的转录、复制、修复和重组。染色体DNA与包装蛋白结合,会影响DNA的可接近性,从而影响蛋白质与DNA的相互作用。包括介导DNA复制、修复、重组等功能的蛋白质,都会受到DNA可接近性变化的影响,其中转录相关蛋白受到的影响尤其明显。利用这一抑制特性,实现对DNA相关生命活动的调控。
(3)保护:
DNA与包装蛋白的结合,能够提高DNA在细胞中稳定性,避免DNA受到损伤。
(4)分裂:
DNA包装成染色体后,能够提高分离效率,有助于在细胞分裂时,将DNA准确传递至2个子代细胞。
二、细胞周期与细胞分裂
细胞分裂涉及染色体的复制、染色体分离至子代细胞、胞质分裂等过程。细胞完成一轮分裂的过程,被称为细胞周期(cell cycle)。在细菌细胞中,染色体的复制和分离是同步进行的。而在人类等真核细胞中,染色体的复制和分离,发生在分裂过程的不同时期。根据分裂后子代细胞染色体数目情况的不同,人体细胞的分裂可分为:有丝分裂(mitotic cell division),子代细胞染色体数目与母细胞一致;减数分裂(meiotic cell division),子代细胞染色体数目仅有母细胞的1/2。
(一)有丝分裂
有丝分裂的细胞周期包含4个阶段:即G1期、S 期、G2期、M 期。其 中 M 期(mitosis,M phase),为有丝分裂期;S 期(synthesis,S phase),为合成期;而 G1、S 和 G2期,又被统称 为间期(interphase)。在整个细胞周期中,染色体主要有两种存在状态:分裂期,经过染色体凝聚(chromosome condensation)过程,染色体处于最压缩的状态,有助于染色体的分离;间期,染色体处于解聚状态,为有丝分裂进行准备。染色体DNA进行复制时,要求与染色体结合的蛋白质几乎全部解离和重装。
G1期/G2期:G1期位于 DNA 合成前,G2期位于S期和M期之间,主要作用有两个:一是检查,确认上一阶段工作是否正确完成;二是准备,为下一阶段工作提供时间上的准备。譬如,若细胞大小及蛋白质合成水平未能达到要求水平,无法满足DNA合成的蛋白质及营养所需;或发现细胞含有损伤DNA等情况,都会在细胞周期检查点(cell cycle checkpoint),停止细胞周期,并提供时间,以便细胞完成下一阶段的准备工作。
S期:真核染色体上存在指导染色体DNA复制的重要DNA元件——复制起始位点(origins of replication)。通过复制起始位点,每条染色体DNA完成复制,并得到相互配对的两条染色单体(chromatid),被称为姐妹染色体单体(sister chromatid)。姐妹染色体单体在复制完成后,就立刻通过黏粒(cohesin)聚拢在一起。这一过程,即为姐妹染色单体的附着(sister chromatid cohesin)。该附着状态会一直维持至姐妹染色单体的相互分离。
M期:有丝分裂过程,可细分为4个阶段:
1.分裂前期(prophase)
染色体在凝聚蛋白和拓扑异构酶Ⅱ的作用下,通过螺旋化、折叠、包装等过程,凝聚成高度紧密的结构(染色体高度凝集,在光镜下可见),为后续分离打好基础。在前期结束时,核膜破裂。
2.分裂中期(metaphase)
在这一阶段,会形成一个重要的连接:二价联会(bivalent attachment)。染色体DNA为保证复制后姐妹染色单体的准确分离,存在1个DNA必需元件——着丝粒(centromere)。着丝粒,能够指导形成一个精细的蛋白质复合体——动粒(kinetochore)。这一复合体能够与着丝粒DNA以及蛋白纤维(即微管,microtubule,纺锤体的基本组成元件)结合。在有丝分裂过程中,位于细胞两侧的中心粒(centrosome)会形成“两极”,介由细胞内的有丝分裂纺锤体(mitotic spindle)与染色单体粘连,并提供分别指向两极的拉张力,在后续牵引染色体单体分离,分别进入子代细胞。二价联会,即为一对姐妹染色单体的2个动粒,分别与相对的中心粒发出的纺锤体形成的连接。只有当所有姐妹染色单体都完成二价联会,染色体才会开始分离。二阶联合,保证了每对姐妹染色单体会被分别牵引向相反的两极,保证了每个子代细胞获得每个复制染色体的一个拷贝。
值得一提的是,不同于复制起始位点,每个染色体上仅有1个着丝粒。当着丝粒缺失,染色单体会随机分离,导致子代细胞的染色体重复或缺失;当着丝粒增多,染色单体则会在分离过程中发生断裂。
3.分裂后期(anaphase)
姐妹染色体单体在复制完成后,就在黏粒的作用下,维持聚拢状态,并对有丝分裂纺锤体的拉张力进行抵抗。在分裂中期,姐妹染色单体之间来自黏粒的黏附力,以及来自纺锤体两极,二价联会产生的拉张力,相互抵消,使得所有染色体排列在细胞中部,位于两个中心粒之间(此位置被称为中期板或赤道板)。当黏粒被蛋白质水解破坏,姐妹染色单体间的黏附力消失,平衡打破,染色体的分离过程被触发。
4.分裂末期(telophase)
核膜重新形成,并包裹分离的两套染色体。同时,细胞质发生物理分离,细胞分裂完成,即胞质分裂(cytokinesis)。
(二)减数分裂
减数分裂,产生的子代细胞,仅含有母细胞半数染色体。与有丝分裂最大的不同在于,DNA复制后,进行了两轮染色体分离。减数分裂的细胞周期包含:G1期,S期,漫长的G2期,以及两轮分裂期。
人体细胞内的遗传物质,分别遗传自父亲和母亲。来源于父母双方,形态、大小、结构一致的一对染色体,被称为同源染色体(homologs)。在减数分裂Ⅰ期,与有丝分裂的二价联会不同,每个姐妹染色单体对的两个动粒,与同一极的微管纺锤体连接,形成单价联会(monovalent attachment)。此时,通过配对的同源染色体间的相互作用,抵抗纺锤体的拉张力。减数分裂Ⅰ期后期(后期Ⅰ),同源染色体相互释放并分离,而姐妹染色单体间的黏附力仍存在,保持配对状态。
减数分裂Ⅱ期,与有丝分裂非常类似,但在本次分裂前,并无DNA复制环节。在中期Ⅱ,纺锤体与前一阶段分离的姐妹染色单体对的两个动粒连接,形成二价联会。在姐妹染色单体间的黏附力水解消失后,牵引染色单体分离。
至此,细胞内分离形成4套染色体,每套仅包含母细胞每条染色体的1个拷贝。而后,每套染色体外形成核膜,构成4个细胞核,胞质分裂后,形成4个单倍体细胞。单倍体细胞经过交配,重新形成新的二倍体细胞。
三、人类基因组计划
(一)人类基因组计划的提出
人类基因组计划(human genome project,HGP)作为生命科学领域的“登月计划”,被誉为可与“曼哈顿原子弹计划”“阿波罗登月计划”相媲美的伟大系统工程,是人类第一次系统、全面地解读和研究人类遗传物质的全球性合作计划。
人类基因组计划最早是美国科学家于1985年在能源部(Department Of Energy,DOE)的一次会议上讨论,1986年诺贝尔奖得主杜比柯(Dulbecco)在1986年3月7日出版的Science杂志上发表了一篇题为“肿瘤研究的一个转折点:人类基因组的全序列分析”的短文,提出包括癌症在内的人类疾病的发生都与基因直接或间接有关,呼吁科学家们联合起来,从整体上研究和分析人类的基因组序列。一些有远见卓识的科学家们集体提出一次性解读人类基因组全部DNA序列。1990年美国国会批准这一项目,并决定由美国国立卫生 研 究 院(National Institutes of Health,NIH)和能源部组织实施,标志人类基因组计划正式启动。HGP计划得以启动并实施完成主要由三个方面因素决定,第一是DNA测序技术和相关分子生物学技术日趋成熟,如DNA测序、寡聚核苷酸合成、DNA杂交、分子克隆、聚合酶链反应(polymerase chain reaction,PCR)等。尤其是 20世纪80年代初荧光标记法DNA测序仪的研发和接近问世。第二是生物医学发展的迫切需求,未知基因序列的不断解读,遗传疾病相关变异的定位克隆,新转录因子和信号转导通路的不断发现,都使DNA测序技术和需求被推到了科学界关注的焦点。大家都在争取基金,计划测定自己感兴趣的基因时,一个重要观点的提出赢得了广泛的支持——与其各测各的基因,不如集中攻关测定全基因组序列。集中攻关的特点是可以使操作专业化和规模化。第三是启动国际合作,调动全球各方资源的必要性。如人类基因组研究会涉及世界各国的人类遗传资源,与其说在美国集中收集,不如让这些国家直接参与到合作项目中,同时参与国还可以给予资金的支持。
国际“人类基因组计划”联合体最终由美、英、法、德、日、中6个国家的16所实验室(主要是大学实验室)逾千名科学家实际参与,用时15年,耗资数十亿美元共同完成。
(二)HGP的目标和任务
HGP的主要任务是对人类基因组(22条常染色体和X、Y性染色体)3Gb的碱基对进行测序,绘制人类基因组全序列作为“参考文本”,即构建详细的人类基因组遗传图谱和物理图谱、序列图和转录图,确定人类DNA的全部核苷酸序列,定位约10万个基因,并对其他生物进行类似研究。进而破译人体遗传物质DNA上碱基对的生物学含义,弄清人类各种疾病与基因的关系。从根本上预防人类疾病的发生,有效治疗疾病及为人类历史的研究提供有力工具。
(三)我国的人类基因组计划
1993年,国家自然科学基金委员会设立“中华民族基因组中若干位点基因结构的研究”,标志我国HGP正式启动。从1998年开始,国家将在3年内加大对HGP项目的投资力度,3年投资总额达到3亿元。我国HGP工作主要在基因组多样性和疾病基因的识别方面开展工作。中国科学家通过自己的实力争取到测定人类基因组序列1%的份额,即3号染色体上3 000万bp的测序任务,估计有750~1 000个基因,虽然只有1%,但意义重大。目前,由于HGP项目的实施,已在世界范围内引起了一场“基因争夺战”。作为世界上最大的人口大国,我国加入HGP的国际合作具有特殊的意义。我国的人类基因组计划于1994年启动,由国家自然科学基金委员会、国家高技术研究发展计划(863计划)和国家重点基础研究发展计划(973计划)共同资助。在中华人民共和国科学技术部和上海市、北京市的大力支持下,成立了国家人类基因组南方和北方研究中心。在中华人民共和国科学技术部和中国科学院的支持下,由中科院遗传所基因组中心、国家人类基因组南方和北方研究中心共同承担了全球人类基因组测序计划的1%。
(四)HGP的完成
2003年4月25日,美国、英国、法国、德国、日本和中国政府首脑宣布这一计划落下帷幕,人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现,提前2年实现了目标。HGP的成功并不是偶然,它不仅是科学发展的必然,也是科学要素具备和时机逐渐成熟的体现。基因组学属于分子生物学范畴,其学科的真正起点,是1953年DNA双螺旋结构的发现和20世纪70年代初期DNA序列解读技术的发明。因此,也可以说HGP是50年来生命科学与技术发展的最重要结晶。随着人类基因组测序计划的完成和后基因组时代的到来,国际上基因组、转录组、蛋白质组、代谢组乃至表型组工作相继开展,主要包括:①人类基因的识别和鉴定:即采用生物信息学、计算机生物学技术、生物学实验手段及两者相结合的方法,收集并不断扩充现有的各种数据库,研制、建立更多样化的数据库和信息处理软件;②基因功能信息的提取和鉴定:即利用改进的定量PCR技术、原位杂交技术、微点阵技术和基因表达的连续分析方法绘制基因表达图谱,同时包括对人类基因突变体的系统鉴定;③蛋白质组学的研究:即蛋白质谱的建立与基因的相互作用关系的研究。