生而为人,我们总是对这个世界充满了好奇。我们想探索太空,揭开宇宙众多的未解之谜。我们也想追溯历史,寻找生命起源的秘密。我们想要了解的对象当然包括我们自己。相传在希腊的阿波罗神庙门口刻着“认识你自己”这句箴言,这大概可以算是千年前先贤的一次呼吁。然而一千多年过去了,我们对自己依旧知之甚少。每念及此,对世界依旧抱有好奇的人大概免不了要汗颜一下。
汗颜之余,我们倒也不必对自己过于苛责。我们了解自己的手段很大程度上停留于表面。我们会对皮肤上的划伤,小腿肌肉的酸胀,胃部隐隐的作痛感到困惑,并问上一句“怎么了?”但条件所限,不借助其他医疗器械,我们无法对自己的身体提出更深入的问题。或许基因测序技术的出现突破了这个瓶颈。这项技术让我们能够直接通过双眼审视组成自身的蓝图——人类基因组。
一个人的基因组包含了他/她所有的遗传信息,将它比作是蓝图一点都不过分。基因组内的一部分DNA叫做“基因”,储存了蛋白质这种生物零件的合成信息。而基因组的其余部分则储存着这些蛋白质零件应该在何时何地合成的信息。可以想象,如果我们能彻底读懂基因组,我们也就离了解自己更近了一步。
想要读懂基因组,我们首先得获取自己的遗传信息。科学家们早已敏锐地意识到这些信息能与人类的健康联系在一起——每个人体内的遗传信息各有不同,不同的人也因此有着截然不同的健康风险。倘若能够获取每个人的遗传信息,依照他/她独有的健康风险进行诊断和治疗,那么这种医疗就会变得更为精确。然而这并不是一件容易的事。2001年,数十个研究机构耗费了10年的时间和30亿美元的经费才得以公布人类的基因组草图。在那个年代,想要获取个人的全部遗传信息无疑是一个奢侈的梦想。
一边是人类通过遗传信息了解自身健康风险的需求,另一边是个人无法承受的时间与金钱成本,人们很快找到了折中的方法——只研究那些已知与疾病有关的基因。举例来说,人体代谢果糖需要一个叫做ALDOB的基因的参与。这个基因发生突变的个体无法彻底消化果糖,一旦在饮食中不慎摄入果糖就有可能出现呕吐、出血,甚至肾脏衰竭等症状。为了检测一个人的ALDOB基因是否发生突变,一些研究机构会采取一种叫做桑格测序(Sanger Sequencing)的方法来获取ALDOB基因的序列。这种方法会以样品里的DNA为模板,合成新的ALDOB基因。然而在合成过程中,测序人员会添加进一些经过特殊处理的核苷酸分子(DNA的基本元件)来随机终止合成反应,因此合成的片段也会大小不一。通过将这些片段从大到小排序,测序仪器能够识别出ALDOB基因每一个位点上的核苷酸,并获得ALDOB基因的序列。
▲图1. 桑格测序法的原理。通过将合成的DNA片段按长短排序,并读取特殊核苷酸上的荧光,检测仪能够自动拼接出基因的序列。图片来源:Abmgood.com
为了提高检测的效率,一些机构会把正常的ALDOB基因随机截成长度为几十个碱基(碱基是组成遗传信息的字母,一共有A、T、C、G四种。A与T会配对,C与G会配对)的片段,并把它们固定在芯片上。随后,这些机构会把受检人员的DNA样品与这些固定后的片段混合。如果受检人员的DNA片段与正常的基因片段完全匹配一致,那么固定材料上对应的位置就会发出明亮的荧光。这些荧光的强度会随着两者间差异的增多而变弱。因此通过读取这些荧光强度,我们可以知道受检人员的ALDOB基因是否与正常人的完全一致。如果不是,那么具体在哪里出现了问题。
桑格测序法也好,基于芯片的基因检测法也好,这两种方法的优点是有的放矢,省时省力,然而它却要求受检者对想要检测的基因有着极其清楚的认识。要知道人体内有22000多条基因,任意选出的一条基因中含有功能性突变的概率极低。除非你的家族成员中有着果糖不耐受的病人,不然你的ALDOB基因检测结果十有八九是“正常”。换句话说,这种单基因检测方法也许只适合有着家族病史的群体。
▲图2. 基于芯片的单基因检测原理。通过匹配与否,我们可以推断出在哪里出现了突变。
为了增加基因检测的效率,这些年采用较为普遍的基因测序手段是“外显子组测序”(Exome Sequencing)。利用已有的人类基因组信息,这种方法能把人体内所有与蛋白质合成直接相关的DNA片段(又称外显子)从整个基因组中提取出来进行测序。这样一来,外显子组测序能够大大提高在单次测试中检测的基因数量。
▲图3. 外显子组测序原理。图片来源:epilepsyu.com
此外,外显子组测序还能够发现与疾病有关的新基因,为医学做出新的贡献。受限于人类对疾病的认识,我们还无法将所有的疾病与基因一一对应在一起。由于不知道导致疾病背后的基因是哪一个,患有罕见疾病的病人无法采用单基因检测技术去寻找体内的基因突变。然而外显子测序能够解决这个问题。举例来说,在2010年以前,人们一直没有弄清一种叫做米勒综合症(一种骨骼发育不全的遗传疾病)的病因。通过对多名病人的外显子组进行测序和比对,研究人员发现这些患者体内的DHODH基因都发生了突变。而通过检测更多患者的DHODH基因是否正常,研究人员终于确定这个基因上的突变就是导致米勒综合症的原因。外显子组测序对于医学的帮助由此可见一斑。
外显子组测序也有着与生俱来的问题。
第一,它只能检测与蛋白质合成“直接”相关的基因部分。在人类基因组序列公布后,科学家们发现这部分基因只占了全基因组的1%-2%,剩下的部分似乎与蛋白质合成没有关系。基因组剩下的98%-99%在当时被称为“垃圾DNA”,然而随着对基因组认识的不断加深,科学家们发现这些垃圾DNA非但不是垃圾,反而对基因有着重要的调节作用,科学家们也因此给它们起了个更客观的名字——“非编码DNA”。它们有的能产生一些RNA分子,参与到人体的生理活动;另一些则有着“增强”周围基因活跃度的效果。然而外显子组测序技术并不负责检测这些非编码DNA。
▲图4:外显子组只占了全基因组的1%。图片来源:My46.org
第二,外显子组测序需要在基因组内分离出所有的外显子,而这个步骤可能会带来一些误差。有的外显子易于被分离,而有的则不是。因此后者携带的遗传信息往往会在分离步骤中遗失。另外,为了满足检测所需要的DNA总量,检测人员会将获得的外显子进行几轮复制。同样的,这复制的过程也有可能会带来进一步的误差——有些外显子易于被复制,而有些不是。如此一来,那些不易被复制的外显子里所带有的遗传信息也容易被忽视。
第三,很多疾病与某些基因的数量有关。比如一些早期的研究发现ERBB2基因的数量与乳腺癌的恶化有着关联。倘若人体内的ERBB2基因数量超出正常值,患乳腺癌的概率就会上升。外显子组测序技术虽然能检测ERBB2基因内有没有突变,但却不能很好地检测人体内的ERBB2基因数量是不是超标。因此外显子组测序技术对拷贝数检测的灵敏度和特异性不能令人满意。
第四,基因在结构上的变异也会引发一些疾病。如果有一段DNA序列被错误地插入到一个基因的两个外显子之间,那么这个基因就有可能失去功能。然而由于外显子之间的区域并不属于外显子组测序的范畴,这样的结构变异是无法被检测出来的。
事实上,我们耳熟能详的“全基因组测序”不但能够实现外显子组测序的所有功能,而且还能完美地解决外显子组测序的缺憾。全基因组测序能够同时检测外显子与非编码DNA,涵盖基因组的范围最广。另外在检测样品的收集过程中,它无需分离出特定的外显子,避免了遗传信息的遗失;它也无需对收到的样品进行额外的复制,避免了复制过程中可能带来的误差;它还能针对基因的数量和结构变异进行全面的检测。
▲图5. 全基因组测序原理。DNA分子在片段化后被直接拿去测序。测完序的DNA片段再依照重复的序列被拼接回一起。图片来源:Knowgenetics.org
那么问题来了。既然全基因组测序功能那么全面,为什么市场上还有这么多其他的检测手段存在呢?答案还是上文中提到的金钱与时间成本。这就好像去医院做检查,做全身体检虽然检查的项目更多更全面,但花费显然要比单纯验血更高,检查的时间也更久。普通百姓在相较之下选择更为便宜的服务也就合乎情理了。
不过生物技术的进步或许终将把全基因组测序的成本降到普通百姓也能承受的水平。十多年前,人类基因组项目的耗费是30亿美元。而检测单人基因组信息所需的成本自2007年以来锐减。同样的,获取一个人的基因组信息所需的时间也从10年降低到了数周甚至数日。随着普通百姓生活水平的不断上升,能够提供更多信息的全基因组测序将毫无疑问成为评估自己健康风险的最佳手段。
▲图6. 全基因组测序的成本自2007年后显著下降。图片来源:Genome.gov
总结而言,目前常用于基因诊断的基因测序技术一共有三种——基于桑格测序法和芯片的单基因检测,外显子组检测,以及全基因组检测。这三者能够涵盖的信息量由少到多,检测的花费也由低到高。由于价格因素,前两者在目前占去了不少市场。但长远来看,功能最为强大的全基因组测序无疑会成为最常规的检测手段,因此它也代表了未来的发展方向。
本文转载于网络