我国启动世界最大规模人类全基因组计划
合利宝POS办理:2017年12月28日,科技部“十三五”重点研发计划精准医学专项启动中国十万人基因组计划,这是我国在人类基因组研究领域实施的首个大规模国家计划,也是目前世界上规模最大的全基因组计划。
该项目旨在绘制中国人精细基因组图谱(基因组变异频率达到万分之一),并在此基础上结合表型组和暴露组的信息,绘制“中国人多组学健康地图”。也就是说项目完成后有望更加精准破译属于中国人自己的独特的基因“密码”。
该项目由来自哈尔滨工业大学、复旦大学、中科院北京基因组研究所、华中科技大学、上海生科院的等单位团队承担,计划在四年内完成。
工程将如何展开?实施起来将有哪些难点?该项目有哪些重大意义?有哪些突破点和创新点?12月29日,科技日报记者就此采访了该项目首席科学家、哈尔滨工业大学王亚东教授。
如何科学选择10万参比人群
“此次发布的十万人基因组计划是当前世界上测序规模最大的基因组科学工程,将首次绘制中国人基因组变异图谱,将更好的解释我国人群特有的基因变异和它们的影响。测序精度将达到万分之一。该计划将重点刻画中国人群的基因组变异、变异频率及地区分布,为个性化健康和医疗提供参比数据资源。”王亚东教授如是介绍项目的意义。
罕见变异(频率低于千分之五)可能是导致肿瘤等重大疾病易感性的个体差异的重要原因,为了更精确的找出我国高发重大疾病对应的基因变异,该项目的计划精度设为万分之一,相对于我国的人口基数,即为十万人级别,试图找到中华民族特有的,甚至稀有的基因组变异,对于一些地区高发的重大疾病的研究,具有强有力的支撑作用。
为了保证样本的全面性和多样性,项目在人群选择上也有特别的考量。将充分考虑遗传结构、表型差异、环境暴露等因素,选择覆盖我国东北,华北,华东,华中,华南,西北,西南7大地区的汉族样本,同时还选择了包括藏族、蒙古族、壮族、回族、满族等9个人口数量在500万以上的少数民族群体,在接下来的项目推动过程中,将逐步扩展到56个民族。力争样本人群覆盖我国各个地区、多个民族,然后通过大数据的分析和比对,研究基因变异与环境和地域之间的关系,以及这些变异相对应的潜在重大疾病隐患,绘制中国人多组学健康地图,为疾病的预防和治疗提供依据和支持。
为何启动中国十万人基因组计划
当前,我国正在加快推进健康中国建设。精准医学和个性化医疗是实现健康中国的重要科技途径。但目前我国尚未建立高精度的中国人参考基因组,大量精准医学前沿研究缺少参考数据,已经成为制约我国精准医学发展的重大瓶颈问题。
启动中国十万人基因组计划旨在瞄准这一瓶颈问题,构建世界首个高精度中国人参考基因组和中国人多组学参比数据库,这将成为我国精准医学发展的重要基础,尤其是对挖掘健康和疾病的遗传与环境风险因素、建立疾病精准防治方案等精准医学关键环节具有不可或缺的支撑作用,将满足精准医学研究的关键共性需求。”王亚东教授说。
人类基因组变异多数都是无害的,但也有些变异却可导致疾病或增加疾病发生的风险,因此,中国十万人基因组计划将要找出我国人群特有的基因组变异,进而明确这些变异与环境和地区之间的联系和对健康的影响。各国人群遗传特殊性不可复制、环境特殊性不可替代。由于人群和种群遗传背景差异,需要针对不同人群开展基因组研究。
本项目将以人类参考基因组为基础,刻画中国不同地域人群的基因组变异及频率的差异,同时收集不同地域人群的健康与环境数据,深度挖掘不同地域人群的基因、环境与健康的关联关系,为我国个性化健康和医疗提供强有力的支撑,为个体基因检测提供更精准的科学依据,为中国的医学研究或者是临床诊断治疗疾病提供参考。
首次完全自主实施基因组计划
十万基因组计划将由中国科学家自主完成。在2000年完成的人类基因组计划中,我国科学家承担了其中百分之一的测序任务。在过去十几年间,我国积累了一大批基因组科学领域和生物信息学领域的科学家,现在,我国已经具备了实施大规模基因组计划的科研能力。
“十年前,我们在这个领域是非常了不起的参与者,现在我们将实现从参与到并跑的转变,也期待着中国将可以成为这个领域的领跑者。”王亚东如此总结中国生物信息领域十几年的变化。
该项目计划在四年内分三个阶段进行。第一个阶段将建立基因组变异检测的关键算法和完整工作流,完成1万人基因组变异检测,并通过公开数据验证、生物实验验证等手段,完成变异检测工作流验证,确保基因组变异检测准确性达到世界领先水平;在第二、第三阶段,将进一步完善和优化变异检测工作流,并分别进行5万人基因组变异检测和10万人基因组变异检测,逐步达到项目目标。
该项目设立五个课题,分别由哈尔滨工业大学、复旦大学、中国科学院北京基因组研究所、华中科技大学、中国科学院上海生命科学研究院等五个科研单位领衔,将有20个大学、科研院所和企业的166位专家学者参与到项目中。
项目首席科学家王亚东教授是我国著名生物信息学家,现担任“十三五”国家生物安全重点研发计划专家组专家、“十三五”重大慢病重点研发计划专家组专家;曾担任国家863计划生物信息技术主题专家组专家(2001-2006)、国家863计划生物和医药领域专家组专家(2007-2011)、国家863计划重大项目“生物大数据”首席科学家(2014-2017)。
自主研究算法应对巨大挑战
“作为世界上规模最大的全基因组科学工程,在项目实施过程中将面临很多巨大的挑战。”王亚东坦言。
他说,本项目是我国实施的首个国家级人类全基因组项目。相比于其他国家的基因组计划,本项目的人群规模最大,产生的基因组变异图谱精度最高,其最大挑战是10万人基因组变异检测的计算复杂性和计算结果准确性。
全基因组是指全部30亿碱基长的人类基因组序列。只有通过全基因组测序,才能够发现基因组上的单核苷酸变异(SNV)、插入/缺失变异(INDEL)和结构变异(SV)等所有基因组变异。
除基因序列提取外,该项目的核心工作是针对十万样本的详细数据分析。项目数据总量达到20PB,从基因组测序数据中检测基因组变异的计算量巨大,需要建立高效的计算分析平台完成所有数据分析工作。
项目的另外一项难度体现在要确保数据分析结果的准确性,目前国际上的基因组变异检测方法准确率较低,本项目将研发更高精度的基因组分析算法、软件和工作流,以及基因组变异检测的质量控制体系,确保基因组变异检测的准确性。
该项目还将建立一个开放的平台,为希望亲身参与到基因组计划的志愿者们提供通道。王亚东介绍说,为了保护中国人遗传资源安全,国家正在出台中国人类遗传资源管理条例,项目在执行过程中将遵循该条例,确保产生的基因组数据安全。此外,在数据管理中还有一系列的保护个人隐私技术,确保每个人的隐私不被泄露。
世界范围内基因组计划激烈比拼
2003年,人类基因组计划宣告完成,共测定了人类基因组长达30亿的碱基序列。不过人类基因组计划并没有刻画出人与人之间、不同人种之间,健康与疾病之间在基因组上的差异。
2008年,千人基因组计划启动,对来自全球25个人群的2500余人进行全基因组测序,绘制完成了精度达到百分之一的全球人类基因组变异图谱。
2010年,英国率先启动万人基因组计划,绘制完成了精度达到千分之一的英国人基因组变异图谱。在此基础之上,英国又于2012年启动十万人基因组计划,重点解决罕见病和肿瘤问题,希望以此带动英国基因组产业的发展。
2015年,美国奥巴马政府基于千人基因组计划和癌症基因组图谱计划(TCGA计划)等大规模疾病基因组计划,启动美国精准医学计划,推动实现包括癌症在内的多种疾病的个性化诊断与治疗。
此外,世界上还有其他国家也启动了针对本国的基因组计划,包括冰岛、日本、法国、加拿大、新加坡、荷兰等。