烟草在线据云南烟叶信息网报道 以全基因组测序为目标,解析基因组结构、注释基因及基因定位的基因组学的一个分支。
烟草结构基因组学研究包括绒毛状烟草、林烟草、栽培烟草全基因组序列精细图的绘制,栽培烟草物理图谱、烟草高密度遗传图谱的构建以及烟草单体型图的绘制。
2013年12月,继2011年绘制完成绒毛状烟草和林烟草全基因组序列图谱之后,烟草行业经过两年艰苦攻关,成功绘制完成了以红花大金元为样本的世界首张栽培烟草全基因组序列图谱、物理图谱以及绒毛状烟草和林烟草的物理图谱。
同月,作为烟草基因组计划重大专项数据存储、管理、分析中心的中国烟草基因组数据库(2.0版)正式上线运行,在安全存储重大专项产生的数据、搭建烟草生物信息学分析和高性能计算平台、开展烟草基因组等数据的生物信息学分析等方面迈出了重要一步,为行业烟草基因研究提供了更为有力的数据和平台支撑,有效推动了重大专项各个研究方向的成果产出。
一个月内,两项成就,标志着烟草基因组计划重大专项结构基因组学全面完成了预定研究目标。
这是全球烟草生命科学领域从未达到的一个高度。图谱是如何绘制的?数据库是如何搭建的?经历了什么样的过程?解答了什么样的疑惑?未来之路将如何走?日前,记者带着这些疑问,来到国家烟草基因研究中心求解这一系列“攀登之举”。
基因序列的“信息大字典”
基因组图谱是一种展示生物全基因组结构的图谱,包括测定核酸序列建立的核苷酸序列图谱和按距离绘出基因位置分布的物理图谱。
一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端,这也将带动这个物种下游一系列研究的开展。国家烟草基因研究中心(以下简称“基因中心”)学科带头人杨军告诉记者,基因图谱好比是一本诠释基因序列的“信息大字典”,能够为后续研究人员提供参考。
事实上,这本“字典”的“编纂”过程并不容易。从2007年的起步论证,到2010年成立基因中心,再到2012年、2013年祖先种图谱、栽培种图谱分别绘制成功,中国烟草一路“破题”。
难题一:基因组的复杂性
烟草基因组容量大、重复序列含量高、结构复杂,导致基因组图谱绘制难度巨大。
要绘图,先测序。一方面,烟草基因组拥有4.5GB的容量,是人类的1.5倍、水稻的10倍。另一方面,栽培烟草是由绒毛状烟草、林烟草两种不同的祖先种杂交而成的异源四倍体,即“父亲”和“母亲”不是同一物种,其基因是由两套基因组构成的。基因中心烟草生物信息学实验室学科带头人曹培健博士说,由于多倍体基因组的复杂性,在2011年研究启动之时,国际上没有任何机构绘制完成过多倍体基因组图谱。
据了解,国际同行2007年尝试过烟草基因组的测序,在预测其难度后,放弃了测序完整基因组的思路,只在基因富集区进行测序。曹培健介绍,国外烟草公司测序的容量不足400M,不到烟草全基因序列的10%,可用性不强。仅仅获得占基因组比例不到10%的基因序列显然远远不够,关注其他非基因序列同样重要,例如非编码的RNA(核糖核酸)同样会影响到烟叶形态的形状和大小发育。“一个个基因就像一个个珍珠,而非编码基因序列则串联起珍珠,起到穿针引线的作用,形成基因组完整的项链。”曹博士形象地打了个比方。
面对如此复杂的基因组,烟草基因组测序的攻关难度是史无前例的。
科研攻关,要讲究智慧。
基因测序,最好的方法就是利用全基因组从头测序技术,它可以获得动物、植物、细菌、真菌的全基因组序列。“当时的技术条件还达不到对栽培烟草的直接测序。”曹培健说,相对于异源四倍体的复杂,两个祖先种的测序绘制工作相对比较成熟,国内外对这一领域的研究有大量经验可以借鉴。
既然异源四倍体存在直接测序的难度,中国烟草在多方论证的基础上,决定先单独测序两个祖先种的基因组,再测栽培种。
2011年12月,绒毛状烟草和林烟草全基因组序列图谱就这样首次进入国际视野,为栽培烟草基因组测序绘制图谱奠定了基础。
难题二:测序量的庞大性
庞大的测序量成为整体工作推进的最大难关。“完成这项工作,既要有一流的技术力量,还要有合适的测序方法,以保证测序结构的准确和效率。”杨军介绍说,基因中心自身有不足之处,需要充分借助外力。
2011年,在行业的统一组织和首席科学家的系统推进下,通过系统整合烟草行业各科研单位的技术力量,并借助于行业的相关科技资源,基因测序工作稳步推进。
中国的基因研究起步较早,很多机构参与过动植物基因组计划,他们的经验对烟草基因组计划具有很强的借鉴意义。据介绍,在行业和郑州烟草研究院的积极协调下,基因中心先后同具有世界领先测序能力及生物信息分析能力的专业机构合作,借鉴人类基因组计划、水稻基因组计划、家蚕基因组计划等项目经验,研究解决烟草基因组序列图谱绘制的具体技术和方法。
在内外的通力协作下,2011年4月,行业科研单位和相关专业机构共同确定使用“WGS(鸟枪法)”和“BAC(细菌人工染色体)”进行烟草基因组测序。
烟草基因组含有45亿对碱基,现有的技术,最高只能连续测1000多对碱基,无法一次性测序整个基因组。“WGS直接把基因组全部打散成小片段(比如500bp、800bp)的文库(分类),然后对其两端进行100bp(碱基对简称bp)长度的测序,测序后通过生物信息学方法寻找互相覆盖的部分进行连接,从而得到整个序列结果。”曹培健介绍说,WGS的特点是绕过直接测序整个基因组的难关,采用从小到大堆积木的方式。用这种方法,建立的文库越多,内容越丰富,绘制出的基因图谱质量越高。
BAC建库的方法不同于WGS,是在更大尺度上构建测序文库,可以提高基因组序列装配的质量,并且构建的文库可以长期保存,用于后续的基因克隆等研究。
2011年12月,在相关专业机构近百台HiSeq2000高通量测序仪二十四小时不间断工作五个月之后,祖先种基因测序工作顺利完成,并成功完成排列组合。
2013年10月,在完成对祖先种烟草基因图谱的质量评估后,以红花大金元为样本的栽培烟草测序和图谱绘制工作也宣告完成。
“如同建一座大厦,地基关系到建筑的稳定性,结构基因组学就是烟草基因组学重大专项的‘地基’。”曹培健告诉记者,如今,共计六套图谱的绘制为功能基因组学的研究打下了坚实基础。
基因数据的“网络图书馆”
烟草基因组计划重大专项实施过程中产生了大量有价值的数据资料,各参与单位间需要一个平台,共享、管理和分析这些数据,以支撑应用领域的研究。
2011年,根据烟草基因组计划重大专项部署,烟草生物信息学平台被定位为烟草基因组计划重大专项的数据存储、管理、分析中心,基因中心通过构建中国烟草基因组数据库,安全存储重大专项产生的数据,搭建烟草生物信息学分析和高性能计算平台,开展烟草基因组等数据的生物信息学分析,为烟草基因研究提供数据和平台支撑。
如果说烟草全基因组序列图谱好比是一本“基因信息大辞典”,那么基因数据库就好像是囊括烟草全基因组序列图谱等多本“工具书”的“网络图书馆”。
亮点一:高效高速的数据分析能力
“全基因组序列图谱绘制是整个基因组学研究的数据基础,数据库是工具基础。”曹培健说,数据分析和利用是中国烟草基因数据库建设的核心。
2011年6月,基因中心成立后第一次公开招标,就率先采购了一批计算机和服务器,成功搭建了行业内首个用于烟草基因组数据分析的高性能计算平台。平台的存储和备份系统达到128TB,峰值计算能力达到3万亿次/秒,运算能力在行业内的科研计算系统中位居前列。
数据硬件边建设、边利用,数据分析产出一批、挖掘一批、利用一批。随着绒毛状烟草、林烟草基因组序列图谱的绘制成功,栽培烟草全基因序列图谱绘制的开始,各类数据迅速进入数据库。2012年3月15日,中国烟草基因组数据库(1.0版)正式面向行业开放运行;2013年12月18日,升级后的2.0版上线运行。数据库首次覆盖了烟草全基因组序列图谱,整合了转录组、代谢组、重测序、芯片、遗传图谱等其他组学数据,是国际上覆盖烟草基因组数据最全面的数据库。
亮点二:全面细致的基础服务能力
数据库面向行业开放运行,截至目前,注册用户达200余人,累计访问量6万余次,基础服务能力得到有效发挥,很好地支撑了行业其他科研单位的技术人员开展更高层面上的烟草基因功能研究。
郑州烟草研究院的生物信息学研究团队,有效发挥数据库的基础服务能力,与重大专项其他项目协同攻关,推动了各个研究方向上的成果产出。
在代谢组学领域,他们开发了代谢样品采集管理系统、构建了烟草基础代谢网络;在重测序领域,提供了数据分析所需的计算和存储资源;在功能基因组学领域,提供了多个烟草重要基因的序列分析、表达分析等服务。
亮点三:基础研究不断取得突破
基于已经完成的基因组序列,研究团队首次在全基因组水平上系统地对绒毛状烟草、林烟草、栽培烟草中的六类重要基因,包括抗病、抗逆、烟碱合成、香气物质合成、转录因子、转运蛋白进行了生物信息学分析,完成《烟草基因组》一书初稿。这将是国际范围内烟草基因组学研究领域的第一本专著。
研究团队还利用比较基因组学研究手段,全面比较分析了烟草与番茄、土豆等其它茄科植物的重复序列组成和共线性关系,首次在基因
廉心清风 筑未来沐黔烟 贵州烟草商业廉洁文化建设专题