忘记基因组和转录组,一起来关注印记组吧
在哺乳动物和植物的基因组中,某些基因携带着表明它们是来自亲本或母本的标记。通常而言,这些标记是调节基因表达以便选择性表达一个亲本等位基因的甲基。总而言之,这些印记基因(imprinted gene, 也译作印迹基因)组成印记组(imprintome)。
科学家们过去经常逐个地寻找印记基因,但是多亏现代的测序技术,他们如今能够扫描整个基因组。印记组的准确大小是不确定的,特别是因为印记模式在不同组织中和发育的不同时间里存在差异。经估计,人类和小鼠有100~150个左右印记基因,而模式植物拟南芥有90个以上的印记基因。基因组中的很多印记区域能够含有与人类疾病(如糖尿病)相关联的序列变异体。鉴于仅有一个印记基因拷贝会表达,因此功能缺失突变更可能导致印记模式出现问题。
来自新西兰奥塔哥大学的Ian Morison说,鉴定出人类和模式生物完整的印记基因列表将成为科学家们阐明印记机制和功能的起始点。这是一项正在持续进行的努力,但是这其中存在很多障碍。来自美国文安德尔研究所的Piroska Szabó曾经激动人心地认为她发现一个新的基因,而且仅仅是它的母本等位基因会表达。之后,她才意识到她正在研究的RNA序列是来自一个之前被错误标注为核基因的基因。这就解释了母本遗传性。
其他的方法也会误导人。一些论文鉴定出1000多个潜在的印记基因,但是随后它们当中的大多数因存在假阳性而被剔除。当细胞因出于随机性或者等位基因序列特异性等其他原因而不是出于等位基因的亲本来源选择一个等位基因时,这些假阳性也会产生。
来自西班牙Bellvitge生物医学研究所的David Monk提醒道,准确地分析序列的需要使得生物信息学研究者成为任何一个印记组研究小组的核心成员。
《科学家》杂志请求印记研究专家分享他们的分析小鼠、拟南芥和人类印记组的技术和针对推动该领域发展的新技术和研究提出一些新的想法。
1.测试案例
研究人员:文安德尔研究所表观遗传学中心副教授Piroska Szabó
有机体:小鼠
方法:RNA测序(RNA-seq)
2014年,Szabó和同事们报道了他们如何利用小鼠胚胎成纤维细胞测试这种相对较新的RNA测序方法是否能够揭示已知的和新的印记基因。Szabó团队以两种不同的存在已知的基因组差异的小鼠品种开始研究。他们让这两种小鼠品种发生杂交,并且对所产生的后代的RNA进行测序。
对母本基因组和亲本基因组在序列上存在差异的任何基因而言,Szabó团队能够研究基因经转录产生的RNA,并且寻求是哪个等位基因发生转录。对大多数基因而言,他们观察到每个基因的母本等位基因和父本等位基因发生转录的比例是五五分。但是对印记基因而言,他们期待观察到RNA主要是由母本等位基因,或者主要是由父本等位基因转录的。
发现
Morison(未参与这项研究)说,Szabó团队鉴定出32个已知的印记基因,但是没有新的印记基因,这提示着小鼠的印记基因列表---至少是在它的胚胎成纤维细胞中---几乎是完整的(Nucleic Acids Research, doi:10.1093/nar/gkt1042)。
优势
(1)针对用于杂交的两个小鼠品种(每个品种代表母本或父本)开展研究有助证实这种印记。
(2)Szabó团队采用了从cDNA的两个末端开始读取序列的末端配对测序法(paired-end sequencing),能够有助鉴定出仅有基因的某些剪接变异体存在印记。
不足之处
(1)低水平表达的基因往往被错误地认为是印记基因,这是因为少量的转录本可能随机地偏向一种或另一种亲本等位基因。Szabó团队需要最少10次序列读取,才能判断一个基因是否为印记基因。
(2)即便将高度表达的基因称为印记基因也会充满不确定性,这是因为一些印记基因以一种要么全有要么全无的方式进行表达。Szabó团队设置一个截止值(cutoff):一个等位基因或另一个等位基因的80%表达就可将一个基因称为印记基因。不同的研究团队选择不同的截止值,而且一种太宽的截止值可能会产生假阳性。
展望
Szabó想要采用单细胞印记组分析技术,也想要在发育期间不同时间点上针对不同的组织开展更多的研究,这仍然可能鉴定出更多的印记基因。
2.单亲样本集
研究人员:日本国家儿童健康与发育研究所母胎生物学系处长Kazuhiko Nakabayashi;西班牙Bellvitge生物医学研究所表观遗传学与癌症生物学项目主要研究者David Monk。
有机体:人类
方法:亚硫酸氢盐测序(Bisulfite-seq);亚硫酸氢盐芯片(Bisulfite-chip)
图片来自Genome Research, doi:10.1101/gr.164913.113
甲基化通常与非表达等位基因沉默相关联,从而使得它成为印记基因的一种简便的标记。不过,在两个等位基因都会表达的组织中,差异甲基化模式是可能存在的。Nakabayashi、Monk和他们的合作者们研究了来自健康志愿者体内的成体细胞、脐带血细胞和胎盘细胞的甲基化模式。他们也研究了来自脑库的脑组织的甲基化模式。此外,他们也研究了一种体外培养的肝细胞系的甲基化模式。他们利用亚硫酸氢盐处理基因组DNA。亚硫酸氢盐仅将DNA中未发生甲基化的胞嘧啶转化为胸腺嘧啶,但不会影响发生甲基化的胞嘧啶。他们认为在多种组织中一直发生半甲基化(half-methylated)的基因很可能是印记基因。
为了证实基因印记和鉴定它们的亲本起源,研究人员将这些甲基化模式与受到单亲二体(uniparental disomy)影响的组织中的甲基化模式进行比较。单亲二体指的是基因组(或者说染色体或部分染色体)的两个拷贝都来自一个亲本。一种这样的样品来自葡萄胎(hydatidiform mole, 又称水泡状胎块)生长:当一个缺乏细胞核的卵子被两个精子或者一个已发生基因组复制的精子受精时,葡萄胎就会这种不成功的怀孕中产生。其他的样品来自携带源自父亲或母亲的发生染色体复制的血细胞的人体内。
研究人员利用Illumina芯片鉴定受到单亲二体影响的组织样品中的甲基化位点,并且将它们与具有典型染色体组的血细胞的甲基化模式进行比较。在大多数情形下,这两种甲基化模式应当匹配得上,但是它们在印记基因上存在差异:在正常的血细胞中,一个基因拷贝发生甲基化,但在受到单亲二体影响的组织中,两个基因拷贝或者没有一个基因拷贝发生甲基化。比如,在葡萄胎中,所有的基因都来自父本,因此正常情形下仅在父本拷贝上发生甲基化的基因在这些受到单亲二体影响的组织中会在两个等位基因上都发生甲基化。
发现
研究人员获得21个存在差异甲基化的位点,其中的15个位点仅存在于胎盘中,但是在他们开展研究的小鼠杂交种体内,没有一个位点存在印记(Genome Research, doi:10.1101/gr.164913.113)。Nakabayashi说,“印记位点是新获得的,而且很可能在进化中丢失了。”
优势
(1)Monk偏好亚硫酸氢盐测序法,这是因为大多数印记基因发生差异甲基化,即便这些基因在分析的组织中没有表达。“我们将甲基化作为在基因组上的哪个位置去查找的标记而不是直接作为基因表达的标记。基因表达是非常复杂的。”
(2)受到单亲二体影响的组织有助证实印记基因的身份。
不足之处
(1)Monk说,测序是“非常昂贵的”,据估计,每个样品的成本是6000美元。
(2)Illumina公司开发的Infinium HumanMethylation450 BeadChip芯片含有检测45万个可能发生甲基化的区域的探针,因此一些印记基因可能会遗漏掉。新的MethylationEPIC试剂盒含有检测85万个位点的探针。
(3)考虑到等位基因可能发生差异甲基化,但是在一些组织中不会发生差异表达,因此甲基化测序不会在RNA水平上证实印记。
展望
鉴于很难获得的人组织以及小鼠印记组与人印记组不相匹配,Nakabayashi想要针对灵长类动物印记开展更多的研究。
Monk补充道,“可扩展性是下一个问题。”他想要采用一种利用芯片而不是完整测序开展单细胞分析的方法,但是基于芯片的亚硫酸氢盐方法需要的核酸(大约1毫克)比一个细胞提供的还要多。
3.亲本冲突
研究人员:美国麻省理工学院生物学副教授、怀特海德研究所成员Mary Gehring
有机体:拟南芥(Arabidopsis thaliana)和深山南芥(A. lyrata)
方法:RNA-seq和bisulfite-seq
在植物中,印记仅发生在胚乳中。胚乳是滋养植物胚胎的三倍体种子组分。很多科学家猜测印记在动物和植物中发生的原因在于父本基因组促进尽可能大的后代生长,而母本基因组有助保护有限的资源。Gehring和同事们对在拟南芥中存在的印记是否比异型杂交的深山南芥中的更少感到好奇。拟南芥是一种自我受精的植物,亲本的影响应当是一致的。他们让两种深山南芥品种发生杂交,亲手解剖它的种子,并且对所产生的胚乳进行末端配对RNA测序(paired-end RNA-seq)和亚硫酸氢盐测序,从而鉴定出这种物种的印记组。他们将它与他们之前确定的拟南芥印记组进行比较(Nature Plants, doi:10.1038/nplants.2016.145)。
发现
事实上,在印记基因列表中,大多数印记基因在这两种物种之间是保守的。但是Gehring团队确实观察到沉默基因表达的甲基位置在这两种物种之间存在差异,这提示着它们的印记机制存在着不同。
优势
正如Szabó的那项研究中的一样,Gehring团队了解亲本基因型,因此他们能够在这些种子中鉴定出这些等位基因。
不足之处
(1)如果针对一个给定的基因,这两种亲代品种没有基因差异,那么任何印记将是无法观察到的。
(2)Gehring说,“一个主要的挑战是理解是什么存在显著的差异。”80%或90%的母本等位基因表达是印记存在的证据吗?不同的研究团队设置不同的截止值。
展望
Gehring想要不用亲手解剖微小种子的情形下分离出胚乳;她希望胚乳组织的三倍体(两个母本基因组和一个父本基因组)性质将有助她通过流式细胞仪从其他的二倍体细胞中分裂出这种胚乳。
4.数据分析
研究人员:美国哥伦比亚大学系统生物学系助理教授、纽约基因组中心核心成员Tuuli Lappalainen
有机体:人类
方法:分析测序数据
图片来自Genome Research, doi:10.1101/gr.192278.115
多亏有广泛获得的转录组数据库,一些科学家甚至不必选择新的组织来寻找印记基因。Lappalainen是基因型-组织数据库(Genotype-Tissue Expression, GTEx)的一名合作者。GTEx数据库包括多种死后的组织样品的基因型和RNA测序数据。在近期的一项研究中,Lappalainen和同事们利用来自这种数据库的数据寻找印记基因。在任何一个给定的基因是杂合型的情形下,Lappalainen团队能够寻找等位基因特异性的表达。他们尽力地筛选出已知发生随机的单等位基因表达的基因。单等位基因表达指的是由于序列变异而发生的单个等位基因表达,或者可能因测序存在的技术问题看起来像是单等位基因表达的RNA谱。
发现
Lappalainen团队鉴定出42个印记基因,其中的12个是新的(Genome Research, doi:10.1101/gr.192278.115)。
优势
(1)GTEx包括来自多种组织的样品,这些组织涵盖循环系统、神经系统和胃肠道系统。
(2)具有较大的样品---来自178人的1582种组织样品---使得它更容易证实印记存在于整个人群中。
不足之处
(1)仅从这些数据当中,Lappalainen团队并不知道一个给定的等位基因来自哪个亲本。他们不得不使用家庭样品等额外数据来确定哪些基因是存在父本印记的还是母本印记的。
(2)Lappalainen提醒道,当印记模式在很多人之间是相同的情形下,这种大规模方法才会有效,但是印记的强度可能在整个人群当中存在差异。
展望
开展这这种分析的理想方法是具有关于多种组织类型的大型家庭数据集,这样研究人员就会知道亲本基因型,但是Lappalainen说,当前仅有来自血液样品的数据集是可获得的。
5.印记资源
(1)基因组印记网站:http://www.geneimprint.com/
Geneimprint网站包括物种的印记基因列表;论文,综述和针对这个话题的演讲稿。
(2)亲源效应目录:http://igc.otago.ac.nz/home.html
用户能够寻找受到亲本来源影响的基因,包括多种物种中的印记基因和每个亲本的不同突变率等其他影响(Nucleic Acids Research, doi:10.1093/nar/29.1.275)。
(3)小鼠基因组印迹和差异表达网络图集(WAMIDEX):https://atlas.genetics.kcl.ac.uk/
这个小鼠印记基因列表是基于文献检索或芯片表达数据获得的(Epigenetics, doi: 10.4161/epi.3.2.5900)。
(4)MouseBook印记资源:http://www.mousebook.org/mousebook-catalogs/imprinting-resource
MouseBook网站包括印记基因列表和图谱(Nucleic Acids Research, 38:D593-99, 2010)。
(5)GTEx网站:https://www.genome.gov/gtex/
该网站提供来自人死后组织的基因组和RNA序列(Nature Genetics, doi:10.1038/ng.2653)。(生物谷 Bioon.com)