由华盛顿大学领导的一个研究小组在新研究中确定了控制机体内不同的基因何时、何处及如何开启和关闭的百万DNA“开关”的位置。基因只占人类基因组的2%,且易于识别,然而控制这些基因的on/off开关却被加密保存在余下的98%的基因组中。然而,当前的技术只允许这样的蛋白一次研究一个。它们也缺乏准确度来分辨蛋白质停泊的DNA碱基。因此,在活细胞中调控蛋白识别的大多数实际的DNA单词是未知的。为了找到它们,研究人员采用了一种简单的强大的技术使得他们能够一次研究所有的蛋白质。并没有试图直接观测蛋白,他们寻找了DNA上的阴影或“足迹”。为了做到这一点,他们再次转向了可在调控DNA中剪切DNA骨架的DnaseI酶。以往的工作证实DnaseI喜欢剪切紧靠调控蛋白停泊位点的DNA,而非停泊位点自身。通过利用新一代DNA测序技术,研究人员分析了用DnaseI处理细胞生成的数亿的DNA骨架片段。
他们随后利用强大的计算机解析了数百万个蛋白质足迹。总的来说,他们确定了沿着基因组840万个那样的足迹,其中一些在许多细胞类型中都被检测到。接下来,他们编译了蛋白质停泊的所有的短DNA序列。他们采用需要数百个微处理器同时工作的一种软件算法进行了分析,揭示了超过90%的蛋白质停泊位点实际上是683个不同的DNA单词的轻度变体——实质上是一本基因组编程语言的词典。Stamatoyannopoulos说:“这些研究发现显著促进了对整个基因组控制基因的指令如何书写和组织,以及不同的指令集如何组合协同发挥功能控制基因的认识,往往沿着基因组很远的距离。包括在这些分析中广谱的细胞和组织类型提供了一个令人难以置信的丰富资源,可以供世界各地的研究人员直接挖掘来阐明他们正在研究的基因是如何受到控制的。
科学家们确定了在一个复杂网络中连接的基因。在这一网络中,调控DNA区域通常控制一个或zui多几个基因,但基因接收到来自大量调控区域的输入信号。研究人员还发现了帮助匹配调控DNA与正确位置的组合密码的证据。另一个关键的发现是控制与癌症和其他“永生“细胞类型相关的基因的调控DNA似乎相比其他类型的调控DNA以不同的速率获得了突变。这一结果指出了个体人类基因组中基因组功能与DNA变异之间从前未知的。这一发现有可能对了解癌症的易感性具有意义。除了发表在Nature杂志上的这两篇相关论文,这些研究结果还同时公布在《科学》(Science)和《细胞》(Cell)杂志上。在Science杂志上,华盛顿大学的研究人员进一步扩展了调控DNA图谱,将它们与人类疾病遗传图谱进行了比较。他们的研究揭示了大部分与特异人类疾病或临床特征相关的DNA变异都定位在调控DNA而非基因序列中。在Cell杂志上,研究人员描述了利用关于调控蛋白停泊位点的详细信息构建了这些蛋白连线的全面图谱。