最近几年,卡耐基梅隆大学(Carnegie Mellon University)的计算机科学家们采用了一种深度学习方法,这种方法彻底改变了人脸识别和其他基于图像的应用程序,并将其力量重新定位于探索基因之间的关系。
他们说,诀窍在于将大量的基因表达数据转换成更像图像的东西。擅长分析视觉图像的卷积神经网络(CNNs)可以推断哪些基因相互作用。CNNs在这方面比现有的方法做得更好。
研究人员关于CNNs如何帮助识别疾病相关基因以及可能成为药物靶点的发育和遗传途径的报告今天发表在《科学院院刊》上。但计算生物学和机器学习教授Ziv Bar-Joseph表示,这种名为CNNC的新方法的应用可能远远超出基因互动。
这篇论文的作者之一Bar-Joseph和CMU机器学习部门的博士后研究员Ye Yuan共同撰写了这篇论文。Bar-Joseph说,论文中所描述的新见解表明,CNNC也可以被用于调查各种现象的因果关系,包括金融数据和社交网络。
“十年前开发的CNNs是革命性的,”Bar-Joseph说。“我仍然对用谷歌照片进行面部识别感到敬畏,”他一边在智能手机上浏览照片,一边补充道。他展示了这款应用如何识别不同年龄的儿子,或者根据他右脑后部的图像识别他的父亲。“我们有时认为这项技术是理所当然的,因为我们一直在使用它。但它非常强大,而且不局限于图像。这完全取决于你如何表示你的数据。”
在这个案例中,他和Yuan研究了基因之间的关系。人类的大约2万个基因协同工作,因此有必要了解基因如何在复合体或网络中协同工作,以了解人类的发展或疾病。
一种推断这些关系的方法是观察基因表达——它代表细胞中基因的活动水平。袁说,一般来说,如果基因A与基因B同时活跃,这就说明两者是相互作用的。不过,这也有可能是一个巧合,或者两者都是由第三个基因c激活的。
为了利用CNNs来帮助分析基因关系,Yuan和Bar-Joseph使用了单细胞表达数据实验来确定单细胞中每个基因的水平。成千上万的这种单细胞分析的结果以矩阵或直方图的形式排列,因此矩阵的每个细胞代表一对基因的不同水平的共表达。
以这种方式显示数据增加了空间方面,使数据更像图像,从而更容易被CNNs访问。Yuan说,通过使用已经确定相互作用的基因的数据,研究人员能够训练CNNs识别哪些基因相互作用,哪些不是基于数据矩阵中的视觉模式。
“很难区分因果关系和相关性,”Yuan说,但是CNNC的方法在统计上比现有的方法更准确。他和Bar-Joseph预计,CNNC将是研究人员最终用于分析大型数据集的几种技术之一。
“这是一种非常普遍的方法,可以应用于许多分析,”Bar-Joseph说。主要的限制是数据——数据越多,CNNs工作得越好。细胞生物学非常适合使用CNNC,因为一个典型的实验可能涉及成千上万的细胞并产生大量的数据。