MicroRNA怎么起名?名字为什么总是变化的?

今天和大家聊一聊关于microRNA名字的那些事儿。

有的老师从课题组接手或从公共数据库比如GEO里得到了一些microRNA的数据,却发现很多microRNA的名称在现在的miRBase数据库里显示有了变化。

那么这样就对我们使用一些数据库比如预测靶基因等带来了烦恼:我们不知道应该用哪些名字才能被对方所识别,以及这些名字后面代表的具体含义是什么。

比如有这样一条microRNA,它的曾用名是hsa-miR-199a*,而现在的名字是hsa-miR-199a-3p,这是为什么呢?

这要从microRNA的形成机制说起了,看下图:

我们可以看到,在microRNA形成的过程中,是一个“茎-环”前体把那个“环”结构切除以后就剩下了一个“茎”,而这个“茎”本身呢?又是一个双链结构,因此它的每一个单链都会形成一个成熟的microRNA,也就是说一个microRNA前体最多可以形成两条microRNA的。

过去,研究者们就根据这两条同一来源的microRNA的表达量高低不同来分别命名,比如表达量高的那一条老老实实就叫做miR-xxx,而表达量低的那一条呢?对不起了,要区别对待,就在后面加了一个星号也就是miR-xxx*了。

类似地,还有人在名字后面用“-s”和“-as”来进行区分。

但是我们知道,表达量的高低不是那么好确定的,除去实验误差不说,往往在一个组织里microRNA有星号的那个表达量很低,到了另一个组织里它就变得高表达了。因此这种命名法实际上是不科学的。

为了解决这一问题,从miRBase17.0版开始,就对成熟体microRNA的名字进行了改变,规定不管表达量如何,产生自“茎-环”结构5`端那个的就在名字后面加上一个“-5p”,对应地,另一条就是后缀为“-3p”的了。

因此,我们现在知道了hsa-miR-199a*现在的名字为什么是hsa-miR-199a-3p了。

需要特别提出的是,不是每一个“茎-环”结构的microRNA前体都会产生两个成熟体microRNA的,如果只产生一个产物,那它的名字后面就什么也不添加了。

最后,如果大家想追踪某一条microRNA的名称变化,可以到这个网站去查询,网址是http://www.mirbasetracker.org/

这个网站收集了miRBase的历史版本内名称的变迁,比如我们在“miRNA history”里去输入我们刚才要查询那个名字,得到结果如下:

我们可以看到,在miRBase3.0版时记录了这条microRNA,但直到6.0版才有了具体的成熟体序列信息,而在第10.0版本时它的名字就发生了变化。

如果我们有一批microRNA名称,比如来自很久以前我们的师兄师姐做过的一批microRNA芯片数据,我们想知道它们现在的名称是什么,可以使用这个数据库的“miRNAupdate”选项,然后把我们的名称列表文件上传提交,就可以得到结果啦。

这个数据库网站的最后一个功能是提供了任意两个miRBase版本间的比较,这样可以让我们快速评估数据。

比如我们手里有一组数据来源于miRBase12.0版本为基础的人的microRNA芯片结果,现在我们想知道与现在相比有了哪些变化,可以快速地选择12.0和21.0版本间的比较,结果如下图:

可以看到,变化还是非常非常大的,如果我们要研究的那个microRNA名字属于【changed】的那509个microRNA之一,我们就很有必要看看它具体发生了哪些变化了。

最后,很多同学们看文献会发现,很多文献会用到一个叫做PicTar的micorRNA靶基因预测工具,而实际上这个工具从2007年起就没有更新过它的数据库了,里面收录的microRNA全部来自miRBase 10.0版,时至今日很多那时的microRNA都已被移除或者序列发生了变化,这时这个工具显然就不适用了,更何况,它的结果还是那么少呢!

来源:解螺旋,医生科研助手

2016-05-13