• 免费服务热线
  • 400-065-6886
  • 电话:86(0)512-6295 9990
  • 传真:86(0)512-6295 9995
新闻中心

迄今为止最全的多物种微卫星注释数据库MSDB发布

发稿时间:2019-10-28来源:天昊生物


               去年十月,Nucleic Acids Research刊登了一篇SSRome数据库的文章,发布了一个整合了所有物种SSR在线数据资源的专业SSR数据库(“终于等到你!“SSRome”,所有物种SSR标记开发整合数据库发布)。今年十月,Nucleic Acids Research又带来一个最新的SSR数据库—MSDB,微卫星综合注释数据库,涉及的物种增加到了37262种,增加了近7倍,可谓SSRome的“加强版”!


发表时间:2019-10-10  影响因子:11.147

                                       MSDB网址:https://data.ccmb.res.in/msdb/


网站首页节选


微卫星数据库(MicroSatellite DataBase,MSDB)是简单序列重复序列的集合。微卫星是存在于所有基因组中的1-6个碱基基序的短串联重复序列。人们研究它们作为分子标记和法医学的用途,最近研究它们的基因调节功能。此外,许多研究指出它们在进化中的作用,因为它们在物种内和物种间的多态性比率很高。MSDB的目标是成为获取和可视化SSR相关信息的直接资源。

MSDB来自37680个基因组的40亿多个微卫星的集合,呈现在一个用户友好的门户网站上,便于进行交互式分析和可视化。这是迄今为止访问和分析多物种微卫星数据的最全面、带注释、最新的数据库。MSDB的特性使用户能够以可过滤和导出的表格的形式浏览数据,也可以以交互式图表的形式同时查看和比较多个物种的数据。它的模块化和架构允许新数据的无缝更新,特别是在它们的进化和基因组组织和基因调控新作用的背景下,会使它成为研究微卫星的强大工具和有用资源,

表1、MSDB与现有微卫星数据库的比较,基于(A)可获得数据的物种数量,(B)数据库的特征和功能


MSDB搭建方法

MSDB中所有基因组数据都是从NCBI的RefSeq和GenBank,以及UCSC中获得的。序列信息以FASTA格式下载,基因注释以GFF/GTF格式下载。如果相同装配水平的多个基因组可用,则选择最近发布的版本。除了序列之外,还记录了该物种的其他信息,如系统发育分类。

在重复的识别方面,使用PERF鉴定来自基因组序列的微卫星。PERF根据基序序列的周期性变化,将5356个1-6nt长的DNA基序的可能排列分为501个独特的微卫星类别。所有基序最小长度截止值为12 nt。PERF的输出是一个TSV文件,它遵循BED格式规范来描述所识别的微型卫星的位置和其他信息。除了FASTA输入之外,还向PERF提供基因注释,根据这些注释确定每个微卫星的最近基因以及到最近TSS(转录起始位点)的距离。此外,微卫星被分为外显子、内含子或基因间重复。

数据库设计方面,MSDB的后端由MySQL支持,使用基于Python的Django框架作为中间件进行查询和访问。重新设计的数据库由两个表组成;基因组表将所有关于可用基因组的信息存储在数据库中,所有微卫星信息存储在单个大重复表中。这提高了整个网络界面的速度和响应性,并最小化了服务器上的计算量。

MSDB的Web界面方面,其前端是一个单页应用程序,它是使用虚拟环境接口和元素界面构建的。网站的整个状态存储在一个JavaScript对象中,该对象在网站的选项卡中有效。这可以确保网页记住用户选择和其他设置,直到网站重新加载。微卫星的基本信息是预先计算的,并存储在特定物种的JSON文件中。


数据库概述和功能

MSDB是一个4330912429个长度≥12 nt的完整SSR的集合,来自37680个基因组,分属37 262种。MSDB的网络应用程序是为跨基因组交互式探索和分析SSR而设计的。主页提供了关于MSDB的一般信息,并提供了访问常用物种表格和微卫星数据的快速链接。如下所述,MSDB的其他功能可通过网站的各种选项卡访问。MSDB的主页将所选物种的微卫星信息总结为交互式表格和图表(图1)。默认情况下,该页面显示了Homo sapiens微卫星信息。


图1、浏览显示人类微卫星信息的MSDB网页


物种选择:可以通过左侧的物种选择面板添加或更改物种(图1,左侧)。用户可以通过搜索栏按他们的学名或通用名搜索物种,也可以通过物种表过滤感兴趣的物种。

模态视图:大多数在标题中有一个按钮(图1,红色箭头),用于切换MSDB的模态视图,这让用户可以用有用的方式自定义图。通过该模式,用户可以获得MSDB最独特的特征之一--微卫星数据的多物种特性比较。该模式还提供了基于物种基因组大小标准化数据的选项,以便于不同大小基因组之间的数据比较。


表格视图:点击“探索重复”按钮(图1,黑色箭头)打开一个新窗口,所选物种的微卫星数据显示为表格。页面顶部的过滤面板允许用户过滤显示的各种属性的数据,如基因组位置、微卫星基序(重复类)或长度、与特定基因的接近度、基因组上下文或与转录起始位点的距离。可以通过单击列标题对表进行排序,并可以使用“导出表”按钮将其导出为TSV文件。通过复选框选择感兴趣的重复序列,并点击表格上方的“获取序列”按钮,可以获得微卫星的侧翼序列。这将启动一个新窗口,显示所有选定微卫星的序列,默认侧翼大小为两侧100 bp。侧翼大小是可定制的,序列格式可以在表格格式和FASTA格式之间切换。


数据下载:MSDB提供了一个专门的下载页面来快速检索所需基因组的微卫星数据。下载页面以类似于浏览页面物种表的布局显示基因组列表。对于每个基因组,提供了三个链接--启动基因组的表格视图,将整个数据作为TSV文件下载,或者作为gzip压缩的TSV文件下载。


帮助页面:MSDB的帮助页面包含一个广泛的手册,帮助新用户理解网站的功能和布局。带注释的截图指导用户浏览网站。页面的各个部分详细描述了MSDB的每个图表,并提供了数据是如何获得或处理的信息。


关于天昊:

天昊生物长期从事基因及遗传分析,可以提供包括SSR检测在内的多项基因检测服务天昊生物自主研发的基于二代测序技术的SSR检测新方法--SSRseqTM,这种方法几乎克服了现存所有电泳检测方法的不足,尤其适合对多SSR位点、超高深度的分型,准确度高,并且分辨率达到单碱基的水平。因此适合所有二倍体人类、动植物、真核微生物,以及多倍体物种的SSR基因型分析。欢迎联系我们具体咨询!邮箱:techsupport@geneskies.com 电话:400-065-6886


Copyright © 2012-2023 天昊基因科技(苏州)有限公司    All Rights Reserved    苏ICP备17064027号-1