1. 传统蛋白质组学研究
目前基于质谱仪器的蛋白质组学研究多数利用EBI的IPI、NCBI的NR和SWISSPROT作为数据库对蛋白进行检索鉴定。因此,在已获取这三类数据库的实验鉴定结果后,我们可以实现以下分析:
数据库交叉注释批量查询
将IPI号转化成UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID)和Symbol等。将SP号转化成EMBL, IPI, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID), Symbol, IntAct, GeneCards, MIM等。
数据库功能注释查询
批量查询IPI号:
批量查询SP号:
ID 号比较
基于多批数据集之间的比较,采用数据交叉表和venn图方式表示数据集之间的交盖性。
表. 数据集之间交盖度。
图. 数据集之间venn图。
蛋白序列分析
许多数据库可能没有提供相关蛋白的功能注释,我们可以利用蛋白序列预测相关的功能。
序列相关的预测涉及:
染色体定位
已知蛋白的鉴定号,批量调取蛋白定位信息,并图示化:
基因富集度计算
在蛋白组学中,对大规模的鉴定结果经常用pie图或bar图表示蛋白的某个分类,如亚细胞定位、生物功能、生物通路等。有时也会考虑这些分子在哪些疾病分子交盖比例过高。
GO 分析
通过一般数据库查询给出特定蛋白的GO信息烦多,很难进行统计分类。我们可以将所有鉴定蛋白的GO都slim到特定的GO分类上,便于下一步的统计和图示化。已在上图中标示。
网络分析
通过蛋白的差异谱或实际鉴定谱,可以在各种相互作用数据库中找到对应的相互作用蛋白,并构画出相互作用网络。
通路分析
对已鉴定蛋白可以mapping到通路数据库中,给出mapping的统计结果并图示化。
2. 比较蛋白质组学研究
在比较蛋白质组研究中经常用到标记定量手段,如ICAT, ITRAQ等,这样可以获取多组样本之间同一个蛋白的表达趋势。我们可以采用多元统计学的方法表现鉴定的结果。
差异蛋白筛选
在两两比较的比较蛋白质组学中,要找出差异的蛋白列表,可以用正态分布拟合方法筛选
3. 修饰蛋白质组学研究
蛋白特定的修饰鉴定后,想挖掘修饰位点附近氨基酸组成的状况,可以用聚类图或氨基酸比例图展现。
4. 高级分析
IPA 分析 (商业软件,需要license)
IPA是一种公认的生物数据分析工具,非常适用于疾病相关的数据分析。它的主要特色在于根据实际数据找到疾病分子的网络和通路,甚至在其基础之上构建自己的网络和通路。
可以结合表达量的数据找到相关的基因集合。此处,基因集合泛指包含一堆基因的类别名称,可以是GO中的某一类,通路中的某一条或转录调控和相互作用网络中的某个小模块。