13.07.2015 Views

IPI-International Protein Index 数据库介绍

IPI-International Protein Index 数据库介绍

IPI-International Protein Index 数据库介绍

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>IPI</strong> - <strong>International</strong> <strong>Protein</strong> <strong>Index</strong>数 据 库 介 绍俞 鸿yuhong@biosino.com.cnyuhong@scbit.org


<strong>IPI</strong>-<strong>International</strong> <strong>Protein</strong> <strong>Index</strong>• EMBL-EBI• URL:http://www.ebi.ac.uk/<strong>IPI</strong>/<strong>IPI</strong>help.html• <strong>IPI</strong> provides a top level guide to the maindatabases that describe the proteomes ofhigher eukaryotic organisms• 常 使 用 在 质 谱 的 搜 库


计 算


算 法 (Algorithm)• <strong>IPI</strong> 是 以 蛋 白 质 相 似 性 为 基 础 的 不 同 数 据 库之 间 通 过 映 射 产 生 的• 两 个 关 键 问 题– 数 据 库 之 间 如 何 进 行 匹 配– 每 个 数 据 集 映 射 结 果 如 何 合 并 到 一 个 数 据 集 中


流 程下 载 序 列 数 据数 据 库 所 有 序 列 两 两 之 间相 似 性 比 对匹 配 百 分 比 要 求 大 于 95%孤 立 蛋 白互 为 最 佳 匹 配 的 蛋 白 对所 有 最 佳 匹 配 的 蛋 白 对组 成 一 个 类类已 有 类 的部 分 片 段SwissprotRefseqEnsembl非 有 类 的部 分 片 段TrEMBL聚 类<strong>IPI</strong>


互 为 最 佳 匹 配 蛋 白 对Database ADatabase Ba1,a2,a3….b1,b2,b3….a1 与 database B 中 所 有 蛋 白 比 对 后 , 得 到 与 a1 比 对 的 最 佳 的 为 b1b1 与 database A 中 所 有 蛋 白 比 对 后 , 得 到 与 a1 比 对 的 最 佳 的 为 a1a1, b1 为 互 为 最 佳 蛋 白 的 蛋 白 对


<strong>IPI</strong> 序 列 的 确 定• <strong>IPI</strong> 的 序 列 采 用 以 下 数 据 库 的 优 先 级 来 选 取Swissprot/Refseq/TrEMBL/Ensembl, 前 题是 类 中 如 果 有 小 片 段 序 列 , 那 么 所 选 取 的序 列 必 须 能 包 括 小 片 段 序 列


MS<strong>IPI</strong>• MS<strong>IPI</strong> is a database derived from <strong>IPI</strong>containing additional information aboutcSNPs and N-terminal peptides in a formatsuitable for easy use in mass spectrometrysearch engines. MS<strong>IPI</strong> is available in thedirectoryftp://ftp.ebi.ac.uk/pub/databases/<strong>IPI</strong>/msipi.


物 种 资 源• Human• Mouse• Rat• Zebrafish• Arabidopsis• Chicken• Cow


数 据 检 索


FTP 数 据 资 源• 当 前 版 本 :ftp://ftp.ebi.ac.uk/pub/databases/<strong>IPI</strong>/current/• 旧 版 本 :ftp://ftp.ebi.ac.uk/pub/databases/<strong>IPI</strong>/old/


数 据 文 件• Ipi.HUMAN.dat.gz• Ipi.HUMAN.fasta.gz• Ipi.HUMAN.history.gz• Ipi.HUMAN.IPC.gz• Ipi.HUMAN.mysql.gz• Ipi.HUMAN.xrefs.gz• Gi2ipi.xrefs.gz• Ipi.gene.HUMAN.xrefs.gz


数 据 格 式 -UniProt• *.dat.gzID <strong>IPI</strong>00003881.5 <strong>IPI</strong>; PRT; 415 AA.AC <strong>IPI</strong>00003881;DT 01-OCT-2001 (<strong>IPI</strong> Human rel. 2.00, Created)DT 06-OCT-2005 (<strong>IPI</strong> Human rel. 3.11, Last sequence update)DE SIMILAR TO HETEROGENEOUS NUCLEAR RIBONUCLEOPROTEIN H.OS Homo sapiens (Human).OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.OX NCBI_TaxID=9606;CC -!- CHROMOSOME: 10.CommentsCC -!- START CO-ORDINATE: 43201071.CC -!- END CO-ORDINATE: 43224620.DR UniProtKB/Swiss-Prot; P52597; HNRPF_HUMAN; -.


DR Vega; OTTHUMP00000019482; OTTHUMG00000018029; M.DR Vega; OTTHUMP00000043413; OTTHUMG00000018029; -.DR Vega; OTTHUMP00000043414; OTTHUMG00000018029; -.DR REFSEQ_REVIEWED; NP_004957; GI:4826760; -.DR UniProtKB/TrEMBL; Q5T0N2; Q5T0N2_HUMAN; -.DR UniProtKB/TrEMBL; Q8NI96; Q8NI96_HUMAN; -.DR UniProtKB/TrEMBL; Q96AU2; Q96AU2_HUMAN; -.DR ENSEMBL; ENSP00000338477; ENSG00000169813; -.DR ENSEMBL; ENSP00000348345; ENSG00000169813; -.DR H-InvDB; HIT000003838; HIX0008779; -.DR H-InvDB; HIT000030409; HIX0008779; -.DR H-InvDB; HIT000031821; HIX0008779; -.DR H-InvDB; HIT000037199; HIX0008779; -.DR H-InvDB; HIT000037659; HIX0008779; -.DR UniParc; UPI0000000C5C; -; -.DR HGNC; 5039; HNRPF; -.DR Entrez Gene; 3185; HNRPF; -.DR UniGene; Hs.808; -; -.DR CCDS; CCDS7204.1; -; -.DR ReAlSplice protein; SL0000062; hnRNPF; factor involved in alternativesplicing.DR trome; HTR002991; -; -.DR RZPD; Hs.808; -; Clones and other research material.


DR CleanEx; HS_HNRPF; -; -.DR InterPro; IPR012677; a_b_plait_nuc_bd.DR InterPro; IPR000504; RNP1_RNA_bd.DR InterPro; IPR012996; Znf_CHHC.DR Pfam; PF00076; RRM_1; 3.DR Pfam; PF08080; zf-RNPHF; 1.DR SMART; SM00360; RRM; 3.DR PROSITE; PS50102; RRM; 2.DR GENE3D; G3D.3.30.70.330; Nucl_bd_a/b_plat; 3.SQ SEQUENCE 415 AA; 45672 MW; D14E170631FB1F31 CRC64;MMLGPEGGEG FVVKLRGLPW SCSVEDVQNF LSDCTIHDGA AGVHFIYTRE GRQSGEAFVELGSEDDVKMA LKKDRESMGH RYIEVFKSHR TEMDWVLKHS GPNSADSAND GFVRLRGLPFGCTKEEIVQF FSGLEIVPNG ITLPVDPEGK ITGEAFVQFA SQELAEKALG KHKERIGHRYIEVFKSSQEE VRSYSDPPLK FMSVQRPGPY DRPGTARRYI GIVKQAGLER MRPGAYSTGYGGYEEYSGLS DGYGFTTDLF GRDLSYCLSG MYDHRYGDSE FTVQSTTGHC VHMRGLPYKATENDIYNFFS PLNPVRVHIE IGPDGRVTGE ADVEFATHEE AVAAMSKDRA NMQHRYIELFLNSTTGASNG AYSSQVMQGM GVSAAQATYS GLESQSVSGC YGAGYSGQNS MGGYD//


数 据 格 式 -fasta• *.fasta.gz><strong>IPI</strong>:<strong>IPI</strong>00000005.1|SWISS-PROT:P01111-3|TREMBL:P54111|REFSEQ:NP_002515;XP_032698;XP_001317|ENSEMBL:ENSP00000261444|H-INV:HIT000032298Tax_Id=9606 Transforming protein N-RasMTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNSKSFADINLYREQIKRVKDSDDVPMVLVGNKCDLPTRTVDTKQAHELAKSYGIPFIETSAKTRQGVEDAFYTLVREIRQYRMKKLNSSDDGTQGCMGLPCVVM


数 据 格 式 -<strong>Protein</strong> Cross-References File(*.xrefs)1. Database from which master entry of this <strong>IPI</strong> entry has been taken. 主 条 目 的 来 源 库2. UniProtKB accession number or Vega ID or Ensembl ID or RefSeq ID or TAIR <strong>Protein</strong> ID or H-InvDB ID. 来 源 ID3. <strong>International</strong> <strong>Protein</strong> <strong>Index</strong> identifier. <strong>IPI</strong> 号4. Supplementary UniProtKB/Swiss-Prot entries associated with this <strong>IPI</strong> entry. Swiss-Prot 号5. Supplementary UniProtKB/TrEMBL entries associated with this <strong>IPI</strong> entry. TrEMBL 号6. Supplementary Ensembl entries associated with this <strong>IPI</strong> entry. Havana curated transcriptspreceeded by the key HAVANA: (e.g. HAVANA:ENSP00000237305;ENSP00000356824;).7. Supplementary list of RefSeq STATUS:ID couples (separated by a semi-colon ';') associated withthis <strong>IPI</strong> entry (RefSeq entry revision status details).8. Supplementary TAIR <strong>Protein</strong> entries associated with this <strong>IPI</strong> entry.9. Supplementary H-Inv <strong>Protein</strong> entries associated with this <strong>IPI</strong> entry.10. <strong>Protein</strong> identifiers (cross reference to EMBL/Genbank/DDBJ nucleotide databases).11. List of HGNC number, HGNC official gene symbol couples (separated by by a semi-colon ';')associated with this <strong>IPI</strong> entry.12. List of NCBI Entrez Gene gene number, Entrez Gene Default Gene Symbol couples (separatedby a semi-colon ';') associated with this <strong>IPI</strong> entry.13. UNIPARC identifier associated with the sequence of this <strong>IPI</strong> entry.14. UniGene identifiers associated with this <strong>IPI</strong> entry.15. CCDS identifiers associated with this <strong>IPI</strong> entry.16. RefSeq GI protein identifiers associated with this <strong>IPI</strong> entry.17. Supplementary Vega entries associated with this <strong>IPI</strong> entry.


数 据 格 式Gene Cross-References FileFormat(ipi.genes.*.xrefs)


数 据 格 式 -GI Cross-ReferencesFile format


数 据 格 式 - InterPro HitsFormat(ipi.ipc)


数 据 格 式 -HistoryFile(*.history.gz))• <strong>IPI</strong> ID• Release version when ID was created• Release version when ID was deleted,ifavailable or ‘-’ if not• Successor ID, if available or ‘-’ not• Comments


MYSQL 数 据 库 及 其 使 用gunzip ipi.HUMAN.mysql.gz;mysql -h host_name -u username -ppassword <strong>IPI</strong>human


扩 展 分 析• 编 码 基 因 分 布• 分 子 量 分 布• Domain 分 析• …….• 功 能 分 类 -GOA


GOA• Gene Ontology Annotation Database• The GOA project aims to provide highqualityGene Ontology (GO) annotations toproteins in the UniProt Knowledgebase(UniProtKB) and <strong>International</strong> <strong>Protein</strong><strong>Index</strong> (<strong>IPI</strong>) and is a central dataset forother major multi-species databases; suchas Ensembl and NCBI.


俞 鸿上 海 众 信 生 物 技 术 有 限 公 司公 司 网 站 :http://www.biosino.com.cnEmail:yuhong@scbit.org

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!