Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
OrthoDB
OrthoDB est un catalogue de gènes codant des protéines orthologues à travers les vertébrés, les arthropodes, les fungi, et les bactéries. L'orthologie fait référence au dernier ancêtre commun d'un ensemble d'espèces considérées, et donc OrthoDB définie explicitement les orthologues à chaque point de rayonnement le long de la phylogénie des espèces. La base de données OrthoDB fourni des descripteurs de protéines, ainsi que les attributs GO et InterPro, qui servent à fournir des annotations descriptives générales des groupes orthologues et faciliter l'interrogation de base de données de orthologie. OrthoDB fournit également des traits évolutifs d'orthologues calculés, comme les duplications et les profils de perte, les taux de divergence, et des familles, qui sont maintenant étendus pour inclure les détails d'architecture d'intron-exon, orthologues de synténie, et les arbres parent-enfant.
Méthodologie
L'orthologie est définie par rapport au dernier ancêtre commun des espèces considérées, de manière à déterminer la nature hiérarchique des orthologues. Cela est abordée dans OrthoDB par l'application de la procédure de retracement d'orthologie à chaque point de rayonnement de la phylogénie, calculée empiriquement sur le super-alignement des orthologues de copie unique à l'aide d'une methode de Maximum de vraisemblance. OrthoDB emploie un algorithme de classification de meilleurs résultats de BLAST réciproques basé sur des comparaisons de séquences de protéines "tous-contre-tous" de Smith-Waterman. Un pré-traitement de gènes sélectionne le transcrit codant une protéine plus long entre le gène et les copies des gènes très similaires. La procédure améliore les meilleurs résultats de BLAST réciproques et construie progressivement les groupes et nécessite un alignement de séquence global minimum pour éviter une « marche de domaine ». Ces groupes de base sont encore élargies pour inclure tous les gènes plus étroitement liés au sein des espèces en-paralogues, et aussi les copies de gènes très similaires précédemment identifiés.
Contenu de données
En 2013 la base de données contenait plus de 300 espèces eucaryotes et plus de 1000 bactéries provenant de Ensembl, UniProt, NCBI, FlyBase et plusieurs autres bases de données. L'échantillonnage de génomes séquencés éclairci la généalogies de gènes et facilite la création de hypothèses de la fonction des gènes dans les génomes nouvellement séquencés.
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « OrthoDB » (voir la liste des auteurs).