Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Pfam

Подписчиков: 0, рейтинг: 0
Logo de la Pfam.

Pfam est une base de données bio-informatique de familles de protéines qui classe diverses propriétés des domaines protéiques sur la base de leurs alignements de séquences multiples (en). Créée en 1997 par les bio-informaticiens Erik Sonnhammer de l'institut Karolinska à Stockholm, Sean Eddy de l'université Washington à Saint-Louis (Missouri) et Richard Durbin du centre Sanger à Cambridge, elle fournit notamment des informations sur l'architecture des domaines protéiques, leur distribution parmi les espèces vivantes, les liens vers d'autres bases de données et les structures connues de protéines de ces familles.

La classification des domaines protéiques par Pfam couvre près de 80 % des protéines répertoriées sur UniProt. Elle est construite par identification de séquences récurrentes à l'aide d'algorithmes d'apprentissage automatique par reconnaissance de formes utilisant un modèle de Markov caché.

Cette base de données comprend deux sections, désignées par Pfam A et Pfam B.

La section A est annotée manuellement en ligne et comptait, au 11 juin 2020 (version 33.1), 18 259 familles. Depuis la dernière version, 355 nouvelles familles ont été créés et 25 ont été supprimées. Chaque famille comprend des données d'alignement de séquences et un modèle de Markov caché, ce dernier pouvant être utilisé afin d'identifier de nouveaux alignements de séquences à l'aide du module HMMER (en).

Jusqu'à la version 28.0, la section B complétait la précédente avec un grand nombre de familles de protéines plus petites et moins bien documentées. Elle était générée automatiquement par un algorithme appelé ADDA, pour Automatic Domain Decomposition Algorithm. Elle permettait de couvrir le plus grand nombre de domaines protéiques possible, au prix cependant d'une qualité inférieure à Pfam A. Sa dernière mise à jour remonte à 2015.

Annexes


Новое сообщение