Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Numéro d'accession (bioinformatique)
Un numéro d'accession (le terme français est numéro d'ordre, numéro d'accession étant un anglicisme couramment utilisé) en bio-informatique est un identifiant unique donné à toute séquence d'ADN ou de protéine enregistrée dans un dépôt. Ce numéro permet un suivi des différentes versions d'une séquence enregistrée et des séquences associées. Du fait de sa relative stabilité, les numéros d'accession peuvent être utilisés comme clés étrangères pour toute référence à une séquence ou à un ensemble de séquences. Tous les dépôts contenant des informations de séquences mettent en œuvre ce concept de "numéro d'accession" mais peuvent introduire de subtiles variations.
Numéros d'accession dans des bases de données spécifiques
UniProt (SwissProt) Knowledgebase
La documentation fournie par UniProt stipule que le rôle d'un numéro d'accès est "de fournir un moyen stable d'identifier une entrée d'une version à l'autre." Une entrée peut être associée à plusieurs numéros d'accession. Ainsi, chez UniProt, il n'y a pas de relation spécifique entre un numéro d'accession et une séquence : le numéro d'accession se réfère à une entrée dans la base de connaissance (knowledgebase), cette entrée pouvant se référer à un ensemble de séquences. Dans la version en fichier simple d'une entrée, le champ AC correspond à un numéro d'accession, le premier étant le "numéro d'accession primaire" et les numéros suivants étant les "numéros d'accession secondaires". Le champ principal pour le suivi d'une entrée UniProt est le numéro d'accession primaire. Les différents numéros d'accession associés à une entrée de la base de connaissance proviennent de l'historique des fusions et fractionnements de cette entrée. Un nouveau numéro d'accession peut être généré de deux manières : l'enregistrement d'une nouvelle séquence (le plus souvent) ou le fractionnement d'une entrée de la base de connaissance (plus rarement).
GenBank
Les identifiants des séquences biologiques contenues dans la base GenBank respectent un formatage particulier. GenBank regroupe en réalité des séquences de différentes bases de données (Américaines, Européennes, Japonaises). L'attribution d'un identifiant à une nouvelle séquence respecte des règles précises, de sorte que chaque base de GenBank ne peut utiliser que certains formats.
Les identifiants des séquences sont riches en information. Ils permettent de connaitre par exemple :
- le type de séquence,
- la base d'origine,
- la manière dont les données biologiques ont été obtenues,
- etc.
Les identifiants comportent de manière générale un préfixe de plusieurs lettres majuscules suivies de plusieurs chiffres. Les préfixes indiquent la base de données ou le type de données de la séquence. Par exemple, un génome entier n'a pas le même suffixe qu'un WGS (Whole Genome Shotgun).
Le format des identifiants GenBank de quelques types de séquences est le suivant :
- Nucleotide : 1 lettre + 5 chiffres ou 2 lettres + 6 chiffres
- Protéine : 3 lettres + 5 chiffres
- WGS : 4 lettres + 2 chiffres (version de l'assemblage du WGS) 6 à 8 chiffres
- MGA : 5 lettres + 7 chiffres
Description des identifiants des séquences de GenBank sur le site du NCBI
Laboratoire européen de biologie moléculaire
Les formats des numéros d'accession des séquences du Laboratoire européen de biologie moléculaire sont similaires à ceux de GenBank. Les bases de données de séquences biologiques de l'LEBM attribuent des identifiants homogènes avec les bases GenBank et DDBJ. De cette manière, les séquences de ces trois bases peuvent être indexées au sein d'un seul grand moteur de recherche : le site web du NCBI.
DDBJ
Numéros d'accession communément rencontrés
- « Uniprot ID »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?) (consulté le )
- Unified Uniprot Accession
- Uniprot-Swissprot Accession
- Uniprot-Swissprot ID
- Unified Uniprot ID
- Refseq DNA ID
- Entrez Gene ID
- CCDS ID
- Vega translation ID
- Vega Transcript ID
- Vega Peptide ID
- Vega Gene ID
- « HUGO ID »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?) (consulté le )
- MIM ID
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Accession number (bioinformatics) » (voir la liste des auteurs).