Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Variant Call Format
Modèle:Variant Call Format[Quoi ?]
Le Variant Call Format ( VCF ) spécifie le format d'un fichier texte utilisé en bioinformatique pour stocker les variations de séquences génétiques. Le format a été développé avec l'avènement des projets de génotypage et de séquençage de l'ADN à grande échelle, tels que le projet 1000 génomes . Les formats existants pour les données génétiques, tels que le format général des caractéristiques (GFF), stockaient toutes les données génétiques, dont la plupart sont redondantes car elles seront partagées entre les génomes. En utilisant le format d'appel de variante, seules les variantes doivent être stockées avec un génome de référence.
La norme est actuellement en version 4.3, bien que le 1000 Genomes Project ait développé sa propre spécification pour les variations structurelles telles que les duplications, qui ne s'intègrent pas facilement dans le schéma existant. Il existe également un format étendu Genomic VCF ( gVCF ), qui comprend des informations supplémentaires sur les « blocs » qui correspondent à la référence et à leurs qualités. Un ensemble d'outils est également disponible pour l'édition et la manipulation des fichiers.
Exemple
##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x> ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
L'en-tête VCF
L'en-tête commence le fichier et fournit des métadonnées décrivant le corps du fichier. Les lignes d'en-tête sont indiquées comme commençant par# . Les mots-clés spéciaux dans l'en-tête sont indiqués par ## . Les mots clés recommandés incluent fileformat, fileDate et reference.
L'en-tête contient des mots-clés qui décrivent éventuellement sémantiquement et syntaxiquement les champs utilisés
Les colonnes d'un VCF
Le corps du VCF suit l'en-tête, et est séparé par une tabulation en 8 colonnes obligatoires et un nombre illimité de colonnes optionnelles qui peuvent être utilisées pour enregistrer d'autres informations sur le(s) échantillon(s). Lorsque des colonnes supplémentaires sont utilisées, la première colonne facultative est utilisée pour décrire le format des données dans les colonnes suivantes.
Nom | Brève description (voir les spécifications pour plus de détails). | |
---|---|---|
1 | CHROME | Le nom de la séquence (généralement un chromosome) sur laquelle la variation est appelée. Cette séquence est généralement connue sous le nom de « séquence de référence », c'est-à-dire la séquence par rapport à laquelle l'échantillon donné varie. |
2 | POS | La position de base 1 de la variation sur la séquence donnée. |
3 | ID (identifiant) | L'identifiant de la variation, par exemple un identifiant dbSNP rs, ou si inconnu un "." . Les identifiants multiples doivent être séparés par des points-virgules sans espace. |
4 | REF | La base de référence (ou les bases dans le cas d'un indel) à la position donnée sur la séquence de référence donnée. |
5 | ALT | La liste des allèles alternatifs à cette position. |
6 | QUAL | Un score de qualité associé à l'inférence des allèles donnés. |
7 | FILTER | Un indicateur indiquant lequel d'un ensemble donné de filtres la variation a échoué ou PASS si tous les filtres ont été passés avec succès. |
8 | INFO | Une liste extensible de paires clé-valeur (champs) décrivant la variation. Voir ci-dessous pour quelques champs communs. Plusieurs champs sont séparés par des points-virgules avec des valeurs facultatives au format : < key > = < data > [,data] .
|
9 | FORMAT | Une liste extensible (facultative) de champs pour décrire les échantillons. Voir ci-dessous pour quelques champs communs. |
+ | SAMPLES | Pour chaque échantillon (facultatif) décrit dans le fichier, des valeurs sont données pour les champs répertoriés dans FORMAT |
Champs d'INFO communs
Les clés arbitraires sont autorisées, bien que les sous-champs suivants soient réservés (mais facultatifs) :
Nom | Brève description |
---|---|
AA | Allèle ancestral |
AC | Nombre d'allèles dans les génotypes, pour chaque allèle ALT, dans le même ordre que celui indiqué |
AF | Fréquence des allèles pour chaque allèle ALT dans le même ordre que celui indiqué (utilisez-la lorsqu'elle est estimée à partir de données primaires, non appelées génotypes) |
AN | Nombre total d'allèles dans les génotypes appelés |
BQ | Qualité de base RMS à ce poste |
CIGAR | Chaîne de cigare décrivant comment aligner un allèle alternatif sur l'allèle de référence |
DB | Adhésion à dbSNP |
DP | Profondeur combinée à travers les échantillons, par exemple DP=154 |
END | Position finale du variant décrit dans cet enregistrement (à utiliser avec les allèles symboliques) |
H2 | Adhésion à hapmap2 |
H3 | Adhésion à hapmap3 |
MQ | Qualité de cartographie RMS, par ex. QM=52 |
MQ0 | Nombre de MAPQ == 0 lectures couvrant cet enregistrement |
NS | Nombre d'échantillons avec données |
SB | Biais de brin à cette position |
SOMATIC | Indique que l'enregistrement est une mutation somatique, pour la génomique du cancer |
VALIDATED | Validé par une expérience de suivi |
1000G | Adhésion à 1000 génomes |
Tous les autres champs d'informations sont définis dans l'en-tête .vcf.
Champs FORMAT communs
Nom | Brève description |
---|---|
AD | Lire la profondeur pour chaque allèle |
ADF | Lire la profondeur pour chaque allèle sur le brin avant |
ADR | Lire la profondeur pour chaque allèle sur le brin inverse |
DP | Profondeur de lecture |
EC | Comptes d'allèles alternatifs attendus |
FT | Filtre indiquant si ce génotype était « appelé » |
GL | Probabilités de génotype |
GP | Probabilités postérieures du génotype |
GQ | Qualité du génotype conditionnel |
GT | Génotype |
HQ | Qualité de l'haplotype |
MQ | Qualité de cartographie RMS |
PL | Probabilités de génotype à l'échelle de Phred arrondies à l'entier le plus proche |
PQ | Qualité de phasage |
PS | Ensemble de phases |
Tous les autres champs de format sont définis dans l'en-tête .vcf.
Voir aussi
- Le format FASTA, utilisé pour représenter les séquences du génome.
- Le format FASTQ, utilisé pour représenter les lectures du séquenceur d'ADN ainsi que les scores de qualité.
- Le format SAM, utilisé pour représenter les lectures du séquenceur du génome qui ont été alignées sur les séquences du génome.
- Le format GVF (Genome Variation Format) est une extension basée sur le format GFF3.
La spécification VCF n'est plus maintenue par le 1000 Genomes Project. Le groupe qui dirige la gestion et l'expansion du format est l'équipe de format de fichier du flux de travail à grande échelle de l'Alliance mondiale pour la génomique et la santé (GA4GH) http://ga4gh.org/#/fileformats-team.
- https://samtools.github.io/hts-specs/VCFv4.3.pdf
- https://github.com/samtools/hts-specs
- https://www.internationalgenome.org/wiki/Analysis/Variant%20Call%20Format/VCF%20(Variant%20Call%20Format)%20version%204.0/encoding-structural-variants
- https://gatk.broadinstitute.org/hc/en-us/articles/360035531812-GVCF-Genomic-Variant-Call-Format
- https://vcftools.github.io/index.html
- https://samtools.github.io/bcftools/bcftools.html