Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
ARN long non-codant
Un ARN long non-codant (ARNlnc) est généralement défini comme étant un transcrit d'une longueur supérieure ou égale à 200 nucléotides et qui ne code pas une protéine, ou plus précisément, qui n'a pas de cadre de lecture ouvert comparable à celui d'un ARN messager. Les ARNlnc constituent la plus vaste classe de gènes chez les mammifères, mais sont encore très mal connus.
Les fonctions biologiques des ARNlnc sont mal connues, mais ces transcrits (et donc les gènes qui les codent) semblent être des régulateurs de l'expression d'autres gènes, et sont impliqués dans de nombreux processus biologiques et maladies.
La transcription d'une partie des ARNlnc est assurée par l'ARN polymérase II, comme pour les ARN messagers. Les transcrits produits subissent l'épissage et reçoivent une coiffe et une queue dite « poly-A ». Le niveau d'expression des ARNlnc (c'est-à-dire la quantité de transcrits produits) est inférieure à celle des ARN messagers, d'un facteur 10 environ. De plus, l'expression des ARNlnc est plus « tissu-spécifique » que celle des ARNm, ce qui signifie qu'ils ont une tendance plus forte à n'être exprimé que dans quelques tissus, voire parfois un seul.
Les gènes à ARNlnc semblent être issus d'anciens gènes codant des protéines qui auraient perdus leurs fonctions et seraient devenus des sortes de pseudo-gènes toujours fonctionnels. Ils sont moins bien conservés que les gènes codants des protéines.
Chez l'humain, l'annotation Ensembl du génome dénombrait début 2021 environ 20 000 gènes codant des protéines et environ 16 000 gènes à ARNlnc.
Cadre historique
Les régions non-codantes du génome, ou « Junk DNA »
Le séquençage du génome humain, achevé en 2004, a révélé que seul 1,2% du génome code des protéines. Cette observation appuyait l'idée née dans les années 1960-1970 que l'immense majorité du génome était inutile, puisque non-codante. Cette idée était née pour résoudre l'« énigme de la C-value », c'est-à-dire le fait que la taille des génomes (en nombre de paires de bases ou en masse d'ADN) n'était pas corrélée avec la complexité de l'organisme. On disait alors qu'elle constituait de l'« ADN poubelle » (« Junk DNA » en anglais).
Néanmoins, déjà dans les années 1990, des travaux tendaient à suggérer que cet ADN poubelle n'était pas uniquement composé de séquences aléatoires et portait une information biologique, voire que certaines de ces régions étaient conservées entre l'humain et la souris. Des expériences menées au début des années 2000 avaient de plus montré que l'annotation du génome humain, c'est-à-dire la connaissance des positions des gènes et de leur structure (les exons et les introns en particulier, on parle aussi de modèle de gène) était encore très lacunaire. Ces expériences, dites de « tiling arrays », consistaient à utiliser des puces à ADN avec des sondes correspondant chacune à un bout de la séquence d'un chromosome, de façon que toute la séquence du chromosome soit représentée sur la puce. L'ensemble des transcrits humains étaient ensuite déposés sur la puce, de façon à pouvoir détecter ceux qui s'hybridaient avec les sondes de la puce, et qui étaient donc transcrits depuis le chromosome en question. Plusieurs hypothèses tentaient d'expliquer ces lacunes :
- soit les modèles de gènes de l'époque étaient simplement incomplets,
- soit les gènes nouvellement détectés lors de ces expériences n'étaient pas suffisamment exprimés pour avoir été détectés jusqu'alors,
- soit enfin les filtres appliqués sur les séquences ayant servi à créer les modèles, et pensés pour ne retenir que les gènes avec un potentiel codant, avaient éliminé des séquences transcrites, mais non codantes.
C'est la dernière hypothèse qui s'avèrera exacte.
En plus de ces observations générales à l'échelle du génome, des études plus ciblées ont mise en évidence l'existence de gènes transcrits et apparemment dépourvus de potentiel codant.
Mise en évidence de l'existence de gènes non-codants
L'idée que des ARN puissent ne pas seulement être des intermédiaires entre l'ADN et les protéines n'était pas neuve au début du XXIe siècle, puisque les découvertes des ARN ribosomiques et des ARN de transfert sont antérieures (1955 et 1957, respectivement) à celle des ARN messagers (1961). À la fin des années 1980 apparait par ailleurs l'hypothèse du monde à ARN, basée sur une l'idée proposée en 1962 que l'ARN soit le précurseur des macromolécules biologiques (en particulier l'ADN et les protéines). L'hypothèse s'appuie sur le fait que l'ARN puisse être considéré comme un support d'information génétique (le génome des virus à ARN par exemple), sur les observations que des ARN sont capables d'activités catalytiques (on parle de ribozymes) voire auto-catalytiques, et sur les observations de systèmes de régulations basés sur l'ARN (on parle de riboswitches).
En ce qui concerne les ARNlnc précisément, l'existence d'ARN régulant la transcription (appelés « RNA activators ») avait été théorisée à la fin des années 1960. Au début des années 1970, des « ARN hétérogènes nucléaires » (« heterogeneous nuclear RNAs »), surtout localisés dans le noyau cellulaire, avaient été mis en évidence. Finalement, en 1990, l'étude de gènes comme H19 (un gène sous empreinte parentale impliqué dans la croissance) ou Xist (impliqué dans l'inactivation du chromosome X) chez la souris révèlerons que leur produit fonctionnel est un ARNlnc et non une protéine.
La limite arbitraire des 200 nucléotides
Le seuil de 200 nucléotides pour séparer les catégories des ARN « longs » non-codants des ARN « courts » non-codants est arbitraire. Il pourrait avoir une raison expérimentale : les kits d'extractions des ARN utilisés dans une étude de 2007 sur les ARNlnc ne retenaient pas les ARN d'une taille inférieure.
Propriétés biologiques des ARNlnc
En plus de leur absence de cadres de lecture ouverts comparables aux gènes codants des protéines, les ARNlnc sont plus souvent présents dans la noyau cellulaire, ont un niveau d'expression (dit autrement, une quantité de transcrits) plus faibles et ont tendance à être exprimés dans moins de tissus.
Localisation cellulaire
Les ARNlnc sont préférentiellement localisés dans le noyau cellulaire, par contraste avec les ARN messagers qui sont pour leur part exportés vers le cytoplasme, où ils subissent la traduction. Au sein du noyau, les ARNlnc sont particulièrement enrichis dans la chromatine, en particulier dans les speckles (des domaines contenant des protéines associées à la transcription et la maturation des ARN messagers) et les paraspeckles (des domaines impliqués dans la rétention des ARN messagers dans le noyau), ce qui est à rapprocher de leurs fonctions connues ou supposées de régulateurs de l'expression d'autres gènes. Des ARNlnc ont également été mis en évidence dans le nucléole.
Les ARNlnc ne sont pour autant pas uniquement nucléaires, puisqu'on en trouve également dans le cytoplasme, associés avec des ribosomes, au sein des mitochondries, dans les membranes cellulaires et même dans des exosomes.
Niveau d'expression
Le niveau d'expression d'un gène correspond à un proxy du nombre de transcrits de ce gène dans un échantillon donné. Il se mesure notamment par RNA-seq, micro-array, ou encore RT-PCRq. Pour les ARN lnc ce niveau est environ 10 fois plus faible pour les ARNlnc que pour les ARN messagers.
Tissu-spécificité
L’expression des ARNlnc est plus "tissu-spécifique" que celle des ARNm, issus des gènes codants. Les ARNlnc ont donc une plus forte tendance que les ARNm à être exprimés dans quelques tissus d'un organisme à un niveau donné, et à des niveaux bien plus faibles dans les autres, voire exprimés uniquement dans un tissu et pas du tout dans les autres.
Le pourcentage d'ARNlnc tissu-spécifiques varie selon la méthode employée pour déterminer la tissu-spécificité, ou encore selon le nombre de tissus considérés. Selon les études donc, on estime que 60 à 80% des ARNlnc sont tissu-spécifiques (contre 20% à 30% des ARNm).
Le testicule est par ailleurs un tissu dans lequel semble se trouver un grand nombre de LNC tissus-spécifiques.
Conservation
Contrairement aux gènes codants des protéines, les gènes à ARN longs non-codants sont très peu conservés en séquence entre les espèces. Les exons des ARNlnc subissent néanmoins une pression de sélection plus forte que les régions inter-géniques environnantes ou que les introns. Les régions promotrices et les séquences en amont des sites d'initiation de la transcription subissent également une pression de sélection, et sont même mieux conservés entre espèces pour les gènes à ARNlnc que pour les gènes codants. Il semble enfin que des paires « gène codant une protéine — promoteur de gène à ARNlnc » soient conservées entre espèces.
En revanche, il a été montré que des gènes à ARN longs non-codants présentent une conservation synténique, c'est-à-dire que leur position par rapport à d'autres gènes (conservés) est la même d'une espèce à l'autre. Finalement, un petit nombre de gènes à ARNlnc présente bien une conservation en séquence et en structure (nombre d'exons par exemple), comme MALAT1 ou NEAT1