Un gène en 2015

January 8, 2018 | Author: Anonymous | Category: Science, Biologie, Biochimie, Génétique
Share Embed Donate


Short Description

Download Un gène en 2015...

Description

UE11 –Parcours 3- Génétique – Cours 2 2/03/2016 Juliette Albuisson [email protected]

RT : Clémence Bodin Caroline Bogeat RL :

Projet Encode et définition d’un gène Plan : PREMIERE PARTIE

I. Concept de gène et évolution dans son histoire A- Le gène, unité d’hérédité B- Le gène, un locus distinct C- Le gène, une molécule physique D- Le gène, un code transcrit E- Le gène, une séquence avec une phase ouverte de lecture F- Le gène, une entité annotée et répertoriée dans des bases de données II. Le projet ENCODE A- Présentation générale B- Définition d’un élément fonctionnel C- Les méthodes 1) RT-PCR 2) 5C 3) DNAseSeq/FaireSeq 4) ChipSeq 5) ARNseq D- Exemple de profil Encode E- Résultats Deuxième Partie I. GENECODE II. Impact de ENCODE en génétique médicale A- Généralités

B- Exemples 1) Micros ARN 2) Long ARN non codant 3) Gènes Hox 4) Maladie de Hirschprung C- Interprétation des résultats de GWAS III. Un gène en 2015

I. Concept de gène et évolution dans son histoire A- Le gène, unité d’hérédité 1865 : Mendel parle de caractères (le mot gène n’existe pas). Il s’agit d’une notion exclusivement phénotypique.

B- Le gène, un locus distinct 1909 : Johannsen invente le terme gène et fait la distinction entre génotype et phénotype. Il affirme qu’il « faut traiter le gène comme une unité de comptage ou de calcul, nous n’avons aucunement le droit de définir le gène comme une structure morphologique ». L’aspect moléculaire et physique du gène est encore inconnu. 1910 : Morgan, par l’étude phénotypique de croisement de drosophiles, détermine que les gènes sont disposés linéairement sur les chromosomes (déjà connus à l’époque) et qu’ils sont capables de crossing-over, proportionnellement à la distance les séparant. 1913 : Mise en évidence de la localisation génétique et établissement d’une carte génétique. Ainsi le gène classique (entité sans support biologique connu) est une unité indivisible de : o fonction : le gène code pour une information (un caractère) o mutation : des variants du gène peuvent coder des caractères différents o recombinaison

C- Le gène, une molécule physique En 1927-1928, Müller a montré par des travaux de mutagenèse induite par rayon X qu’en modifiant le gène, le phénotype était lui aussi modifié. L’idée de séquence génomique était cependant inconnue. Griffith démontre la transformation (transfert d’un caractère héréditaire d’une espèce à une autre). Cela prouve qu’un gène est transférable et qu’il devient par la suite héréditaire. Ces travaux permettent de pressentir qu’il existe un support physique à cette information. Dans les années 40, l’ADN est présenté comme le support chimique de l’hérédité. Le gène est alors défini comme une unité fonctionnelle, correspondant à une portion d’ADN continue et limitée (notion de locus). Les gènes ne se chevauchent pas et la fonction d’un gène est celle de la protéine correspondante. En 1953 Watson et Crick (et Rosalind Franklin) montrent que l’ADN est une structure en double hélice, ce qui permet son auto-réplication.

D- Le gène, un code transcrit En 1958 la notion de transcription (intermédiaire entre gène et protéine) apparaît. En 1961, Jacob et Monod font le lien entre la molécule et l’information correspondante. Ils montrent que le patron de l’expression des gènes est l’objet d’une régulation (travail sur l'operon lactose).

E- Le gène, une séquence avec une phase ouverte de lecture En 1965, le code génétique est caractérisé et le cadre ouvert de lecture est découvert. En 1972 la première séquence de gène est déterminée (séquençage d’un gène d’un bactériophage). La structure des gènes est plus complexe que ce que l’on pensait. Les gènes sont morcelés en système d’introns et d’exons (par Sharp et Roberts) avec un code pour la jonction intron/exon. Il existe un mécanisme d’épissage.  On perd la notion de gène continu.

F- Le gène, une entité annotée et répertoriée dans des bases de données GENESCAN a permis d’identifier de nombreux gènes. L’introduction d’informations sur le cadre ouvert de lecture, les promoteurs, le site d’initiation de la transcription a permis de créer un algorithme et d’identifier des gènes grâce a une structure commune. Enfin en 2001, on a la première version du séquençage complet du génome humain. Les gènes « classiques » répondant à l’algorithme Genescan ont donc pu être identifié. 1% de l’ADN est ainsi identifié. Se pose alors la question de savoir à quoi sert le reste. Les partisans du « junk DNA » s’opposent à ceux du « tout informatif » Pearson en 2006 définit le gène comme « une région génomique localisable qui constitue une unité de transmission, comportant des régions transcrites et des séquences fonctionnelles comme le promoteur et les séquences régulatrices. »

II.

Le projet ENCODE A- Présentation générale

Ce projet de 10 ans (2003-2012), fondé sur un investissement de 280 millions de dollars, a assemblé des dizaines de laboratoires et des centaines de scientifiques. Ils ont regardé 147 lignées cellulaires et étudié la fonctionnalité de l’ensemble de l’ADN.

Le génome humain avait déjà été séquencé, le but était de faire de l’annotation fonctionnelle de ces séquences, pour déterminer leur rôle. La méthodologie était de conduire des études fonctionnelles sur l’ensemble du génome. Chaque équipe menait un type d’analyse particulier et les résultats furent mis en commun. Il y a 4 grands axes d'étude de cette opération ENCODE :  transcription (production d'ARN, codant ou non)  régulation (étude promoteur, enhancer, silencer, facteur de transcription, structure en 3D, méthylation, état chromatinien)  conservation entre les espèces  implication dans les maladies. Une des missions d’ENCODE était d’assurer l’accès et la diffusion des données (on peut facilement retrouver sur internet ces différentes données). 147 types cellulaires différents ont été analysés au total en 2012. Il s’agit de cellules cancéreuses, embryonnaires ou immortalisées, ou même endothéliales (forte capacité de multiplication). Il y a eu 3 volets au projet et le nombre de types cellulaires inclus dans le projet a augmenté à chaque fois, grâce à l’amélioration du haut début parallèlement au projet ENCODE.

B- Définition d’un élément fonctionnel Un élément fonctionnel est un segment du génome humain qui est associé à une quelconque caractéristique biochimique (acétylation des histones, hypersensibilité à la DNAse…) dans au moins une lignée ENCODE.

C- Les méthodes

1) RT-PCR Permet d’avoir tous les transcrits du gène (y compris alternatifs).

2) 5C

Cette expérience permet de révéler l'organisation en 3D du génome et donc la proximité entre les séquences. 1) On crée des liaisons covalentes entre les séquences proches (pas à la suite sur un même chromosome, la chromatine est entièrement emmêlée dans le noyau). 2) Par l’action d’une enzyme de restriction ainsi que d’une ligase on obtient un brin d’ADN chimérique qui contient les 2 portions d’ADN normalement proches dans le noyau et qui sont maintenant bout à bout. 3) Par une approche haut débit, on séquence et identifie les portions chimériques et donc les 2 gènes qui interagissent ensemble.

3) DNAseSeq/FaireSeq Ces deux techniques permettent d’identifier les sections ouvertes (euchromatiniennes) > sites de fixation des FT, séquences régulatrices à distance ou à proximité des gènes (promoteur, enhancer, supressor, insulator). Ces zones sont peu liées aux histones et particulièrement sensibles à la DNAse. Les deux techniques sont équivalentes, l’information fournie est la même. DNAseSeq : La DNAse est une enzyme de digestion de l’ADN. Elle ne peut marcher que si l’ADN est accessible, c'est-à-dire que si la portion d’ADN est ouverte et non fixée aux histones (la chromatine est protégée par sa situation condensée et par les nucléosomes). On séquence ensuite les régions adjacentes à la séquence digérée et on obtient donc l’ensemble des portions ouvertes de l’ADN. Faire-seq : Il s’agit de créer des liaisons covalentes définitives (crosslinking) avec les histones par du formaldéhyde. Tout ce qui est fixé est éliminé et on récupère donc ce qui n’est pas lié aux histones pour le séquencer.

4) ChipSeq Le chIP-seq identifie les sites de fixation de FT connus (Encode a ciblé des FT dont on connaît le rôle et qui sont relativement ubiquitaires).

Il s’agit d’une immunoprécipitation d’un FT connu avec son Ac. On récupère le précipité et on le séquence de manière massive. On obtient donc l’ensemble des séquences qui sont des sites de fixation de ce FT connu. Le séquençage basique permet de déterminer (par prédiction bioinformatique : GENESCAN) des sites où le FT peut se fixer. Ici, Encode liste les sites où le FT se fixe réellement (importance de la conformation, du type cellulaire…)

5) ARNseq Permet de savoir ce qui est transcrit sur le génome entier (codant et non-codant). On extrait l’ARN présent dans une cellule, on le tag et on séquence tout en bloc. Il s’agit du même concept que pour le séquençage d’ARN de protéine avec les tag polydT qui s’hybrident aux queues polyA de ces ARN, mais il s’agit cette fois ci de séquencer aussi les ARN non traduits. Cette méthode a aussi permis d’identifier des ARN alternatifs (épissage différent) présents en très faible proportions et qui n’avait pas pu être détectés par RT-PCR.

D- Exemple de profil Encode

Il s’agit d‘une cartographie de résultats Encode. On a ici un segment d’ADN humain qui est localisé sur le chromosome 5. Il mesure 1,5 Mb et contient 7 gènes (C9, DAB2, OSRF…). On voit à chaque fois représentée la structure du gène (c’est le petit dessin à côté du nom du gène) avec par exemple deux exons et un intron pour PTGER4 (une barre verticale représente un exon et une barre horizontale un intron). On observe un désert de gène d’1 Mb entre les deux groupes de gène. La chIP-seq nous montre la fixation de FT différents (GTA2, cFOS) dans la lignée HUVEC au niveau de ce désert de gène, ce qui montre qu’il peut s’agir d’une séquence de régulation à distance. La DNAse-seq montre une hypersensibilité au même endroit que là où les FT se fixent et ce dans plusieurs types celulaires (Jurkat, Th1, Th2). On peut en déduire qu’il existe donc un site de fixation à ce niveau, présent dans plusieurs lignées différentes.

Grâce à ENCODE on sait donc que cette région est un élément fonctionnel.

E- Résultats La quantité d’information recueillie est considérable, on se retrouve dans une problématique de Big Data où il est impératif de savoir faire le tri.

Ce qui est testé

Nombre de types cellulaires étudiés

Testé sur :

Résultats

RNAseq

Transcription

15

Tout le génome

60% pour une lignée cellulaire donnée

ChIPseq

Sites de fixation de FT connus

72

120 FT sur tout le génome

8% de séquence fixent ces FT donnés

Tout le génome

4% du génome est régulateur

Technique utilisée

DNAseSeq FaireSeq

Séquences régulatrices

125 25

Histone ChIPseq

Euchromatine/Hétérochromatine (méthylation, acétylaton)

46

RBBS

Méthylation de l'ADN

82

5C

Interactions 3D

4

Chiapet

Interactions 3D

5

12 56% modifications d'euchromatine sur tout le pour un type génome cellulaire donné 1 million d'ilots CpG 1% du génome RNApolII

*RBBS : traitement de l’ADN au bisulfite. Les cytosines non méthylées sont transformées en uracile et celles qui sont méthylées sont préservées. On séquence l’ADN et l’uracile devient thymine. En comparant par rapport à une séquence de référence, on identifie les C transformés en T et donc les portions méthylées de l’ADN. Si l’ADN est méthylé au niveau d’un promoteur, le gène est réprimé, si la méthylation a lieu au niveau du gène, il est exprimé. *Chia pet : étudie les interactions 3D. C’est le même principe que pour la 5C sauf que le crosslinking se fait par les protéines liées à l’ADN (ici, avec la polyméraseII). Conclusions : Il existerait 20000 gènes de protéines et 18000 gènes d’ARN non traduits (servant à la régulation).

80% du génome a un objectif biologique quelconque dans au moins une lignée cellulaire, à au moins un moment de la vie de cette lignée cellulaire. 60% du génome est transcrit dans une lignée cellulaire donnée (quand on cumule l’ensemble des lignées, 80%du génome est transcrit, la différence n’est donc pas majeure entre les lignées). 5% pour les exons (déjà montré par GENCODE) 65% pour les introns 30% dans les régions inter-géniques (NOUVEAU et inattendu) Les découvertes par rapport à GENCODE : +94800 exons (+20%) +69000 sites d’épissage (+20%) +73000 transcrits (+45%) et notamment des transcrits mono-exoniques qui n’avait pas été repéré par GenScan (pas de site d’épissage : échappe à l’identification par similitude) et mal amplifié par RT-PCR. +41000 gènes (+80%). Pour la plupart ce ne sont pas des genes de protéines. Cependant, Encode ne permet pas de déterminer à quoi servent ces séquences. 8% du génome correspond à des sites de liaison de facteurs de transcription (pour les 120 ubiquitaires testés). Il y a 640 000 régions de liaison à des FT. 15 % de notre génome est concerné par l’ouverture chromatinienne dans un type cellulaire donné, c'est à dire l'espacement entre deux nucléosomes pour laisser l'accessibilité de l'ADN à des facteurs de transcription et pour laisser une transcription se faire. Plus de la moitié du génome est touchée par des modifications d’histones (très variable d’un type cellulaire à l’autre). La méthylation de l’ADN est majoritairement dans le gène et est en corrélation avec une chromatine ouverte. On trouve une méthylation allèle spécifique. 1 site d’initiation de transcription interagit avec 4 régions (gènes) très éloignées (mais bien souvent sur le même chromosome). Un complexe ARN-polyméraseII travaille sur plusieurs gènes en même temps (le plus souvent sur un unique chromosome).

I.

GENECODE

Ce sont des versions nouvelles de ENCODE qui régulièrement vont mettre à jour le profil fonctionnel du génome humain. De nombreuses études ont été menées, il en existe donc plusieurs versions : aujourd’hui, on en est à la version 14 (v14). Ce sont des résultats d’annotations, c’est-à-dire que pour chaque gène, on détermine si c’est un pseudogène, s’il code pour une protéine, pour un ARN non codant, … Les annotations peuvent être automatique ou manuelles, les annotations automatiques génèrent beaucoup d’erreurs, mais les annotations manuelles prennent énormément de temps. Par exemple, le diagramme en haut à gauche montre le nombre de gènes codant pour des protéines répertoriés dans chaque version de GENCODE (3 à 7 ici). On constate que leur nombre n’a pas beaucoup évolué, en étend tout de même revu à la baisse entre les versions 3 et 4. Le diagramme en haut à droite présente le nombre de pseudogènes, on peut voir qu’ils sont plus nombreux que ce qu’on pensait avant.

De même le diagramme en bas à gauche montre que les gènes codant pour des ARN non codants sont plus nombreux que ce qu’on pensait. Tous les résultats du projet ENCODE et de GENCODE sont regroupés sur un site internet :

http://www.nature.com/encode/#/threads Attention cependant à ne pas se perdre dans la masse d’information présentée ! Mais il est très intéressant pour avoir une idée globale de la structure du génome. En réalité, pour pouvoir tirer des résultats significatifs de toutes ces données, il faut une puissance statistique (en travaillant sur d’immenses cohortes pur avoir le plus de phénotypes

possible) dont on ne dispose pas encore aujourd’hui. Il existe donc assez peu d’articles tirés de ces données. Les données recueillies lors des études ENCODE/GENCODE sont déposées dans des catalogues GWAS. Ce sont des associations SNP-phénotype de maladies comme le diabète par exemple.

II.

Impact de ENCODE en génétique médicale A- Généralités

Ce diagramme montre la répartition des séquences pour chacune des fonctions étudiées dans ENCODE pour un type cellulaire donné :

CDS = Séquences exoniques Pour l’instant, on connait une petite partie des maladies génétiques dues à des séquences exoniques : on en connait quelques milliers alors qu’il y en aurait plusieurs centaines de milliers. On envisage donc des maladies dues à des ARN non codants ou à des séquences régulatrices, des séquences d’épissages, ...

B- Exemples La suite de cette partie va donc présenter quelques exemples de maladies génétiques causées par des anomalies d’ARN non codants.

1)

Micros ARN

Des délétions touchant exclusivement un groupe de micro ARN (mir17-92), mais sans toucher les gènes voisins codants, sont responsables d'un syndrome mendélien malformatif à transmission autosomique dominante. Ce syndrome correspond à une anomalie des doigts (raccourcissement des 2èmes phalanges). Une étude menée sur une famille touchée par CGH array a montré une délétion de grande taille, et la même étude chez une deuxième famille a montré une délétion plus petite mais superposable à la première.

On a émis l’hypothèse que ce cluster de miARN jouait un rôle important dans la mise en place du patron de mise en place des phalanges chez l’embryon. On a ensuite testé cette hypothèse sur un modèle murin.

2)

Long ARN non codant

Il existe de nombreux exemples, notamment sur les régions soumises à empreint parentale. L’encéphalopathie progressive « RAVINE » obéit à un mode de ségrégation autosomique récessif, qui a donné lieu à une cartographie génétique du chromosome 8 dans une région où il y avait 4 gènes. Ces gènes ont été séquencés totalement et on n’a rien trouvé. La seule mutation qu’on a trouvée se situait dans un intron qui portait les gènes de deux longs ARN non codants. Un autre exemple est le transcrit du gène Xist qui intervient dans la mise en place de l’inactivation de l’X chez la femme. Il s’agit encore d’un log ARN non-codant antisens qui va recouvrir certaines séquences du chromosome X et induire sa méthylation. On ne connait pas de maladies liées à ce mécanisme.

3)

Gènes Hox

Le cluster Hox contient des gènes du développement à l’origine du patron de développement de plusieurs parties du corps chez l’embryon, et notamment au niveau des membres. Les gènes Hox codent pour des ARN non codants. Chez la souris, le développement des doigts est contrôlé par l’interaction entre des séquences régulatrice et un promoteur du cluster Hox D. Ces séquences régulatrices sont conservées chez l’Homme et chez la souris, ce qui témoigne de leur importance dans le développement.

4)

Maladie de Hirschprung

Elle entraine une anomalie des cellules nerveuses intrinsèques au niveau du colon et du tube digestif en général.

Elle est liée à une mutation dans l’intron 1 du gène RET. Là encore, on retrouve une forte conservation entre plusieurs espèces, ce qui est très évocateur d’une fonction importante dans la régulation de l’expression du gène RET. Les séquences régulatrices (enhancer, silencer) sont des séquences non codantes, mais qui modulent de façon importante l’expression des gènes codant pour les protéines, notamment au cours du développement. Ils peuvent être tissu spécifiques.

C- Interprétation des résultats de GWAS Comme introduit précédemment, l’interprétation de ces résultats demande une puissance statistique dont on ne dispose pas encore aujourd’hui ou très peu. Les données sont disponibles dans les catalogues GWAS, qui regroupe des études d’association SNP-phénotype de maladie. On a pu établir ces associations par SNP array. Un SNP array permet de séquencer et de rechercher des SNP chez un individu. L’hypothèse posée est que plusieurs individus souffrant d’une même maladie possèdent les même SNPs. Ces études d’association nécessitent donc d’inclure de nombreux individu malades, et aussi des individus sain pour pouvoir comparer la fréquence d’apparition des SNP à des contrôles. Les études ont montré que les SNP responsables de maladies comme le diabète, l’hypertension, la polyarthrite rhumatoïde, étaient essentiellement localisées dans des régions non codante, et surtout dans les enhancer et les éléments de réponse aux facteurs de transcription, dans des régions sensibles aux DNases.

Les résultats de GWAS sont présentés sur des Manhattan plots :

Le seuil de significativité est la ligne la plus haute. On constate que seul un SNP se démarque des autres (zone grise) pour la maladie étudiée (l’autisme dans cet exemple).

III.

Un gène en 2015

La première conclusion est qu’il y a moins de gènes codants pour des protéines que prévu (environ 20 000), mais il y a plusieurs transcrits pour chaque gène, ce qui fait un total d’environ 80 000 transcrits. Soit 4 transcrit pur un gène. Il existe environ 20 000 transcrits non codants, avec environ 2 transcrits pour un gène. La diversité et la complexité du génome ne réside donc pas dans le nombre de gènes, mais dans le nombre et la variété des transcrits. Par rapport aux précédentes, la nouvelle définition du gène est donc modulée par : -

une structure moléculaire complexe des fonctions transcrites ou codées variées une régulation fine un environnement (chromatinien) modulable (code des histones) : épigénèse une « phylogénèse » (conservation, duplication ...) « gène – protéine » (prion) ?

On observe qu’au cours de l’évolution, c’est la proportion de séquences transcrites non codantes qui augmente : aucune chez la levure, contre près de 60 % du génome entier chez l’Homme.

4/ On a aussi découvert l’existence de transcrits chimériques Et l’importance des séquences régulatrices dispersées.

En conclusion :

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF