Algorithmes sur les séquences en bioinformatique
Short Description
Download Algorithmes sur les séquences en bioinformatique...
Description
Îles CpG
M2 - STL
CpG = paire de nucléotides, ou C est suivi par G, qui apparaît sur une chaîne d’ADN CpG est une paire relativement rare dans les séquences d’ADN. D’autre part si on regarde des séquences courtes, d’une centaine de nucléotides, la paire CpG est plus fréquente. Ces sous-séquences sont appelée îles CpG et elles apparaissent surtout dans les régions promotrices ou les régions d’initiation des gènes.
Algorithmes sur les séquences en bioinformatique
Problèmes: Étant donnée une séquence d’ADN courte, établir si elle provienne d’une île CpG
Cours 4: Algorithmes de recherche de motifs, chaînes de Markov et échantillonage de Gibbs
Étant donnée une séquence d’ADN longue, localiser toutes les îles CpG.
Alessandra Carbone Université Pierre et Marie Curie
Rappel sur les chaînes de Markov Soit Σ un langage (fini).
Supposons que X=(x1,…,xL) soit une séquence issue d’un processus aléatoire avec mémoire de longueur 1, c-a-d que la valeur de la variable aléatoire xi dépend seulement de son prédécesseur xi-1:
Une chaîne de Markov est un triplet (Q,{p(x1=s)},A) où : - Q est un ensemble fini d’états. Chaque état correspond a un symbole dans le langage Σ
∀s1,…,si∈Σ P(xi=si|x1=s1,…, xi-1=si-1) = P(xi=si|xi-1=si-1) = asi-1,si
- P ensemble de probabilités associées à l’état initiale - a est le fonction probabilité de la transition entre états, dénotée ast pour chaque paire d’états s,t ∈Q. Pour s,t ∈Q on a que ast = P(xi=t|xi-1=s)
A
T
La probabilité de la séquence X est alors:
Begin
Une chaîne de Markov pour modéliser l’ADN ; Begin état initiale et End état finale.
A.Carbone - UPMC
P(X) = p(x1)·Πi=2L axi-1,xi
End
C
G
3
A.Carbone - UPMC
4
1
Problème: Identification d’une île CpG Entrée: une séquence d’ADN courte X=(x1,…,xL) ∈Σ , où Σ = {A,C,G,T} Question: décider si X est une île CpG
On utilisera deux modèles de chaînes de Markov : l’une pour l’analyse des îles CpG (le modèle « + ») et l’autre pour l’analyse hors des îles CpG (le modèle « - »)
Probabilité de transition dans îles CpG et hors îles CpG
Soit ast+ la probabilité de transition de s,t ∈Σ dans une île CpG et soit ast- la probabilité de transition hors d’une île CpG.
Région hors îles CpG
Iles CpG
On calcule alors un score de vraisemblance logarithmique pour la séquence X: P( X | île CpG) Score(X) = log ----------------------------- = P( X | non île CpG)
Σi=1L
a+xi-1,xi log ----------a-xi-1,xi
Plus fort le score, plus forte la chance que X soit une île CpG A.Carbone - UPMC
5
Problème: Identification d’une île CpG dans une séquence d’ADN Entrée: une séquence d’ADN longue X=(x1,…,xL) ∈ΣL , où Σ = {A,C,G,T} Question: localiser l’île CpG dans X
A.Carbone - UPMC
Exemple de profile de scores attendus (scores normalisés selon la longueur des séquences)
6
Meilleure solution:
Approche naïve: définir une fenêtre glissante Xk= (xk+1…xk+l) de longueur l (où l
View more...
Comments