Algorithmes sur les séquences en bioinformatique

January 14, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download Algorithmes sur les séquences en bioinformatique...

Description

Îles CpG

M2 - STL

CpG = paire de nucléotides, ou C est suivi par G, qui apparaît sur une chaîne d’ADN CpG est une paire relativement rare dans les séquences d’ADN. D’autre part si on regarde des séquences courtes, d’une centaine de nucléotides, la paire CpG est plus fréquente. Ces sous-séquences sont appelée îles CpG et elles apparaissent surtout dans les régions promotrices ou les régions d’initiation des gènes.

Algorithmes sur les séquences en bioinformatique

Problèmes: Étant donnée une séquence d’ADN courte, établir si elle provienne d’une île CpG

Cours 4: Algorithmes de recherche de motifs, chaînes de Markov et échantillonage de Gibbs

Étant donnée une séquence d’ADN longue, localiser toutes les îles CpG.

Alessandra Carbone Université Pierre et Marie Curie

Rappel sur les chaînes de Markov Soit Σ un langage (fini).

Supposons que X=(x1,…,xL) soit une séquence issue d’un processus aléatoire avec mémoire de longueur 1, c-a-d que la valeur de la variable aléatoire xi dépend seulement de son prédécesseur xi-1:

Une chaîne de Markov est un triplet (Q,{p(x1=s)},A) où : - Q est un ensemble fini d’états. Chaque état correspond a un symbole dans le langage Σ

∀s1,…,si∈Σ P(xi=si|x1=s1,…, xi-1=si-1) = P(xi=si|xi-1=si-1) = asi-1,si

- P ensemble de probabilités associées à l’état initiale - a est le fonction probabilité de la transition entre états, dénotée ast pour chaque paire d’états s,t ∈Q. Pour s,t ∈Q on a que ast = P(xi=t|xi-1=s)

A

T

La probabilité de la séquence X est alors:

Begin

Une chaîne de Markov pour modéliser l’ADN ; Begin état initiale et End état finale.

A.Carbone - UPMC

P(X) = p(x1)·Πi=2L axi-1,xi

End

C

G

3

A.Carbone - UPMC

4

1

Problème: Identification d’une île CpG Entrée: une séquence d’ADN courte X=(x1,…,xL) ∈Σ , où Σ = {A,C,G,T} Question: décider si X est une île CpG

On utilisera deux modèles de chaînes de Markov : l’une pour l’analyse des îles CpG (le modèle « + ») et l’autre pour l’analyse hors des îles CpG (le modèle « - »)

Probabilité de transition dans îles CpG et hors îles CpG

Soit ast+ la probabilité de transition de s,t ∈Σ dans une île CpG et soit ast- la probabilité de transition hors d’une île CpG.

Région hors îles CpG

Iles CpG

On calcule alors un score de vraisemblance logarithmique pour la séquence X: P( X | île CpG) Score(X) = log ----------------------------- = P( X | non île CpG)

Σi=1L

a+xi-1,xi log ----------a-xi-1,xi

Plus fort le score, plus forte la chance que X soit une île CpG A.Carbone - UPMC

5

Problème: Identification d’une île CpG dans une séquence d’ADN Entrée: une séquence d’ADN longue X=(x1,…,xL) ∈ΣL , où Σ = {A,C,G,T} Question: localiser l’île CpG dans X

A.Carbone - UPMC

Exemple de profile de scores attendus (scores normalisés selon la longueur des séquences)

6

Meilleure solution:

Approche naïve: définir une fenêtre glissante Xk= (xk+1…xk+l) de longueur l (où l

Algorithmes sur les séquences en bioinformatique

Short Description

Description

Comments

We need your help!