Eléments en théorie des probabilités et en

January 13, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Eléments en théorie des probabilités et en...

Description

Eléments en théorie des probabilités et en statistiques Damien Nouvel

Damien Nouvel (Inalco)

Probabilités et statistiques

1 / 15

Généralités

Scrabble : un sac avec des lettres (simplifié : lettres A et B) ñ Chances de tirer la lettre A ? §

• Modèle du “monde” (probabilités) à l’aide de connaissances • Calcul par rapport à un historique de données (statistiques)

ñ Deux tirages, quelles chances de tirer deux fois B ? • Combinatoire (énumération des lettres pour deux tirages)

ñ Modélisation du monde (probabilités) versus données sur le monde (statistiques) ñ Discret (probabilités) versus continu (statistiques) Damien Nouvel (Inalco)

Probabilités et statistiques

2 / 15

Théorie des probabilités

Plan 1. Théorie des probabilités 2. Statistiques

Damien Nouvel (Inalco)

Probabilités et statistiques

3 / 15

Théorie des probabilités

Terminologie et notations §

Modélisation du “monde des possibles” tΩ, A, Pu : • Ensembles Ω et événements A • Mesure de probabilité d’événements P(A) P [0, 1] • Combinaisons et dépendances entre événements

ñ Etat du monde (abstraction de l’aspect temporel) §

Notations pour des événements tA, Bu : • • • •

Négation : A Intersection (conjonction, probabilité jointe) A X B Union (disjonction) A Y B Dépendance : A sachant B, P(A|B)

ñ Un symbole pour un événement ? § Variable aléatoire X telle que X P tA, B . . . Zu ñ Valeurs symboliques (discrètes) ou numérique (continues) Damien Nouvel (Inalco)

Probabilités et statistiques

4 / 15

Théorie des probabilités

Axiomes de probabilités §

Lois générales : • P(A Y A) = 1 • P(A Y B) = P(A) + P(B) ´ P(A X B) • Si A et B sont disjoints : • A X B = ∅ et P(A X B) = 0 • P(A Y B) = P(A) + P(B) • Si A et B sont indépendants : • P(A X B) = P(A) ˚ P(B) ñ “Il n’y a pas de corrélation entre ces deux événements”

§

Théorème de Bayes : • P(A X B) = P(A|B) ˚ P(B) = P(B|A) ˚ P(A)

ñ “La probabilité qu’une intersection d’événements se produise est celle que l’un des deux se produise multipliée par celle que l’autre se produise sachant que le premier s’est produit (et inversement)” Damien Nouvel (Inalco)

Probabilités et statistiques

5 / 15

Théorie des probabilités

Quelques calculs en combinatoire §

À partir d’un ensemble de n éléments • Sous-ensembles possibles : 2n • Tirer k éléments avec remise et ordonnés • nk possibilités

ñ Tirer trois six en jetant trois fois un dé • Tirer k éléments sans remise et ordonnés • Si k = n alors k! arrangements (permutations) possibles n! • Sinon Akn = arrangements possibles (n ´ k)!

ñ Tirer valet, dame, roi (dans l’ordre) parmi les cœurs • Tirer k éléments sans remise sans ordre • Une combinaison de k éléments donne k! arrangements ( ) Ak n! • Donc nk = n = combinaisons possibles k! k!(n ´ k)!

ñ Tirer un valet, une dame et un roi parmi les cœurs Damien Nouvel (Inalco)

Probabilités et statistiques

6 / 15

Théorie des probabilités

Lois de probabilités §

Distributions de probabilités : • Une variable aléatoire X • Une loi L avec paramètres (p1 , p2 . . . pn )

ñ X suit la distribution L(p1 , p2 . . . pn ), noté X „ L les probabilités des réalisations de X sont calculables §

Quelques lois courantes : • • • • •

Uniforme : tous les événements sont équiprobables Bernouilli : un seul tirage à deux issues Binomiale : plusieurs tirages sans remise à deux issues Multinomiale : plusieurs tirages à plusieurs issues Normale (Gauss, gaussienne, Laplace-Gauss) : cloche

Deux fonctions pour calculer les probabilités : • Densité de probabilité : P(X = a) • Fonction de répartition : P(X ă a) (intégrale de densité) Damien Nouvel (Inalco)

Probabilités et statistiques

7 / 15

Statistiques

Plan 1. Théorie des probabilités 2. Statistiques

Damien Nouvel (Inalco)

Probabilités et statistiques

8 / 15

Statistiques

Séries de données § §

Utilisation des probabilités au regard de données Soit une série x de données (x1 , x2 . . . xn ) : • Les indices ne sont pas (forcément) liés au temps : • Tirages indépendants de lettres • Positions dans un texte • Objets d’une base de données • Un échantillon est une sous-partie de la série • Calculs d’estimateurs : 1 ř • Moyenne µx = xi n i=1...n ñ aussi notée x (aucun rapport avec la négation) ou |X| 1 ř • Variance V(X) = (xi ´ µx )2 n i=1...n c a 1 ř • Ecart-type σx = V(X) = (xi ´ µx )2 n i=1...n

Damien Nouvel (Inalco)

Probabilités et statistiques

9 / 15

Statistiques

Covariance et corrélation § §

Comparer deux séries (x1 , x2 . . . xn ) et (y1 , y2 . . . yn ) Covariance (produit des variances à la moyenne) : ř • σxy =

1 n

(xi ´ µx ) ˚ (yi ´ µy )

i=1...n

• Exemple covariant (1) : • x = (1, 3, ´2) et y = (5, 10, ´3), µx = 0, 66 et µy = 4 • σxy = (1/3) ˚ ((1 ´ 0, 66) ˚ (5 ´ 4) + (3 ´ 0, 66) ˚ (10 ´ 4) + (´2 ´ 0, 66) ˚ (´3 ´ 4)) = 11 • Exemple non covariant (2) : • x = (1, 3, ´2) et z = (3, ´5, 2), µx = 0, 66 et µz = 0 • σxz = ´5, 33

ñ Grande lorsque les variables varient ensemble §

Coefficient de corrélation (Bravais-Pearson) :

σxy σx ˚ σy • Exemples : rxy = 0.99 et rxz = ´0.73 ñ Valeur dans [´1, 1] (de covariant à contravariant) • rxy =

Damien Nouvel (Inalco)

Probabilités et statistiques

10 / 15

Statistiques

Statistiques discrètes pour la linguistique ñ Linguistique et statistiques ne font pas bon ménage... § Séries : quel ordre pour les termes : • Lexicographique ? • Par fréquences ? • Par « poids sémantique » ? §

Problèmes d’échantillonnage : • Eparpillement des données (données éparses, sparsity) • Ressources complémentaires • Sélection de traits, régularisation • Valeurs manquantes : • Discrétisation d’échantillons (amplitudes, moyennes) • Fenêtres glissantes • Données marginales (outliers)

§

Problèmes de variation, de bruit, d’évolution...

Damien Nouvel (Inalco)

Probabilités et statistiques

11 / 15

Statistiques

Paradoxe de Simpson

§

Source : Science étonnante #7

Damien Nouvel (Inalco)

https://www.youtube.com/watch?v=vs_Zzf_vL2I

Probabilités et statistiques

12 / 15

Statistiques

Exemples de statistiques avec Python §

Fonction Python (somme) :

§

Fonction scipy (binomiale / normale) :

sum([1, 3, 7]) from scipy import stats print stats.binom(10,0.2).pmf(3) # loi binomiale print stats.norm(10, 3).pdf(10) # loi normale §

Fonctions numpy : • Calculer une moyenne et un écart-type : import numpy a = numpy.array([1, 5, 3]) numpy.mean(a) numpy.std(a) • Calculer une covariance et un coefficient de corrélation : b = numpy.array([3, 15, 2]) numpy.cov(a, b, bias=1)[0, 1] numpy.corrcoef(a, b, bias=1)[0, 1]

Damien Nouvel (Inalco)

Probabilités et statistiques

13 / 15

Statistiques

Aborder un problème statistique §

Questions de modélisation des probabilités : • • • •

Probabilité Probabilité Probabilité Probabilité

d’un événement ? de répétitions d’un événement ? jointe de deux événements ? d’un événement sachant un autre événement ?

ñ Travail préparatoire en déterminant • Variables à étudier • Valeurs qu’elles prennent (discrètes, continues) • Lois (distributions) de probabilités à utiliser

ñ Prévoir (et implémenter) les calculs à réaliser ñ Savoir comment visualiser les résultats ñ Autant possible, mesurer et évaluer la solution Damien Nouvel (Inalco)

Probabilités et statistiques

14 / 15

Statistiques

Exercice §

Sur le corpus • Nombre de mots par phrase • Calculer la moyenne du nombre de mots par phrase. • Calculer l’écart-type du nombre de mots par phrase. • Déduire la densité théorique du nombre de mots par phrase. • Visualiser et comparer avec celle des données. • Nombre d’entités nommées par mot(s) • Combien de phrases contiennent trois entités ? • Quelle loi modélise la probabilité qu’un mot soit une entité ? • Comment estimer cette probablité à partir des données ? • Quelle loi permet de calculer cette probabilité pour n mots ? • Calculer la densité théorique du nombre d’entités par phrase. • La comparer avec cette même densité dans les données. • Corrélations • Les nombre de mots / entités sont-ils corrélés ? • Quelles entités sont corrélées les unes aux autres ?

Damien Nouvel (Inalco)

Probabilités et statistiques

15 / 15

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF