**TI82** TxtView file generated by CalcText - Kouri¾ ¯stats¯­ÿrienPompes statistiques Statistiques à une variable: “: population étudiée: ensemble des individus. X: caractère étudié, variable pour chaque individu (quantitatif: taille; ou qualitatif: couleur des yeux). Les modalités sont les différentes valeurs prises pour la variable. Cas discret; qu'on peut compter, qu'il soit fini ou infini. X est une variable discrète s'il existe un nombre fini ou infini dénombrable. Cas continu: qu'on ne peut pas compter: pas fini et pas dénombrable. Toutes les valeurs de X sont dans un intervalle de réels. X(“): l'ensemble des modalités. Distribution statistique: X(“)={x1, x2, ..., xp}. i va de 1 à p. On note ni nbre d'individus tq X=xi. L'ensemble {(xi, ni) 1œiœp} s'appelle la distribution statistique de X. Pour le cas continu on travaille sur des intervalles. Fréquence: fi=ni/n. Žfi=1. Représentations graphiques: - cas discret: diagramme en bâtons, les rectangles ne se touchent pas, les hauteurs des bâtons sont proportionnelles aux effectifs. - cas continu: histogramme, la largeur du rectangle dépend de la taille de l'intervalle, le nombre d'aire du rectangle est proportionnel à l'effectif. Courbe des effectifs ou des fréquences cumulées: Si on étudie une variable: effectifs cumulés = fréquences cumulées. Si on étudie deux groupes: si les effectifs sont identiques alors effectif = fréquence. Si effectifs différents alors il ne faut faire que de la fréquence. On fait le cumul croissant (ou décroissant). Valeurs caractéristiques: * Caractéristiques de position ou de tendance centrale: - Le mode: cas discret: le mode est la (ou les) modalités d'effectif le plus élevé. Cas continu: on considère la modalité de densité d'effectif la plus élevée (rectangle le plus élevé sur l'histogramme) - La médiane: modalités ordonnées. O coupe la pop en deux parties égales: 50% les plus faibles, 50% les plus élevés. On considère la médiane: modalité qui partage la pop en deux pop égales. On utilise pour cela les cumuls. - La moyenne: il faut ordonné et numérique. Moyenne de X: š = E(X)= 1/n*Ž(1->p) xi ni poour le cas discret. Cas continu: on prend une valeur représentative pour chaque intervalle: le milieu: 1/n*Ž (((ai+1)+ai)/2*ni) Propriété de la moyenne: E(aX+b)=a*E(X)+b Dispersion: on mesure l'écart entre la valeur la plus basse et la plus haute. * Paramètre de dispersion/concentration: - Etendue e: différence entre la valeur maximale et la valeur minimale. L'inconvénient c'est que ce calcul ne tient compte que des extrêmes et pas des valeurs entre. - Variance V: moyenne des carrés - carré de la moyenne V(X)=E(X®)-E®(X) Inconvénient: on perd l'unité d'origine. - Ecart type: Pour retrouver l'unité: c'est la racine carrée de la variance: (X)=§(V(X)) Pptés: V(aX+b)=a®*V(X) Statistiques doubles: Sur chaque individu on va étudier 2 caractères, et on cherche à déterminer s'il y a un lien entre ces deux caractères. Données non groupées: individu par individu; données groupées: tableau à double entrée. Fréquences: f(ij)=fréq du couple X=xi et Y=yj=n(ij)/n Fréquences marginales: pour X: f(i.)=n(i.)/n pour Y: f(.j)=n(.j)/n Fréquences conditionnelles: f(i/j): fréq de X=xi sachant Y=yj= n(ij)/n(.j) = f(ij)/f(.j) f(j/i): fréq de Y=yj sachant X=xi= f(j/i)=f(ji)/f(i.) Indépendance: Indépendance si pour tout i et pour tout j on a cette égalité: f(ij)=f(i.)*f(.j) et: n*n(ij)=n(i.)*n(.j) Moyennes et variances conditionnelles et marginales: Données non groupées: voir cours stats simples. Données groupées: š=1/n * Ž(i=1->r) xi n(i.) ›=1/n * Ž(j=1->s) yi n(.j) ce sont les moyennes marginales. Variances marginales: V(X)=1/n * Ž(i=1->r) xi® n(i.) - š® (adapter pour Y) Pptés: E(X+Y)=E(X)+E(Y) Si X et Y indépendantes alors E(XY)=E(X)*E(Y) Formule de la moyenne totale: E(X)=1/n * Ž(j=1->s) n(.j) * E(X/(Y=yj)) on pondère pour les effectifs de chaque groupe. Formule de la variance totale: moyenne des variances conditionnelles + variance des moyennes conditionnelles. Liaison entre deux variables: Représentation graphique: données non groupées: la forme du nuage de points peut donner une idée. Ajustement d'un ensemble de points: déterminer une courbe C aussi proche que possible de tous les points (si C est une droite on a un ajustement linéaire). Covariance: cov(X;Y)=E[(X-š)(Y-›)] On admet que cov c'est la moyenne du produit moins le produit des moyennes. Si X et Y sont indépendantes alors cov (X;Y)=0; mais attention réciproque fausse. La covariance est un indicateur de la variation simultanée de X et de Y. Si cov>0, X et Y varient dans le même sens. Si cov<0, X et Y varient en sens inverse. Coefficient de corrélation: (X;Y)=(cov(X;Y))/(X * Y) Propriétés: V(X+Y)=V(X)+V(Y)+2*cov(X;Y) Si X et Y indépendantes V(X+Y)=V(X)+V(Y) -1œ(X;Y)œ1. près de +1: lien linéaire croissant. si près de -1: lien linéaire décroissant. Corrélation faible si ||<0.25. Corrélation bonne si ||>0.7 (nuage de points allongé). Corrélation excellente si ||>0.95 Droite de régression: 1ère droite: Dy/x: y-›=(cov(X;Y))/V(X) * (x-š) 2ème droite: D(x/y): x-š=(cov(X;Y))/V(Y) * (y-›) Si x=š alors y=› pour les deux droites: les deux droites ont un point commun d'abscisse la moyenne de x et d'ordonnée la moyenne de y: le point moyen G. G(š;›) est le barycentre du nuage (centre de gravité). Si la corrélation est excellente les deux droites sont quasiment identiques (si leur pente est la même): Pente Dy/x=(cov(X;Y))/V(X) Pente Dx/y=V(Y)/(cov(X;Y))ÿ"š