From 7475616ad9325d2651c7f6d80ab39e2b40e1b2c8 Mon Sep 17 00:00:00 2001 From: thaaoblues Date: Fri, 27 Dec 2024 22:06:23 +0100 Subject: [PATCH] depression --- .../ANALYSE_DONNEES/TP3-ACP.Rmd | 4 +- Projet.Rmd | 51 ++++++++++++++++++- 2 files changed, 52 insertions(+), 3 deletions(-) diff --git a/ANALYSE_DONNEES-20241223T122817Z-001/ANALYSE_DONNEES/TP3-ACP.Rmd b/ANALYSE_DONNEES-20241223T122817Z-001/ANALYSE_DONNEES/TP3-ACP.Rmd index 17641b0..10be556 100644 --- a/ANALYSE_DONNEES-20241223T122817Z-001/ANALYSE_DONNEES/TP3-ACP.Rmd +++ b/ANALYSE_DONNEES-20241223T122817Z-001/ANALYSE_DONNEES/TP3-ACP.Rmd @@ -58,7 +58,7 @@ Les données étudiées dans ce TP ont été recueillies à Rennes dans $112$ st On charge les données, on transforme les variables qualitatives *pluie* et *vent*, et on supprime la dernière variable que l'on n'utilisera pas dans ce TP. ```{r,eval=F} -Ozone<-read.table("Ozone.txt",header=T) +Ozone<-read.table("Ozone.txt",header=TRUE) Ozone$pluie<-as.factor(Ozone$pluie) Ozone$vent<-as.factor(Ozone$vent) Ozone<-Ozone[,-11] @@ -275,7 +275,7 @@ D = eigen(Gamma3%*%M) On fait une ACP centrée réduite à l'aide de la fonction `PCA()` de la librairie `FactoMineR` en imposant `scale.unit=T` et on trace les valeurs propres à l'aide de `fviz_eig()` de la librairie `factoextra`. Interprétez les résultats. ```{r,eval=F} -respca2<-PCA(Ozone,quali.sup=c(11,12),scale.unit=T,graph=F) +respca2<-PCA(Ozone,quali.sup=c(11,12),scale.unit=TRUE,graph=FALSE) respca2$eig fviz_eig(respca2) ``` diff --git a/Projet.Rmd b/Projet.Rmd index 54d20a2..deb6c29 100644 --- a/Projet.Rmd +++ b/Projet.Rmd @@ -259,17 +259,66 @@ La grande valeur des effectifs partiels sur la diagonale de la table de continge ## Menez une analyse en composantes principales où les Tt sH Rr sont les individus décrits par les gènes. +Pour faire cela, nous devons transposer la matrice de données originale qui elle décrivait les gènes (individus) en fonction des Tt sH Rr. +Nous décidons de faire directement une ACP sur un jeu de données centrées réduites pour que chaque variable s'exprime avec la même force dans les résultats et qu'ils soient lisibles. + ```{r} donnees_transposees = t(T[-c(37:39)]) res_pca<-PCA(donnees_transposees,scale.unit=TRUE,graph=FALSE) res_pca$eig fviz_eig(res_pca) ``` -On voit qu'on dépasse 80% de l'inertie totale des points rien qu'avec les deux premières dimensions, on en prend donc les 2 plus grandes. +Ce graphique représente les valeurs propres de la matrice de corrélation du jeu de données centré réduites. L'inertie totale des données étant la somme des valeurs propres ( qui elles sont les inerties axiale associées à l'axe de vecteur directeur un vecteur propre associé ), chaque valeur propre est donc une fraction de l'inertie totale. +On voit qu'on dépasse 80% de l'inertie totale des points rien qu'avec les deux premieres valeurs propres, on en prend donc deux vectueurs propres associés respectivement à chacune de ces deux valeurs propres comme axes principaux de l'analyse. + + +```{r} +fviz_pca_ind(res_pca,label="all") +fviz_pca_var(res_pca,axes=c(1,2),label="none") +``` +Contexte : les relevés aux heures sont décrits par les gènes ( les gènes sont considérés comme les variables). + +#### Dire : Ce coté on voit bien qu'on est plus ce type de gènes et vers le haut c'est plutot ce type là etc... +## ON EST SENSE VOIR UN TRUC IMPORTANT D'APRES LA PROF MAIS JE VOIS RIEN +### interprétation globale du couple de graphes + +On voit que les genes se polarisent principalement sur l'axe 1 dans un sens ou l'autre. Les flèches sont d'une longueur presque du rayon du cercle, indiquant une participation très forte des genes dans la variance expliquée par ces dimensions. +Il n'y a pas de tendance particulière sur la direction selon l'axe 2 des flèches : Dans chaque "polarité" de fleches selon l'axe 1, il y a des fleches dont la direction est negative d'autres positive selon l'axe 2. + +Le traitement 1 est entièrement groupé sur des valeurs très negatives de l'axe 1. On remarque dans ce groupement la présence des T3 et T4 à la première heure de relevés d'expression des gènes. + + + +### hypothèses sur la signification + +- qu'est-ce qu'ils ont en commun ces gènes polarisés qui pourrait décrire ces relevés aux différentes heures et les différents traitements + +- Dim 1 gènes qui varient progressivement et ceux qui varient rapidement ?? T1 prendrait ceux qui varient rapidement car de tout manière il ne les fait pas varier ? T2 et T3 p ? + + +En ayant en tête les histogrammes de l'analyse descriptive, on pourrait y voir un axe représentant l'expression : les valeurs négatives portent les gènes dont l'expression relative est généralement sous-exprimée est les positives ceux généralement sur-exprimés. + + +On comprendrai alors que T1 fais se sous-exprimer le peu de gènes qu'il touche ? chelou ya à peu près autant de sous que de sur pour T1 + + +En regardant le graphe des individus (résultats aux heures de relevés), on a effectivement les heures groupées à des valeurs negatives de l'axe 1 correspondant aux relevés du traitement 1 qui, souvenons-nous toujours des histogrammes, ne change l'expression relative que de très peu de gènes. + +Pour l'interprétation du second axe, les gènes semblent y être positivement et negativement corrélés quel que soit leur correlation avec l'axe 1. +En regardant les individus, on observe que plus l'heure est tardive, plus ils tendent vers des valeurs negatives sur l'axe 2. De plus, on observe que les points liés aux relevés du traitement 1 ne vont pas énormément vers les valeurs positives. Il semble donc que l'axe 2 soit indicateur des expressions des gènes sont susceptibles de changer. +### afin de visualiser les corrélations des variables intiales avec toutes les méta-variables +```{r fig.height=18} +corrplot(res_pca$var$cor[1:50,],method="ellipse", type="lower", bg = "lightgrey") +``` + + +MAIS C'EST INBUVABLE + + \ No newline at end of file