Compare commits

...

2 commits

View file

@ -159,10 +159,10 @@ On voit que même sans réduire les données, chaque variable s'exprime environ
# traitement 1 corrélation avec l'expression des genes du T1 T2 et T3 # traitement 1 corrélation avec l'expression des genes du T1 T2 et T3
ggplot(T,aes(y=T$T1_6H_R1,x=T$ExpT1))+ #ggplot(T,aes(y=T$T1_6H_R1,x=T$ExpT1))+
geom_boxplot() #geom_boxplot()
ggplot(T,aes(y=T$T1_6H_R2,x=T$ExpT1))+ #ggplot(T,aes(y=T$T1_6H_R2,x=T$ExpT1))+
geom_boxplot() #geom_boxplot()
ggplot(T,aes(y=T$T1_6H_R1,x=T$ExpT2))+ ggplot(T,aes(y=T$T1_6H_R1,x=T$ExpT2))+
geom_boxplot() geom_boxplot()
ggplot(T,aes(y=T$T1_6H_R2,x=T$ExpT2))+ ggplot(T,aes(y=T$T1_6H_R2,x=T$ExpT2))+
@ -178,16 +178,16 @@ ggplot(T,aes(y=T$T2_6H_R1,x=T$ExpT1))+
geom_boxplot() geom_boxplot()
ggplot(T,aes(y=T$T2_6H_R2,x=T$ExpT1))+ ggplot(T,aes(y=T$T2_6H_R2,x=T$ExpT1))+
geom_boxplot() geom_boxplot()
ggplot(T,aes(y=T$T2_6H_R1,x=T$ExpT2))+ #ggplot(T,aes(y=T$T2_6H_R1,x=T$ExpT2))+
geom_boxplot() #geom_boxplot()
ggplot(T,aes(y=T$T2_6H_R2,x=T$ExpT2))+ #ggplot(T,aes(y=T$T2_6H_R2,x=T$ExpT2))+
geom_boxplot() #geom_boxplot()
ggplot(T,aes(y=T$T2_6H_R1,x=T$ExpT3))+ ggplot(T,aes(y=T$T2_6H_R1,x=T$ExpT3))+
geom_boxplot() geom_boxplot()
ggplot(T,aes(y=T$T2_6H_R2,x=T$ExpT3))+ ggplot(T,aes(y=T$T2_6H_R2,x=T$ExpT3))+
geom_boxplot() geom_boxplot()
# traitement 2 corrélation avec l'expression des genes du T1 T2 et T3 # traitement 3 corrélation avec l'expression des genes du T1 T2 et T3
ggplot(T,aes(y=T$T3_6H_R1,x=T$ExpT1))+ ggplot(T,aes(y=T$T3_6H_R1,x=T$ExpT1))+
geom_boxplot() geom_boxplot()
ggplot(T,aes(y=T$T3_6H_R2,x=T$ExpT1))+ ggplot(T,aes(y=T$T3_6H_R2,x=T$ExpT1))+
@ -196,15 +196,15 @@ ggplot(T,aes(y=T$T3_6H_R1,x=T$ExpT2))+
geom_boxplot() geom_boxplot()
ggplot(T,aes(y=T$T3_6H_R2,x=T$ExpT2))+ ggplot(T,aes(y=T$T3_6H_R2,x=T$ExpT2))+
geom_boxplot() geom_boxplot()
ggplot(T,aes(y=T$T3_6H_R1,x=T$ExpT3))+ #ggplot(T,aes(y=T$T3_6H_R1,x=T$ExpT3))+
geom_boxplot() #geom_boxplot()
ggplot(T,aes(y=T$T3_6H_R2,x=T$ExpT3))+ #ggplot(T,aes(y=T$T3_6H_R2,x=T$ExpT3))+
geom_boxplot() #geom_boxplot()
``` ```
### Analyse des boxplots : ### Analyse des boxplots :
- traitement 1 (réplicats 1 et 2) - traitement 1 (réplicats 1 et 2)
Les genes sur-exprimés au T1 n'ont pas changé d'expression relativement à l'absence de traitement durant le T2. Les genes sur-exprimés au T1 sont non-exprimé durant le T2.
Il est difficile d'observer une catégorie de genes de T1 qui se soient sous exprimés dans T2. De même pour la sur-expression dans T2. Il est difficile d'observer une catégorie de genes de T1 qui se soient sous exprimés dans T2. De même pour la sur-expression dans T2.
Ceux qui s'étaient sur-exprimés au T1 ont affiché aucun changement semblent ne pas avoir changé d'expression au T3 ( relativement à l'absence de traitement). Ceux qui s'étaient sur-exprimés au T1 ont affiché aucun changement semblent ne pas avoir changé d'expression au T3 ( relativement à l'absence de traitement).
@ -256,13 +256,16 @@ eta2(T$T2_6H_R1, T$ExpT3)
eta2(T$T2_6H_R2, T$ExpT3) eta2(T$T2_6H_R2, T$ExpT3)
``` ```
Le calcul du rapport de correlation eta² bien notre observation de la grande similarité d'expression des genes traités avec T2 et T2 et la dissimilarité des expression des genes lorsque la plante est traitée avec T1 comparée à T2 et T3, chose normale au vu du peu de genes affectés par T1. Le calcul du rapport de correlation eta² bien notre observation de la grande similarité d'expression des genes traités avec T2 et T3 et la dissimilarité des expression des genes lorsque la plante est traitée avec T1 comparée à T2 et T3, chose normale au vu du peu de genes affectés par T1.
### table de contingence pour les variables quali 2 à 2, mosaic plot ? ### table de contingence pour les variables quali 2 à 2, mosaic plot ?
```{r} ```{r}
print("table de contingence entre T1 et T2")
table(T$ExpT1,T$ExpT2) table(T$ExpT1,T$ExpT2)
print("table de contingence entre T1 et T3")
table(T$ExpT1,T$ExpT3) table(T$ExpT1,T$ExpT3)
print("table de contingence entre T2 et T3")
table(T$ExpT2,T$ExpT3) table(T$ExpT2,T$ExpT3)
``` ```
Nouvelle confirmation de nos résultats de manière encore plus précise, on observe que T1 ne change pas l'expression de la très grande majorité des genes. Plus finement, on peut confirmer l'observation faite sur les boxplots tendant à dire que le peu de genes s'étant sous exprimés avec T1 se sont aussi sous-exprimés avec T2 et T3. Nouvelle confirmation de nos résultats de manière encore plus précise, on observe que T1 ne change pas l'expression de la très grande majorité des genes. Plus finement, on peut confirmer l'observation faite sur les boxplots tendant à dire que le peu de genes s'étant sous exprimés avec T1 se sont aussi sous-exprimés avec T2 et T3.
@ -283,7 +286,7 @@ res_pca$eig
fviz_eig(res_pca,title="Participation des chaque valeur propre de la matrice de correlation à l'intertie totale des données") fviz_eig(res_pca,title="Participation des chaque valeur propre de la matrice de correlation à l'intertie totale des données")
``` ```
Ce graphique représente les valeurs propres de la matrice de corrélation du jeu de données centré réduites. L'inertie totale des données étant la somme des valeurs propres ( qui elles sont les inerties axiale associées à l'axe de vecteur directeur un vecteur propre associé ), chaque valeur propre est donc une fraction de l'inertie totale. Ce graphique représente les valeurs propres de la matrice de corrélation du jeu de données centré réduites. L'inertie totale des données étant la somme des valeurs propres ( qui elles sont les inerties axiale associées à l'axe de vecteur directeur un vecteur propre associé ), chaque valeur propre est donc une fraction de l'inertie totale.
On voit qu'on dépasse 80% de l'inertie totale des points rien qu'avec les deux premieres valeurs propres, on en prend donc deux vectueurs propres associés respectivement à chacune de ces deux valeurs propres comme axes principaux de l'analyse. On voit qu'on dépasse 80% de l'inertie totale des points rien qu'avec les deux premieres valeurs propres, on en prend donc les vecteurs propres associés respectivement à chacune de ces deux valeurs propres comme axes principaux de l'analyse.
```{r,fig.cap="Corrélations des variables avec les composantes principales"} ```{r,fig.cap="Corrélations des variables avec les composantes principales"}
@ -301,7 +304,7 @@ On voit que les genes se polarisent principalement sur l'axe 1 dans un sens ou l
Les flèches sont d'une longueur presque du rayon du cercle, indiquant une participation très forte des genes dans la variance expliquée par ces dimensions. Les flèches sont d'une longueur presque du rayon du cercle, indiquant une participation très forte des genes dans la variance expliquée par ces dimensions.
Il n'y a pas de tendance particulière sur la direction selon l'axe 2 des flèches : Dans chaque "polarité" de fleches selon l'axe 1, il y a des fleches dont la direction est negative d'autres positive selon l'axe 2. Bien que l'on dénote une quantité plus grande de gènes corrélés positiviement à la dimension 2. Il n'y a pas de tendance particulière sur la direction selon l'axe 2 des flèches : Dans chaque "polarité" de fleches selon l'axe 1, il y a des fleches dont la direction est negative d'autres positive selon l'axe 2. Bien que l'on dénote une quantité plus grande de gènes corrélés positiviement à la dimension 2.
Le traitement 1 est entièrement groupé sur des valeurs très negatives de l'axe 1. On remarque dans ce groupement la présence des T3 et T4 à la première heure de relevés d'expression des gènes. Le traitement 1 est entièrement groupé sur des valeurs très negatives de l'axe 1. On remarque dans ce groupement la présence des T2 et T3 à la première heure de relevés d'expression des gènes.
Pour le traitement 2 et 3, on les retrouves formant 2 groupements, 1 en haut à droite du graphe contenant les relevés à 2 et 3h puis un groupement s'étalant sur la droite du graphe du centre jusqu'en bas contenant les relevés à partir de 4h. Pour le traitement 2 et 3, on les retrouves formant 2 groupements, 1 en haut à droite du graphe contenant les relevés à 2 et 3h puis un groupement s'étalant sur la droite du graphe du centre jusqu'en bas contenant les relevés à partir de 4h.
@ -551,7 +554,7 @@ ggplot(df,aes(x=K,y=Iintra))+
```{r,fig.cap="Visualisation du critère de Silhouette en fonction du nombre de classes demandées pour le clustering"} ```{r,fig.cap="Visualisation du critère de Silhouette en fonction du nombre de classes demandées pour le clustering"}
Silhou<-NULL Silhou<-NULL
for (k in 2:Kmax){ for (k in 2:Kmax){
aux<-silhouette(reskmeanscl_2[,k-1], daisy(s)) aux<-silhouette(reskmeanscl_2[,k-1], daisy(s_2))
Silhou<-c(Silhou,mean(aux[,3])) Silhou<-c(Silhou,mean(aux[,3]))
} }
@ -560,7 +563,7 @@ ggplot(df,aes(x=K,y=Silhouette))+
geom_point()+ geom_point()+
geom_line()+theme(legend.position = "bottom") geom_line()+theme(legend.position = "bottom")
aux<-silhouette(reskmeanscl_2[,3-1], daisy(s)) aux<-silhouette(reskmeanscl_2[,3-1], daisy(s_2))
fviz_silhouette(aux)+ fviz_silhouette(aux)+
theme(plot.title = element_text(size =9)) theme(plot.title = element_text(size =9))
rm(df,Silhou,aux) rm(df,Silhou,aux)
@ -612,10 +615,10 @@ set.seed(123) # Pour rendre les résultats reproductibles
dbscan_res = dbscan::dbscan(s_2, eps = 2, minPts = round(log(nrow(s_2)))) dbscan_res = dbscan::dbscan(s_2, eps = 2, minPts = round(log(nrow(s_2))))
# Ajouter les clusters résultants à DataExpMoy # Ajouter les clusters résultants à DataExpMoy
DataExpMoy$DBSCAN_Cluster <- as.factor(dbscan_res$cluster) # Les clusters DBSCAN #DataExpMoy$DBSCAN_Cluster <- as.factor(dbscan_res$cluster) # Les clusters DBSCAN
# Visualiser les clusters # Visualiser les clusters
fviz_cluster(dbscan_res, data = data_for_clustering, fviz_cluster(dbscan_res, data = s_2,
geom = "point", ellipse = FALSE, # Pas d'ellipse pour DBSCAN geom = "point", ellipse = FALSE, # Pas d'ellipse pour DBSCAN
show.clust.cent = FALSE, # Pas de centres pour DBSCAN show.clust.cent = FALSE, # Pas de centres pour DBSCAN
palette = "jco") + palette = "jco") +