projet-analyse-donnees/ANALYSE_DONNEES-20241223T122817Z-001/ANALYSE_DONNEES/Projet.Rmd

---
title: "Projet"
output: html_document
date: "2024-12-04"
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(ggplot2)
library(gridExtra)
library(reshape2)
library(corrplot)

```

```{r}
T = read.table("DataProjet3MIC-2425.txt",header=TRUE,sep=";")
T$ExpT1 = as.factor(T$ExpT1)
T$ExpT2 = as.factor(T$ExpT2)
T$ExpT3 = as.factor(T$ExpT3)
head(T)
summary(T)
str(T)
levels(T$ExpT1)
```


### Contenu du jeu de données :
- 3 variables qualitatives nominales représentant l'expression du gêne $$g$$ dont les modalités sont $$\{"sur","sous","non"\}$$. chaque variable correspond respectivement à la différence d'expression du gêne mesurée à la 6èeme heure lors du traitement $$T \in \{T1,T2,T3\}$$

- $$3*6 + 3*6 = 36$$  variables quantitatives continues représentant les effets des traitements sur l'expression des gênes T1 T2 et T3 à 1h,2h,3h,4h,5h,6h après l'administration pour les replicats R1 et R2, par rapport à leur expression à T=0 ( sans traitement).

- Ce jeu de données contient des relevés sur 542 individus, ici des gênes.


## Analyse unidimentionnelle :
### Expression des gênes lors du traitement T1
```{r}
g1<-ggplot(T, aes(x=T$ExpT1))+
  geom_bar()+
  ylab("Effectifs")+ggtitle("Effectifs")
g2<-ggplot(T, aes(x = T$ExpT1)) +
  geom_bar(aes(y = (..count..)/sum(..count..)))+ylab("")+ggtitle("Frequences")

df <- data.frame(group = levels(T$ExpT1),
                 value = as.vector(table(T$ExpT1))/nrow(T))
g3<-ggplot(df, aes(x="", y=value, fill=group))+
  geom_bar(width = 1, stat = "identity")+
  coord_polar("y", start=0)+
  theme(legend.position="bottom")
grid.arrange(g3,g1,g2,ncol=3)
```

### Expression des gênes lors du traitement T2
```{r}
g1<-ggplot(T, aes(x=T$ExpT2))+
  geom_bar()+
  ylab("Effectifs")+ggtitle("Effectifs")
g2<-ggplot(T, aes(x = T$ExpT2)) +
  geom_bar(aes(y = (..count..)/sum(..count..)))+ylab("")+ggtitle("Frequences")

df <- data.frame(group = levels(T$ExpT2),
                 value = as.vector(table(T$ExpT2))/nrow(T))
g3<-ggplot(df, aes(x="", y=value, fill=group))+
  geom_bar(width = 1, stat = "identity")+
  coord_polar("y", start=0)+
  theme(legend.position="bottom")
grid.arrange(g3,g1,g2,ncol=3)
```


### Expression des gênes lors du traitement T3
```{r}
g1<-ggplot(T, aes(x=T$ExpT3))+
  geom_bar()+
  ylab("Effectifs")+ggtitle("Effectifs")
g2<-ggplot(T, aes(x = T$ExpT3)) +
  geom_bar(aes(y = (..count..)/sum(..count..)))+ylab("")+ggtitle("Frequences")

df <- data.frame(group = levels(T$ExpT3),
                 value = as.vector(table(T$ExpT3))/nrow(T))
g3<-ggplot(df, aes(x="", y=value, fill=group))+
  geom_bar(width = 1, stat = "identity")+
  coord_polar("y", start=0)+
  theme(legend.position="bottom")
grid.arrange(g3,g1,g2,ncol=3)
```

### Analyse de de ces 3 variables
On remarque que les traitements T1 et T2 semblent avoir un effet assez similaire sur l'expression des gênes relevée à la 6ème heure : Une polarisation entre la sous expression et la sur expression qui se partagent presque la totalité des relevés, avec un poids légèrement superieur à 55% pour la sur-expression au détriment de la sous-expression.

T1 quant à lui se démarque grandement par une large majorité (Un peu plus de 80%),  de gêne n'ayant pas changé d'expression après 6h de traitement.

### Expression relative des gênes mesurées à intervalle régulier

#### Traitement  T1
```{r}
#apply(T[-c(37:39)],2,function(col){
 # which(T == col)
  #hist(col, main = paste("Histogram of", colnames(T)[which(T == col)[2]]),
   #    xlab = "Values", col = "lightblue", border = "black")
  #})
T_long = melt(T[-c(37:39)])
ggplot(T_long, aes(x = value)) +
  geom_histogram(binwidth = 1, fill = "blue", color = "black", alpha = 0.7) +
  facet_wrap(~variable,scales = "free",ncol=6) +
  labs(title = "Histograms for Each Column", x = "Values", y = "Frequency")
```
## tracer plusieurs matrices de covariances pour limiter le nombre de variables, soit pour chaque heure soit pour chaque traitement


Nous observons bien une concordance avec l'analyse des expressions des gênes figure <celle de la question precedente>. EN effet, les histogrammes en rapport avec le traitement 1 sont très nettement regroupés vers 0, soit une expression relative des gênes qui ne change peu. Les histogrammes pour les relevés des variables en lien avec T2 et T3 sont tout aussi similaires aux résultats précédents : La variance de l'expression relative des gênes est plus élevée et on observe bien une polarisation "sous-exprimé-"sur-exprimé" sur les relevés à 6h. Attention, ici on observe aussi que T2 et T3 n'ont pas leur effet caractéristique directement : à 2h, la distribution de l'expression des genes semble presque Gaussienne, et à 1h elle ne se distingue pas beaucoup du traitement 1 avec un regroupement sur 0.

### boxplots pour faire joli
```{r}
ggplot(melt(T[1:18]),aes(x=variable,y=value))+
  geom_boxplot()
ggplot(melt(T[19:36]),aes(x=variable,y=value))+
  geom_boxplot()
```

ben heuuuuuuuuuuuu jsp on en déduis pareil qu'au dessus, on va pas les prendre parce qu'ils sont illisibles


## Analyse bi-dimensionnelle

### matrice de correlation des variables quantitatives

```{r}
cr = cor(T[-c(37:39)])
corrplot(cr,method="number", type="lower", bg = "lightgrey")
```


### Regression linéaire des variables 2 à 2 ???


### boxplots pour comparer les variables qualit au quantitatives


### librairie biostatR
A l'aide de la fonction `eta2()` de la librairie `BioStatR`, calculez le rapport de corrélation $\eta^2$ entre chaque variable quantitative et la variable *Type*. Commentez. Faites de même avec la variable *Qualité*. (extrait tp vin)

### table de contingence pour les variables quali 2 à 2, mosaic plot ?