projet-analyse-donnees/Projet.Rmd
2024-12-17 17:31:31 +01:00

105 lines
3.4 KiB
Text

---
title: "Projet"
output: html_document
date: "2024-12-04"
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(ggplot2)
library(gridExtra)
```
```{r}
T = read.table("DataProjet3MIC-2425.txt",header=TRUE,sep=";")
T$ExpT1 = as.factor(T$ExpT1)
T$ExpT2 = as.factor(T$ExpT2)
T$ExpT3 = as.factor(T$ExpT3)
head(T)
summary(T)
str(T)
levels(T$ExpT1)
```
### Contenu du jeu de données :
- 3 variables qualitatives nominales représentant l'expression du gêne $$g$$ dont les modalités sont $$\{"sur","sous","non"\}$$. chaque variable correspond respectivement à la différence d'expression du gêne mesurée à la 6èeme heure lors du traitement $$T \in \{T1,T2,T3\}$$
- $$3*6 + 3*6 = 36$$ variables quantitatives continues représentant les effets des traitements sur l'expression des gênes T1 T2 et T3 à 1h,2h,3h,4h,5h,6h après l'administration pour les replicats R1 et R2, par rapport à leur expression à T=0 ( sans traitement).
- Ce jeu de données contient des relevés sur 542 individus, ici des gênes.
## Analyse unidimentionnelle :
### Expression des gênes lors du traitement T1
```{r}
g1<-ggplot(T, aes(x=T$ExpT1))+
geom_bar()+
ylab("Effectifs")+ggtitle("Effectifs")
g2<-ggplot(T, aes(x = T$ExpT1)) +
geom_bar(aes(y = (..count..)/sum(..count..)))+ylab("")+ggtitle("Frequences")
df <- data.frame(group = levels(T$ExpT1),
value = as.vector(table(T$ExpT1))/nrow(T))
g3<-ggplot(df, aes(x="", y=value, fill=group))+
geom_bar(width = 1, stat = "identity")+
coord_polar("y", start=0)+
theme(legend.position="bottom")
grid.arrange(g3,g1,g2,ncol=3)
```
### Expression des gênes lors du traitement T2
```{r}
g1<-ggplot(T, aes(x=T$ExpT2))+
geom_bar()+
ylab("Effectifs")+ggtitle("Effectifs")
g2<-ggplot(T, aes(x = T$ExpT2)) +
geom_bar(aes(y = (..count..)/sum(..count..)))+ylab("")+ggtitle("Frequences")
df <- data.frame(group = levels(T$ExpT2),
value = as.vector(table(T$ExpT2))/nrow(T))
g3<-ggplot(df, aes(x="", y=value, fill=group))+
geom_bar(width = 1, stat = "identity")+
coord_polar("y", start=0)+
theme(legend.position="bottom")
grid.arrange(g3,g1,g2,ncol=3)
```
### Expression des gênes lors du traitement T3
```{r}
g1<-ggplot(T, aes(x=T$ExpT3))+
geom_bar()+
ylab("Effectifs")+ggtitle("Effectifs")
g2<-ggplot(T, aes(x = T$ExpT3)) +
geom_bar(aes(y = (..count..)/sum(..count..)))+ylab("")+ggtitle("Frequences")
df <- data.frame(group = levels(T$ExpT3),
value = as.vector(table(T$ExpT3))/nrow(T))
g3<-ggplot(df, aes(x="", y=value, fill=group))+
geom_bar(width = 1, stat = "identity")+
coord_polar("y", start=0)+
theme(legend.position="bottom")
grid.arrange(g3,g1,g2,ncol=3)
```
### Analyse de de ces 3 variables
On remarque que les traitements T1 et T2 semblent avoir un effet assez similaire sur l'expression des gênes relevée à la 6ème heure : Une polarisation entre la sous expression et la sur expression qui se partagent presque la totalité des relevés, avec un poids légèrement superieur à 55% pour la sur-expression au détriment de la sous-expression.
T1 quant à lui se démarque grandement par une large majorité (Un peu plus de 80%), de gêne n'ayant pas changé d'expression après 6h de traitement.
### Expression relative des gênes mesurées à intervalle régulier
#### Traitement T1
```{r}
apply(T[-c(37:39)],2,hist)
```
#### Traitement T2
#### Traitement T3