#Nettoyage des colonnes non utilisées dfAnimes <- select(dfAnimes, title, mean, rank, annee, saison, num_episodes, source, genres) View(dfAnimes) View(dfAnimes) View(animeCentury) View(animeCentury) View(animeCentury) library("jsonlite") library("tidyverse") data<-fromJSON("C:\\Users\\Marianne\\Desktop\\projet-analyse-exploratoire\\db_animes\\db_animes.json") dfAnimes <- as.data.frame(data) #Filtrage des animes sortis avant 1960 (pas de télé :() et après 2021 et des OVAs, films, etc dfAnimes %>% filter(start_season$year > 1960) %>% filter(start_season$year < 2021) %>% filter(media_type == "tv") -> dfAnimes #Dedoublage de la colonne saison dfAnimes %>% mutate(annee = start_season$year) %>% mutate(saison = start_season$season) -> dfAnimes #Transformation de la colonne genre pour la rendre utilisable getgenre <- function(i){ dfAnimes[i,13][[1]][[2]] -> res return(res) } dfAnimes %>% mutate(genres = lapply(1:4691, getgenre)) -> dfAnimes #Nettoyage des colonnes non utilisées dfAnimes <- select(dfAnimes, title, mean, rank, annee, saison, num_episodes, source, genres) #Nombre d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer dfAnimes %>% filter(num_episodes>30) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois longbois %>% ggplot(aes(annee, nbAnimes)) + geom_col() #Evolution du nombre de lettre (moyenne et médiane) dans les titres par année dfAnimes %>% group_by(annee) %>% summarise(lettres=mean(nchar(data.title))) -> dfAnimes dfAnimes %>% group_by(annee) %>% summarise(lettres=median(nchar(data.title))) -> medLettersByYear #Evolution du nombre de lettre (moyenne et médiane) dans les titres par année dfAnimes %>% group_by(annee) %>% summarise(lettres=mean(nchar(title))) -> dfAnimes dfAnimes %>% group_by(annee) %>% summarise(lettres=median(nchar(title))) -> medLettersByYear data<-fromJSON("C:\\Users\\Marianne\\Desktop\\projet-analyse-exploratoire\\db_animes\\db_animes.json") dfAnimes <- as.data.frame(data) #Filtrage des animes sortis avant 1960 (pas de télé :() et après 2021 et des OVAs, films, etc dfAnimes %>% filter(start_season$year > 1960) %>% filter(start_season$year < 2021) %>% filter(media_type == "tv") -> dfAnimes #Dedoublage de la colonne saison dfAnimes %>% mutate(annee = start_season$year) %>% mutate(saison = start_season$season) -> dfAnimes #Transformation de la colonne genre pour la rendre utilisable getgenre <- function(i){ dfAnimes[i,13][[1]][[2]] -> res return(res) } dfAnimes %>% mutate(genres = lapply(1:4691, getgenre)) -> dfAnimes #Nettoyage des colonnes non utilisées dfAnimes <- select(dfAnimes, title, mean, rank, annee, saison, num_episodes, source, genres) #Nombre d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer dfAnimes %>% filter(num_episodes>30) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois longbois %>% ggplot(aes(annee, nbAnimes)) + geom_col() #Evolution du nombre de lettre (moyenne et médiane) dans les titres par année dfAnimes %>% group_by(annee) %>% summarise(lettres=mean(nchar(title))) -> meanLettersByYear dfAnimes %>% group_by(annee) %>% summarise(lettres=median(nchar(title))) -> medLettersByYear meanLettersByYear %>% ggplot(aes(annee, lettres)) + geom_col() medLettersByYear %>% ggplot(aes(annee, lettres)) + geom_col() #Nombre d'animes originaux par an dfAnimes %>% filter(source="original") -> og #Nombre d'animes originaux par an dfAnimes %>% filter(source=="original") -> og og %>% ggplot((aes(annee, nbAnimes)) + geom_col() og %>% ggplot(aes(annee, nbAnimes)) + geom_col() og %>% ggplot(aes(annee, nbAnimes)) + geom_col() #Nombre d'animes originaux par an dfAnimes %>% filter(source=="original") %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> og og %>% ggplot(aes(annee, nbAnimes)) + geom_col() #Nombre sources des animes par an dfAnimes %>% group_by(source, annee) %>% count() %>% rename(nbAnimes = n) -> dFSources dFSources %>% ggplot(aes(annee, nbAnimes), color = source) + geom_col() dFSources %>% ggplot(aes(annee, nbAnimes, color = source)) + geom_col() #Nombre sources des animes par an dfAnimes %>% filter(source %in% c("original", "manga", "light_novel", "game", "visual_novel", "other", "novel")) %>% group_by(source, annee) %>% count() %>% rename(nbAnimes = n) -> dFSources dFSources %>% ggplot(aes(annee, nbAnimes, color = source)) + geom_col() dFSources %>% ggplot(aes(annee, nbAnimes, fill = source)) + geom_col() install.packages(wesanderson) install.packages("wesanderson"") longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() #Nombre d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer dfAnimes %>% filter(num_episodes>30) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois library("jsonlite") library("tidyverse") data<-fromJSON("C:\\Users\\Marianne\\Desktop\\projet-analyse-exploratoire\\db_animes\\db_animes.json") dfAnimes <- as.data.frame(data) #Filtrage des animes sortis avant 1960 (pas de télé :() et après 2021 et des OVAs, films, etc dfAnimes %>% filter(start_season$year > 1960) %>% filter(start_season$year < 2021) %>% filter(media_type == "tv") -> dfAnimes #Dedoublage de la colonne saison dfAnimes %>% mutate(annee = start_season$year) %>% mutate(saison = start_season$season) -> dfAnimes #Transformation de la colonne genre pour la rendre utilisable getgenre <- function(i){ dfAnimes[i,13][[1]][[2]] -> res return(res) } dfAnimes %>% mutate(genres = lapply(1:4691, getgenre)) -> dfAnimes #Nettoyage des colonnes non utilisées dfAnimes <- select(dfAnimes, title, mean, rank, annee, saison, num_episodes, source, genres) #Nombre d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer dfAnimes %>% filter(num_episodes>30) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() longbois %>% ggplot(aes(annee, nbAnimes)) + geom_line() dfAnimes %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> allbois #Pourcentage d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer dfAnimes %>% filter(num_episodes>30) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois percLongs <- longbois/allbois*100 percLongs %>% ggplot(aes(annee, nbAnimes)) + geom_line() left_join(longbois, allbois, by=annee) -> test left_join(longbois, allbois, by="annee") -> test left_join(longbois, allbois, by="annee", suffix = c("-long", "-all")) -> test left_join(longbois, allbois, by="annee", suffix = c("_long", "_all")) %>% mutate(pourcentage_long = nbAnimes_long/nbAnimes_all*100) dFLong left_join(longbois, allbois, by="annee", suffix = c("_long", "_all")) %>% mutate(pourcentage_long = (nbAnimes_long/nbAnimes_all*100)) dFLong left_join(longbois, allbois, by="annee", suffix = c("_long", "_all")) %>% mutate(pourcentage_long = (nbAnimes_long/nbAnimes_all*100)) -> dFLong left_join(longbois, allbois, by="annee", suffix = c("_long", "_all")) %>% mutate(pourcentage_long = (nbAnimes_long/nbAnimes_all*100)) -> dFLong dFLong %>% ggplot(aes(annee, pourcentage_long)) + geom_point() + geom_line() longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() + geom_line() #Pourcentage d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer dfAnimes %>% filter(num_episodes>50) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() + geom_line() dfAnimes %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> allbois left_join(longbois, allbois, by="annee", suffix = c("_long", "_all")) %>% mutate(pourcentage_long = (nbAnimes_long/nbAnimes_all*100)) -> dFLong dFLong %>% ggplot(aes(annee, pourcentage_long)) + geom_point() + geom_line() #Pourcentage d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer dfAnimes %>% filter(num_episodes>50) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() + geom_line() dfAnimes %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> allbois left_join(longbois, allbois, by="annee", suffix = c("_long", "_all")) %>% mutate(pourcentage_long = (nbAnimes_long/nbAnimes_all*100)) -> dFLong dFLong %>% ggplot(aes(annee, pourcentage_long)) + geom_point() + geom_line() meanLettersByYear %>% ggplot(aes(annee, lettres)) + geom_point()+ geom_line() medLettersByYear %>% ggplot(aes(annee, lettres)) + geom_col()+ geom_line() medLettersByYear %>% ggplot(aes(annee, lettres)) + geom_point()+ geom_line() #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% summarise(moy_ratings = mean(rating)) -> dFRatingsSaison #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% summarise(moy_ratings = mean(mean)) -> dFRatingsSaison #Rename la colonne au nom débile rename(dfAnimes, note = mean) -> dfAnimes #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% summarise(moy_ratings = mean(note)) -> dFRatingsSaison #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% summarise(moy_ratings = sum(note)) -> dFRatingsSaison #Les animes deviennent ils meilleurs avec le temps ? dfAnimes %>% group_by(annee)%>% summarise(moy_ratings = sum(note)) -> dFRatingsAnnee View(dFRatingsAnnee) #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% summarise(moy_ratings = sum(note), na.rm=TRUE) -> dFRatingsSaison #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% filter(!is_na(note))%>% summarise(moy_ratings = sum(note)) -> dFRatingsSaison #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% filter(!isna(note))%>% summarise(moy_ratings = sum(note)) -> dFRatingsSaison #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% filter(!is.na(note))%>% summarise(moy_ratings = sum(note)) -> dFRatingsSaison #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% filter(!is.na(note))%>% summarise(moy_ratings = mean(note)) -> dFRatingsSaison dFRatingsSaison %>% ggplot(aes(saison, moy_ratings))+geom_bar() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings))+geom_col() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings))+geom_point() #Les animes deviennent ils meilleurs avec le temps ? dfAnimes %>% group_by(annee)%>% filter(!is.na(note))%>% summarise(moy_ratings = mean(note)) -> dFRatingsAnnee dFRatingsSaison %>% ggplot(aes(saison, moy_ratings))+geom_point()+geom_line() dFRatingsAnnee %>% ggplot(aes(annee, moy_ratings))+geom_point()+geom_line() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings))+geom_point() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_count() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_jitter() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_bin2d() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_jitter() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point() dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point(size = 3) dFRatingsAnnee %>% ggplot(aes(annee, moy_ratings))+geom_point()+geom_line dFRatingsAnnee %>% ggplot(aes(annee, moy_ratings))+geom_point()+geom_line() dFSources %>% ggplot(aes(annee, nbAnimes, fill = source)) + geom_col() #Nombre sources des animes par an dfAnimes %>% filter(source %in% c("original", "manga", "light_novel", "game", "visual_novel", "other", "novel")) %>% group_by(source, annee) %>% count() %>% rename(nbAnimes = n) -> dFSources dFSources %>% ggplot(aes(annee, nbAnimes, fill = source)) + geom_col() library("jsonlite") library("tidyverse") data<-fromJSON("C:\\Users\\Marianne\\Desktop\\projet-analyse-exploratoire\\db_animes\\db_animes.json") dfAnimes <- as.data.frame(data) #Filtrage des animes sortis avant 1960 (pas de télé :() et après 2021 et des OVAs, films, etc dfAnimes %>% filter(start_season$year > 1960) %>% filter(start_season$year < 2021) %>% filter(media_type == "tv") -> dfAnimes #Dedoublage de la colonne saison en annee et saison dfAnimes %>% mutate(annee = start_season$year) %>% mutate(saison = start_season$season) -> dfAnimes #Transformation de la colonne genre pour la rendre utilisable getgenre <- function(i){ dfAnimes[i,13][[1]][[2]] -> res return(res) } dfAnimes %>% mutate(genres = lapply(1:4691, getgenre)) -> dfAnimes #Nettoyage des colonnes non utilisées dfAnimes <- select(dfAnimes, title, mean, rank, annee, saison, num_episodes, source, genres) #Rename la colonne des notes utilisateurs pour eviter la confusion avec la fonction mean rename(dfAnimes, note = mean) -> dfAnimes View(dfAnimes) View(dfAnimes) #Nombre et pourcentage d'animes dits "fleuves" (estimes à plus de 50 episodes) parmis les nouveaux animes lancés chaque année dfAnimes %>% filter(num_episodes>50) %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> longbois + labs(y="Nombre de nouveaux animes sortis", x = "Année") + ggtitle("Evolution du nombre d'animes dits \"fleuves\" de 1960 à 2020") longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() + geom_line() + labs(y="Nombre de nouveaux animes sortis", x = "Année") + ggtitle("Evolution du nombre d'animes dits \"fleuves\" de 1960 à 2020") dfAnimes %>% group_by(annee) %>% count() %>% rename(nbAnimes = n) -> allbois left_join(longbois, allbois, by="annee", suffix = c("_long", "_all")) %>% mutate(pourcentage_long = (nbAnimes_long/nbAnimes_all*100)) -> dFLong longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() + geom_line() + labs(y="Nombre de nouveaux animes sortis", x = "Année") + ggtitle("Evolution du nombre de nouveaux animes dits \"fleuves\" de 1960 à 2020") + labs(y="Poucentage de nouveaux animes \"fleuves\"", x = "Année") + ggtitle("Evolution du pourcentage d'animes dits \"fleuves\" parmi les nouevaux animes de 1960 à 2020") + labs(y="Poucentage de nouveaux animes \"fleuves\"", x = "Année") + ggtitle("Evolution du pourcentage d'animes dits \"fleuves\" parmi les nouevaux animes de 1960 à 2020") dFLong %>% ggplot(aes(annee, pourcentage_long)) + geom_point() + geom_line() + labs(y="Poucentage de nouveaux animes \"fleuves\"", x = "Année") + ggtitle("Evolution du pourcentage d'animes dits \"fleuves\" parmi les nouevaux animes de 1960 à 2020") dFLong %>% ggplot(aes(annee, pourcentage_long)) + geom_point() + geom_line() + labs(y="Poucentage de nouveaux animes \"fleuves\"", x = "Année") + ggtitle("Evolution du pourcentage d'animes dits \"fleuves\" parmi les nouveaux animes de 1960 à 2020") #Evolution du nombre de lettres (moyenne et mediane) dans les titres dfAnimes %>% group_by(annee) %>% summarise(lettres=mean(nchar(title))) -> meanLettersByYear dfAnimes %>% group_by(annee) %>% summarise(lettres=median(nchar(title))) -> medLettersByYear meanLettersByYear %>% ggplot(aes(annee, lettres)) + geom_point()+ geom_line() + labs(y="Nombre moyen de caractères", x = "Année") + ggtitle("Nombre moyen de caractères dans les titres des nouveaux animes de 1960 à 2020") #Evolution du nombre de caracteres (moyen et median) dans les titres dfAnimes %>% group_by(annee) %>% summarise(lettres=mean(nchar(title))) -> meanLettersByYear dfAnimes %>% group_by(annee) %>% summarise(lettres=median(nchar(title))) -> medLettersByYear meanLettersByYear %>% ggplot(aes(annee, lettres)) + geom_point()+ geom_line() + labs(y="Nombre moyen de caractères", x = "Année") + ggtitle("Nombre moyen de caractères dans les titres des nouveaux animes de 1960 à 2020") longbois %>% ggplot(aes(annee, nbAnimes)) + geom_point() + geom_line() + labs(y="Nombre de nouveaux animes sortis", x = "Année") + ggtitle("Evolution du nombre de nouveaux animes dits \"fleuves\" de 1961 à 2020") dFLong %>% ggplot(aes(annee, pourcentage_long)) + geom_point() + geom_line() + labs(y="Poucentage de nouveaux animes \"fleuves\"", x = "Année") + ggtitle("Evolution du pourcentage d'animes dits \"fleuves\" parmi les nouveaux animes de 1961 à 2020") meanLettersByYear %>% ggplot(aes(annee, lettres)) + geom_point()+ geom_line() + labs(y="Nombre moyen de caractères", x = "Année") + ggtitle("Nombre moyen de caractères dans les titres des nouveaux animes de 1961 à 2020") View(meanLettersByYear) View(meanLettersByYear) medLettersByYear %>% ggplot(aes(annee, lettres)) + geom_point()+ geom_line() + labs(y="Nombre médian de caractères", x = "Année") + ggtitle("Nombre médian de caractères dans les titres des nouveaux animes de 1961 à 2020") #Nombre sources des animes par an dfAnimes %>% filter(source %in% c("original", "manga", "light_novel", "game", "visual_novel", "other", "novel")) %>% group_by(source, annee) %>% count() %>% rename(nbAnimes = n) -> dFSources dFSources %>% ggplot(aes(annee, nbAnimes, fill = source)) + geom_col() + labs(y="Nombre de nouveaux animes", x = "Année") + ggtitle("Nombre de nouveaux animes sortis chaque année de 1961 à 2020") #Nombre sources des animes par an dfAnimes %>% #filter(source %in% c("original", "manga", "light_novel", "game", "visual_novel", "other", "novel")) %>% group_by(source, annee) %>% count() %>% rename(nbAnimes = n) -> dFSources dFSources %>% ggplot(aes(annee, nbAnimes, fill = source)) + geom_col() + labs(y="Nombre de nouveaux animes", x = "Année") + ggtitle("Nombre de nouveaux animes sortis chaque année de 1961 à 2020") View(dFSources) View(dFSources) dFSources %>% ggplot(aes(source, nbAnimes, fill = annee)) + geom_col() + labs(y="Nombre de nouveaux animes", x = "Année") + ggtitle("Nombre de nouveaux animes sortis chaque année de 1961 à 2020") #Nombre sources des animes par an dfAnimes %>% #filter(source %in% c("original", "manga", "light_novel", "game", "visual_novel", "other", "novel")) %>% group_by(source, annee) %>% count() %>% rename(nbAnimes = n) -> dFSources dFSources %>% ggplot(aes(annee, nbAnimes, fill = source)) + geom_col() + labs(y="Nombre de nouveaux animes", x = "Année") + ggtitle("Nombre de nouveaux animes sortis chaque année pour les de 1961 à 2020") dFSources %>% ggplot(aes(annee, nbAnimes, fill = source)) + geom_col() + labs(y="Nombre de nouveaux animes", x = "Année") + ggtitle("Répartition des sources nouveaux animes sortis chaque année de 1961 à 2020") dFRatingsAnnee %>% ggplot(aes(annee, moy_ratings))+geom_point()+geom_line()+ labs(y="Note moyenne des animes sortis cette année", x = "Année") + ggtitle("Note moyenne des nouveaux animes de 1961 à 2020") dfAnimes %>% group_by(annee)%>% filter(!is.na(note))%>% summarise(moy_ratings = median(note)) -> dFRatingsAnneeMed dfAnimes %>% group_by(annee)%>% filter(!is.na(note))%>% summarise(med_ratings = median(note)) -> dFRatingsAnneeMed dFRatingsAnnee %>% ggplot(aes(annee, med_ratings))+geom_point()+geom_line()+ labs(y="Note médiane des animes sortis cette année", x = "Année") + ggtitle("Note médiane des nouveaux animes de 1961 à 2020") dfAnimes %>% group_by(annee)%>% filter(!is.na(note))%>% summarise(med_ratings = median(note)) -> dFRatingsAnneeMed dFRatingsAnnee %>% ggplot(aes(annee, med_ratings))+geom_point()+geom_line()+ labs(y="Note médiane des animes sortis cette année", x = "Année") + ggtitle("Note médiane des nouveaux animes de 1961 à 2020") dFRatingsAnneeMed %>% ggplot(aes(annee, med_ratings))+geom_point()+geom_line()+ labs(y="Note médiane des animes sortis cette année", x = "Année") + ggtitle("Note médiane des nouveaux animes de 1961 à 2020") dFRatingsAnnee %>% ggplot(aes(annee, moy_ratings))+geom_point()+geom_line()+ labs(y="Note moyenne des animes sortis cette année", x = "Année") + ggtitle("Note moyenne des nouveaux animes de 1961 à 2020") #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% filter(!is.na(note))%>% summarise(moy_ratings = mean(note)) -> dFRatingsSaison dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point(size = 3)+ labs(y="Note moyenne des animes sortis cette année", x = "Année") + ggtitle("Note moyenne des nouveaux animes selon la saison") dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point(size = 3)+ labs(y="Note moyenne des animes sortis en cette saison", x = "Année") + ggtitle("Note moyenne des nouveaux animes selon la saison") dFRatingsSaisonMed %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point(size = 3)+ labs(y="Note médiane des animes sortis en cette saison", x = "Année") + ggtitle("Note médiane des nouveaux animes selon la saison") dfAnimes %>% group_by(saison)%>% filter(!is.na(note))%>% summarise(moy_ratings = median(note)) -> dFRatingsSaisonMed dFRatingsSaisonMed %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point(size = 3)+ labs(y="Note médiane des animes sortis en cette saison", x = "Année") + ggtitle("Note médiane des nouveaux animes selon la saison") #En quelle saison sortent les meilleurs animes ? dfAnimes %>% group_by(saison)%>% filter(!is.na(note))%>% summarise(moy_ratings = mean(note)) -> dFRatingsSaison dFRatingsSaison %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point(size = 3)+ labs(y="Note moyenne des animes sortis en cette saison", x = "Année") + ggtitle("Note moyenne des nouveaux animes selon la saison") dfAnimes %>% group_by(saison)%>% filter(!is.na(note))%>% summarise(moy_ratings = median(note)) -> dFRatingsSaisonMed dFRatingsSaisonMed %>% ggplot(aes(saison, moy_ratings, shape = saison, color = saison))+geom_point(size = 3)+ labs(y="Note médiane des animes sortis en cette saison", x = "Année") + ggtitle("Note médiane des nouveaux animes selon la saison") ####### Distribution des genres distributeGenres <- function(i){ line <- as.data.frame(i$genres) line %>% rename(genres = 1) -> Genres i[ , !(names(dfAnimes) %in% c("genres"))] -> anime newdf <- cbind(anime, Genres) return(newdf) } dfAnimesFinal <- data.frame(matrix(ncol = ncol(dfAnimes), nrow = 0)) x <- names(dfAnimes) colnames(dfAnimesFinal) <- x dfAnimesFinal for(i in 1:nrow(dfAnimes)) { row <- dfAnimes[i,] animeWithGenres <- distributeGenres(row) dfAnimesFinal <- rbind(dfAnimesFinal,animeWithGenres) } ####### Distribution des genres distributeGenres <- function(i){ line <- as.data.frame(i$genres) line %>% rename(genres = 1) -> Genres i[ , !(names(dfAnimes) %in% c("genres"))] -> anime newdf <- cbind(anime, Genres) return(newdf) } dfAnimesFinal <- data.frame(matrix(ncol = ncol(dfAnimes), nrow = 0)) x <- names(dfAnimes) colnames(dfAnimesFinal) <- x dfAnimesFinal for(i in 1:nrow(dfAnimes)) { row <- dfAnimes[i,] animeWithGenres <- distributeGenres(row) dfAnimesFinal <- rbind(dfAnimesFinal,animeWithGenres) } warnings() ####### Plot the genre the most represented dfAnimesFinal %>% mutate(Nombre=sum(1)) %>% group_by(genres) %>% summarise(NombreGenre=sum(Nombre)) %>% arrange(desc(NombreGenre)) -> mostCommonGenre mostCommonGenre <- head(mostCommonGenre,10) ggplot(mostCommonGenre,aes(x=reorder(genres,NombreGenre),y=NombreGenre)) + geom_bar(stat='Identity',aes(fill=genres)) + labs(y="Occurence", x = "Genre") + ggtitle("Les 10 genres les plus représentés") ####### Evolution des 5 genres les plus représentés sur les 5 dernières années dfAnimesFinal %>% filter(annee>1999) %>% mutate(Nombre=1) %>% group_by(genres,annee) %>% summarise(NombreGenre=sum(Nombre)) %>% arrange(desc(NombreGenre)) %>% group_by(annee) %>% slice_max(order_by = NombreGenre, n = 5) -> mostCommonGenrePast10Years ggplot(mostCommonGenrePast10Years,aes(x=annee,y=NombreGenre,color=genres)) + geom_point() + geom_line() + labs(y="Occurence", x = "Genre") + ggtitle("Evolution des 5 genres les plus représentés sur les 20 dernières années")