library("jsonlite")
library("tidyverse")


data<-fromJSON("C:\\Users\\Marianne\\Desktop\\projet-analyse-exploratoire\\anime-offline-database-master\\anime-offline-database.json")
dfAnimes <- as.data.frame(data)

#Nettoyage des colonnes non utilisées
dfAnimes <- select(dfAnimes, data.title, data.type, data.episodes, data.status, data.animeSeason, data.tags)

#Dedoublage de la colonne saison
dfAnimes %>% 
  mutate(annee = data.animeSeason$year) %>%
  mutate(saison = data.animeSeason$season) -> dfAnimes

#Filtrage des animes sortis avant 1960 (pas de télé :() et après 2021 et des OVAs, films, etc
dfAnimes %>%
  filter(annee > 1960) %>%
  filter(annee < 2021) %>%
  filter(data.type == "TV") -> animeCentury


#Nombre d'animes durant plus de 2 cours (estimés à 30 épisodes) par an => a améliorer
animeCentury %>%
  filter(data.episodes>30) %>%
  group_by(annee) %>%
  count() %>%
  rename(nbAnimes = n) -> longbois
  
longbois %>% ggplot(aes(annee, nbAnimes)) + geom_col()

#Evolution du nombre de lettre (moyenne et médiane) dans les titres par année
animeCentury %>%
  group_by(annee) %>%
  summarise(lettres=mean(nchar(data.title))) -> meanLettersByYear

animeCentury %>%
  group_by(annee) %>%
  summarise(lettres=median(nchar(data.title))) -> medLettersByYear

meanLettersByYear %>% ggplot(aes(annee, lettres)) + geom_col()

medLettersByYear %>% ggplot(aes(annee, lettres)) + geom_col()

#Evolution des 5 tags les plus représentés
animeCentury %>%
  group_by(annee) %>%