artificial | ||
.gitignore | ||
mydatalib.py | ||
myplotlib.py | ||
README.md | ||
requirements.txt | ||
tp1-kmeans.py | ||
tp2-agglo.py | ||
tp3-dbscan.py | ||
tp4-affinity.py | ||
tp5-artificial-dataset.py | ||
tp6-real-dataset.py |
5ISS- Analyse et Traitement de Données
Paul Faure - Arnaud Vergnet
Ce dépôt contient les sources utilisées pour le TP de 5ISS en Analyse et Traitement de Données.
Il comprend un fichier par partie de TP (tp1-kmeans.py.py
, tp2-agglo.py.py
et tp3-dbscan.py
) et deux fichiers servant de librairie commune (mydatalib.py
pour le traitement de données, myplotlib.py
pour l'affichage de graphes).
Installation
Ce TP utilise Python >3.8. Pour démarrer, cloner le dépôt et se déplacer dedans :
git clone https://git.etud.insa-toulouse.fr/vergnet/tp-analyse-donnees.git && cd tp-analyse-donnees
Ensuite créer un environnement virtuel et installer les dépendances :
python3 -m venv ./venv
pip install -r ./requirements.txt
L'environnement est maintenant prêt.
TP1
Ce tp se lance à l'aide de la commande suivante :
python3 tp1-kmeans.py
Il suppose que des jeux de données sont disponibles dans le dossier artificial
. Il va tout d'abord créer dans le dossier ./IMG/DATA_VISUALISATION
les images associées aux graphes des jeux de données golfball, xclara, et xclara après une mise à l'échelle.
Ensuite, il va appliquer l'algorithme K-Means sur le dataset xclara pour k variant de 2 à 49. Les graphes résultants sont sauvegardés dans ./IMG/k-means/xclara/CLUSTERS
. Ce script génère aussi des graphiques sur différentes métriques comme le temps de calcul ou le coefficient de silhouette pour analyser les performances de K-Means. Ces graphiques sont sauvegardés dans ./IMG/k-means/xclara/EVALUATION
.
TP2
Ce tp se lance à l'aide de la commande suivante :
python3 tp2-agglo.py
Ce script possède un fonctionnement analogue au précédent, mais utilisant un algorithme agglomerative. Les graphes résultants sont donc sauvegardés dans ./IMG/agglomerative_complete
.
TP3
Ce tp se lance à l'aide de la commande suivante :
python3 tp2-dbscan.py
Ce script possède un fonctionnement analogue aux précédents, mais utilisant un algorithme DBSCAN. Les graphes résultants sont donc sauvegardés dans ./IMG/dbscan
.