on analyse

Find a file

Faure Paul c7b9e02f93 ajout extension .py		2022-01-09 11:28:38 +01:00
artificial	Initial commit V1	2021-11-24 14:16:14 +01:00
new-data	start tp6	2022-01-09 10:55:12 +01:00
.gitignore	Amelioration des librairies, fin de la partie clustering agglomeratif	2021-12-03 18:22:15 +01:00
mydatalib.py	Utilisation du jeu de données réel	2022-01-09 11:26:28 +01:00
myplotlib.py	Use mean shift instead of affinity propagation	2022-01-08 21:07:47 +01:00
README.md	Improved README	2022-01-08 17:07:07 +01:00
requirements.txt	Add requirements file	2022-01-06 14:47:11 +01:00
tp1-kmeans.py	Clean up scripts	2022-01-08 16:55:24 +01:00
tp2-agglo.py	Clean up scripts	2022-01-08 16:55:24 +01:00
tp3-dbscan.py	Ajout dataset artificiels	2022-01-09 10:35:05 +01:00
tp4-mean-shift.py	Use mean shift instead of affinity propagation	2022-01-08 21:07:47 +01:00
tp5-artificial-dataset.py	Ajout dataset artificiels	2022-01-09 10:35:05 +01:00
tp5-preprocessing.py	Utilisation du jeu de données réel	2022-01-09 11:26:28 +01:00
tp6-preprocessing.py	ajout extension .py	2022-01-09 11:28:38 +01:00
tp6-real-dataset.py	Utilisation du jeu de données réel	2022-01-09 11:26:28 +01:00

README.md

5ISS - Analyse et Traitement de Données

Paul Faure - Arnaud Vergnet

Ce dépôt contient les sources utilisées pour le TP de 5ISS en Analyse et Traitement de Données.

Il comprend un fichier par partie de TP (démarrant par tpX avec X la partie du tp) et deux fichiers servant de librairie commune (mydatalib.py pour le traitement de données, myplotlib.py pour l'affichage de graphes).

Installation

Ce TP utilise Python >3.8. Pour démarrer, cloner le dépôt et se déplacer dedans :

git clone https://git.etud.insa-toulouse.fr/vergnet/tp-analyse-donnees.git && cd tp-analyse-donnees

Ensuite créer un environnement virtuel et installer les dépendances :

python3 -m venv ./venv
pip install -r ./requirements.txt

Chaque scripte suppose que des jeux de données venant du benchmark de deric sont disponibles dans le dossier artificial.

L'environnement est maintenant prêt.

Fonctionnement général

Chaque script va générer les graphes de résultat dans le dossier ./IMG. Le dossier ./IMG/DATA_VISUALISATION contient les graphes des jeux de données brutes et mises à l'échelle, sans clustering.

Ensuite, nous avons un dossier par algorithme. Chacun contient ensuite un dossier par jeu de donnée. Enfin, ces jeux de données possèdent un dossier CLUSTERS contenant les graphes de clusters et un dossier EVALUATIONS contenant les métriques d'évaluation.

Chaque script peut être configuré à l'aide de plusieurs variables :

dataset_name: le nom du dataset à utiliser
path: le chemin vers le dossier contenant les dataset

Certains scripts possèdent d'autres variables de configurations expliquées dans la suite.

Parties du TP

K-Means

Cette partie se lance à l'aide de la commande suivante :

python3 tp1-kmeans.py

Ce script va appliquer l'algorithme K-Means sur le dataset donné pour k variant de 2 à 49.

Agglomerative

Cette partie se lance à l'aide de la commande suivante :

python3 tp2-agglo.py

Ce script possède un fonctionnement analogue au précédent, mais utilisant un algorithme agglomerative.

Une variable de configuration supplémentaire est disponible :

linkage: le type de linkage à utiliser

DBSCAN

Cette partie se lance à l'aide de la commande suivante :

python3 tp2-dbscan.py

Ce script possède un fonctionnement analogue aux précédents, mais utilisant un algorithme DBSCAN.