chabisik
/
tp_apprentissage


			
							1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253
							import os
from scipy.io import arff
from sklearn.cluster import KMeans
from graphs import clustering_plot


###########################################
###########################################
### LIMITES DE LA METHODE KMEANS        ###
###                                     ###
### Données choisies:                   ###
### cure-t2-4k.arff     --> 6 clusters  ###
### banana.arff         --> 2 clusters  ###
###                                     ###
### Etudiant: Abdel Kader CHABI SIKA B. ###
### DGEI / 5 SDBD 2020-2021             ###
###########################################
###########################################

files = ["cure-t2-4k.arff", "banana.arff"]
n_clusters = {"cure-t2-4k.arff":6, "banana.arff":2}

print("Génération des figures ...")
# Création des différents dossiers d'output
try:
    os.mkdir("KMeansOutput")
except FileExistsError:
    pass
try:
    os.mkdir("KMeansOutput/limits")
except FileExistsError:
    pass

################################
### NOMBRE DE CLUSTERS CONNU ###
################################
for file in files:
    # Chargement des données contenues dans le fichier
    data = arff.loadarff(f="artificial/"+file)[0]

    # Extraction des points contenus dans la donnée
    points = [[c[0],c[1]] for c in data]

    # Création d'un modèle KMeans pour le clustering des points
    modele_kmeans = KMeans(n_clusters=n_clusters[file], init="k-means++")

    # Clustering et prédiction des clusters
    predictions = modele_kmeans.fit_predict(points)

    # Plotting des clusters
    clustering_plot([p[0] for p in points], [p[1] for p in points], predictions, xlabel="Abcisses", ylabel="Ordonnes",
                    fig_title="Graphe de visualisation des clusters de "+file+"\nMéthode: KMeans",
                    output="KMeansOutput/limits/bad_clusters_" + file.split(".")[0] + "_K_connu.png")#, show=True)