L'algorithme k-Means n'est pas applicable aux données catégorielles, car les variables catégorielles sont discrètes et n'ont pas d'origine naturelle. Donc, calculer la distance euclidienne pour un tel espace n'a pas de sens.
Pouvons-nous utiliser le clustering pour les données catégorielles ?
Les données catégorielles ont été converties en numériques en attribuant une valeur de rang. C'est un fait qu'un ensemble de données catégorielles peut être regroupé en tant qu'ensembles de données numériques.
Peut-on utiliser la moyenne pour les variables catégorielles ?
Il n'y a aucun moyen de trouver une moyenne à partir de ces données car il n'y a pas de couleur "moyenne" des yeux. Vous pouvez trouver les proportions, mais pas la moyenne. J'espère que cela vous aidera !
Que faut-il utiliser lorsque les données sont catégorielles ?
Les données catégorielles sont analysées à l'aide de mode et de distributions médianes, où les données nominales sont analysées avec le mode tandis que les données ordinales utilisent les deux. Dans certains cas, les données ordinales peuvent également être analysées à l'aide de statistiques univariées, de statistiques bivariées, d'applications de régression, de tendances linéaires et de méthodes de classification.
Qu'est-ce que le clustering avec des attributs catégoriels ?
Le regroupement de données catégorielles fait référence au cas où les objets de données sont définis sur des attributs catégoriques … Autrement dit, il n'y a pas d'ordre unique ou de fonction de distance inhérente pour les valeurs catégorielles, et il n'y a pas de mappage des valeurs catégorielles aux valeurs numériques qui soit sémantiquement sensible.