L'imputation moyenne déforme les relations entre les variables Mais l'imputation moyenne déforme également les relations multivariées et affecte les statistiques telles que la corrélation. Par exemple, l'appel suivant à PROC CORR calcule la corrélation entre la variable Orig_Height et les variables Weight et Age.
Pourquoi utiliser une moyenne pour les données manquantes est une mauvaise idée ?
Moyenne réduit une variance des données En approfondissant les mathématiques, une variance plus petite conduit à un intervalle de confiance plus étroit dans la distribution de probabilité[3]. Cela ne conduit à rien d'autre qu'à introduire un biais dans notre modèle.
Pourquoi les valeurs manquantes sont-elles un problème ?
Les données manquantes posent divers problèmes. Premièrement, l'absence de données réduit la puissance statistique, qui fait référence à la probabilité que le test rejette l'hypothèse nulle lorsqu'elle est fausse. Deuxièmement, les données perdues peuvent entraîner un biais dans l'estimation des paramètres. Troisièmement, cela peut réduire la représentativité des échantillons.
Pourquoi l'imputation moyenne est-elle mauvaise ?
Problème 1: La moyenne l'imputation ne préserve pas les relations entre les variables. Certes, l'imputation de la moyenne préserve la moyenne des données observées. Donc, si les données manquent complètement au hasard, l'estimation de la moyenne reste impartiale.
Devez-vous remplacer les données manquantes par la moyenne ?
Les points de données aberrants auront un impact significatif sur la moyenne et donc, dans de tels cas, il n'est pas recommandé d'utiliser la moyenne pour remplacer les valeurs manquantes. L'utilisation de valeurs moyennes pour remplacer les valeurs manquantes peut ne pas créer un bon modèle et est donc exclue.