Exploration de données: concepts et tâches
Classified in Informatique
Written at on français with a size of 2,86 KB.
Concepts clés de l'exploration de données
Prévision
La prévision consiste à estimer la valeur future d'une variable soumise à des changements aléatoires dans le temps. Elle est strictement appliquée aux séries chronologiques, qui sont un ensemble de données dont le domaine est le temps.
Régression
La régression est une généralisation de la classification (lorsque le domaine est constitué de classes continues) et de la prévision. Selon l'importance de l'indépendance et des variables dépendantes, le modèle résultant est un modèle de classification ou de prédiction. L'objectif est de trouver un modèle mathématique ou statistique qui relie correctement la variable dépendante aux variables indépendantes. Géométriquement, la régression consiste à trouver une fonction qui passe aussi près que possible (en moyenne) des individus qui font partie de l'échantillon.
Partenariat
Le partenariat porte sur des questions telles que "l'analyse du panier de consommation", afin d'obtenir les tendances d'achat des clients. Il vise à trouver la relation possible entre deux événements apparemment indépendants.
Approches algorithmiques et tâches
Estimation
L'estimation de la population se compose de l'échantillon (matrice de données, X) disponible. Ces paramètres représentent des informations qui peuvent être très utiles, en particulier dans les études de marché. Par exemple, des paramètres tels que le niveau de la demande pour les ordinateurs portables dans la ville de Mérida en 2010.
Regroupement
Le regroupement consiste à diviser un échantillon en deux groupes ou plus, en recherchant une variance minimale au sein des groupes et une variance maximale entre les groupes. Cela signifie que les individus qui font partie d'un groupe doivent être aussi semblables que possible. Géométriquement, cela signifie que les individus (points dans l'espace à p dimensions) devraient être aussi proches que possible. À leur tour, les individus de différents groupes doivent être aussi éloignés que possible. Chaque groupe devient une classe. Dans ces tâches, les modèles ne sont pas utilisés ou construits.
Classification
La classification consiste à développer ou à construire un modèle qui sert à attribuer une classe à un individu en fonction de sa position dans l'espace (en fonction de ses valeurs pour chaque variable). La variable dépendante de ce modèle est le type d'individu, tandis que les variables indépendantes se rapportent aux caractéristiques individuelles. Les paramètres de ce modèle dépendent de l'échantillon utilisé. L'échantillon utilisé contient un ensemble de n individus, dont chacun appartient à l'une des classes C existantes.