Exploration de données: concepts et tâches

Écrit le 18 Janvier 2025 en français avec une taille de 2,86 KB

Concepts clés de l'exploration de données

Prévision

La prévision consiste à estimer la valeur future d'une variable soumise à des changements aléatoires dans le temps. Elle est strictement appliquée aux séries chronologiques, qui sont un ensemble de données dont le domaine est le temps.

Régression

La régression est une généralisation de la classification (lorsque le domaine est constitué de classes continues) et de la prévision. Selon l'importance de l'indépendance et des variables dépendantes, le modèle résultant est un modèle de classification ou de prédiction. L'objectif est de trouver un modèle mathématique ou statistique qui relie correctement la variable dépendante aux variables indépendantes. Géométriquement, la régression consiste à trouver une fonction qui passe aussi près que possible (en moyenne) des individus qui font partie de l'échantillon.

Partenariat

Le partenariat porte sur des questions telles que "l'analyse du panier de consommation", afin d'obtenir les tendances d'achat des clients. Il vise à trouver la relation possible entre deux événements apparemment indépendants.

Approches algorithmiques et tâches

Estimation

L'estimation de la population se compose de l'échantillon (matrice de données, X) disponible. Ces paramètres représentent des informations qui peuvent être très utiles, en particulier dans les études de marché. Par exemple, des paramètres tels que le niveau de la demande pour les ordinateurs portables dans la ville de Mérida en 2010.

Regroupement

Le regroupement consiste à diviser un échantillon en deux groupes ou plus, en recherchant une variance minimale au sein des groupes et une variance maximale entre les groupes. Cela signifie que les individus qui font partie d'un groupe doivent être aussi semblables que possible. Géométriquement, cela signifie que les individus (points dans l'espace à p dimensions) devraient être aussi proches que possible. À leur tour, les individus de différents groupes doivent être aussi éloignés que possible. Chaque groupe devient une classe. Dans ces tâches, les modèles ne sont pas utilisés ou construits.

Classification

La classification consiste à développer ou à construire un modèle qui sert à attribuer une classe à un individu en fonction de sa position dans l'espace (en fonction de ses valeurs pour chaque variable). La variable dépendante de ce modèle est le type d'individu, tandis que les variables indépendantes se rapportent aux caractéristiques individuelles. Les paramètres de ce modèle dépendent de l'échantillon utilisé. L'échantillon utilisé contient un ensemble de n individus, dont chacun appartient à l'une des classes C existantes.

Entrées associées :

Étiquettes: