Informatique et Techniques Numériques en Economie
-
TD 5 - Arbres de décision
1- Présentation générale
Les
TDs précédents ont permis de générer des données. L'analyse OLAP qui a
été menée sur ces données a permis d'illustrer l'utilisation de ce
premier outil d'analyse. On considère ici un nouvel outil
d'apprentissage : les arbres de décision. Ce TD doit aboutir au rendu
d'une synthèse -au plus tard lors de la dernière séance- sur
l'utilisation de l'outil, son intérêt dans le cas du site créé
précédemment, son intérêt dans l'analyse de données en général.
2- Compétences à acquérir
- Savoir utiliser un outil particulier de création d'arbres de décision : Dtree
- Savoir analyser les graphiques qui sont créés à partir d'un ensemble de données
- Avoir une approche critique par rapport à l'outil d'analyse que représentent les arbres de décision
3- Premiers Essais
On commence par travailler sur deux ensembles tests. L'applet se trouve sur :
DTree. En lançant l'applet, on accède cette interface :
Le menu File offre plusieurs possibilités :
- Create New Dataset : création manuelle d'un nouvel ensemble de données
- Load Sample Dataset : utilisation d'un fichier de données au format .txt présent dans le repertoire de l'applet
Dans un premier temps, on va travailler via Load Sample Dataset. Chargez notamment les données MailReading et TestSet :
- Chargez
les données par Load Sample Dataset. Vous constatez sous l'onglet
Create que les données sont automatiquement réparties en un ensemble
d'apprentissage (Training Examples) et un ensemble de test (Test
Examples). Vous pouvez forcer la répartition des occurences via le
bouton View/Edit Ex (1 sur le schéma)
- Passer à l'interface de résolution : onglet solve (2 sur le schéma)
- Lancer
l'algorithme en plusieurs étapes : utiliser le bouton Step, l'arbre va
se constuire peu à peu. Vous pouvez réorganiser les noeuds qui
apparaissent en faisant glisser les éléments et en organisant l'arbre
comme vous le voulez.
- Expliquer la formation de l'arbre et le résultat qui apparaît
- L'interface est assez riche, vous êtes libres de l'explorer pour préciser l'analyse sur les données
4- Travail sur les données générées.
4.1 Recupération des données de la table Achat
Pour rentrer vos données, vous devez produire un ensemble de données
CSV à partir de votre table Achat, avec la dernière valeur de chaque
ligne qui correspond à la variable d'apprentissage. Voici un exemple de
fichier qui convient : Exemple sur des données bancaires. Une fois votre fichier produit
à ce format, copier l'ensemble du contenu du document et aller sur : EntreeCSV,
donner un nom à votre ensemble de données, par exemple votreNom_data, envoyer vos données. Vous retrouverez ensuite vos données dans la
liste de l'applet via Load Sample Dataset.
4.2 Analyse des données
- Quelles sont les variables pertinentes pour l'analyse des données ? Donner des copies d'écrans sur des exemples
- Qu'apporte D-Tree pour l'analyse des données ?
- Comparer la méthode d'analyse des données par arbres de décisions et la méthode d'analyse des données OLAP
proposée dans le TD précédent.