Algorithme K-NN, validation croisée, base de données, rééquilibrage, hold-out validation, data set
Avec un trop petit k, l'effet loupe est trop important, ce qui laisse une trop grande part à l'aléatoire de la répartition des éléments
Lorsque que k prend une valeur maximale, le résultat dépend du nombre d'éléments présents dans chaque catégorie. Si une catégorie est majoritaire, elle sera plus souvent voisine de notre cible.
[...] Comment rendre un algorithme K-NN plus performant par la validation croisée ? Le choix de k est déterminant pour obtenir des résultats pertinents On a vu que la détermination d'une catégorie dépend pour beaucoup du choix de le nombre de voisins. Avec un trop petit l'effet loupe est trop important, ce qui laisse une trop grande part à l'aléatoire de la répartition des éléments Lorsque que k prend une valeur maximale, le résultat dépend du nombre d'éléments présents dans chaque catégorie. [...]
[...] Le meilleur moyen de trouver un bon k est de faire une validation croisée. J'explique d'abord hold-out validation, une version simplifiée de la validation croisée, puis j'expliquerais en détail celle-ci. Pour le hold-out validation : On sépare la base de données en deux data set pour entraîner le modèle et un autre pour le tester. Par exemple, deux tiers d'échantillon pour un autre tiers tous les deux tirés au hasard. Chaque profil du data set de test va être comparé aux data set d'entraînement. [...]
[...] Ensuite, on sélectionne un de ces blocs pour le data set de test, ici le pli 3 et on utilise les blocs restants en data sets d'entraînements. On entraîne le modèle et on le teste. Ensuite, on réitère le méthode mais cette fois ci, avec un autre bloc de test et les blocs restants servent à l'entraînement. On répète la procédure jusqu'à ce que chaque pli soit utilisé une fois pour le test. Que le modèle entraîné soit testé sur plusieurs bases d'apprentissage différentes et qu'il obtienne malgré tout de bons résultats sur différentes bases de test nous assure qu'il est robuste. [...]
[...] Si sur mes 3 plis, j'ai comme pourcentage de prédictions correctes : et alors la performance de mon modèle dépend beaucoup du data set d'entraînement et il faudrait faire davantage d'investigations, changer de modèle ou changer la valeur de k. Le but étant d'avoir pour chaque itération. Supposons maintenant que nous avions opté simplement pour un hold-out validation c'est-à-dire une seule itération. Et que par chance, notre performance s'élevait à nous penserions que nous avons un très bon modèle alors que ce n'est pas le cas. On peut alors effectuer cette validation croisée pour différentes valeurs de k et constater quelle valeur permet d'obtenir la meilleure efficacité. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture