KDnuggets (Français)

Classé dans : Articles | 0
par Sebastian Raschka, Michigan State University.

étant donné un ensemble de données arbitraire, vous ne savez généralement pas quel noyau peut fonctionner le mieux. Je recommande de commencer par l’espace d’hypothèse le plus simple d’abord-étant donné que vous ne savez pas grand-chose sur vos données-et de progresser vers les espaces d’hypothèse plus complexes. Donc, le noyau linéaire fonctionne bien si votre ensemble de données est linéairement séparable; cependant, si votre ensemble de données n’est pas linéairement séparable, un noyau linéaire ne va pas le couper (presque au sens littéral;)).,

pour des raisons de simplicité (et de visualisation), supposons que notre jeu de données se compose de 2 dimensions uniquement. Ci-dessous, j’ai tracé la décision régions d’un SVM linéaire sur 2 caractéristiques de l’iris ensemble de données:

Cela fonctionne parfaitement bien. Et voici le SVM du noyau RBF:

maintenant, il semble que le SVM du noyau linéaire et RBF fonctionnerait aussi bien sur cet ensemble de données. Alors, pourquoi préférer l’hypothèse linéaire plus simple? Pensez au rasoir D’Occam dans ce cas particulier., Un SVM linéaire est un modèle paramétrique, un SVM du noyau RBF ne l’est pas, et la complexité de ce dernier augmente avec la taille de l’ensemble d’apprentissage. Non seulement il est plus coûteux de former une SVM du noyau RBF, mais vous devez également garder la matrice du noyau autour, et la projection dans cet espace de dimension supérieure « infinie » où les données deviennent linéairement séparables est également plus chère pendant la prédiction. De plus, vous avez plus d’hyperparamètres à régler, donc la sélection du modèle est également plus chère! Et enfin, il est beaucoup plus facile de surajuster un modèle complexe!,

D’accord, ce que j’ai dit ci-dessus semble très négatif en ce qui concerne les méthodes du noyau, mais cela dépend vraiment de l’ensemble de données. Par exemple, si vos données ne sont pas séparables linéairement, cela n’a pas de sens d’utiliser un classificateur linéaire:

dans ce cas, un noyau RBF aurait tellement plus de sens:

en tout cas, je ne dérangerais pas trop à propos du noyau Polynomial. En pratique, il est moins utile pour des raisons d’efficacité (calculatoire et prédictive)., Ainsi, la règle empirique est: utilisez des SVM linéaires (ou régression logistique) pour les problèmes linéaires, et des noyaux non linéaires tels que le noyau de fonction de base radiale pour les problèmes non linéaires.

La région de décision SVM du noyau RBF est également une région de décision linéaire., Ce que fait réellement RBF kernel SVM, c’est de créer des combinaisons non linéaires de vos entités pour élever vos échantillons dans un espace d’entités de dimension supérieure où vous pouvez utiliser une limite de décision linéaire pour séparer vos classes:

D’accord, ci-dessus, je vous ai présenté un exemple intuitif où nous pouvons visualiser nos données en 2 dimensions … mais que faisons-nous dans un problème réel, c’est-à-dire un ensemble de données avec plus de 2 dimensions? Ici, nous voulons garder un œil sur notre fonction objective: minimiser la perte de charnière., Nous configurerions une recherche d’hyperparamètres (recherche de grille, par exemple) et comparerions différents noyaux les uns aux autres. Basé sur la fonction de perte (ou une mesure de performance telle que la précision, F1, MCC, ROC auc, etc.) nous pourrions déterminer quel noyau est « approprié » pour la tâche donnée.

Bio: Sebastian Raschka est un « Data Scientist » et un passionné D’apprentissage automatique avec une grande passion pour Python & open source. Auteur de ‘Python Machine Learning’. Université D’État Du Michigan.

d’Origine. Republié avec l’autorisation.,

Related:

  • quand le Deep Learning fonctionne-t-il mieux que les SVM ou les forêts aléatoires?
  • Le développement de la Classification en tant que machine D’apprentissage
  • Pourquoi mettre en œuvre des algorithmes D’apprentissage automatique à partir de zéro?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *