-------------------------------------------------------------------------------------------------------------------- @inproceedings{ zupan97dataset, author = "Blaz Zupan and Marko Bohanec and Ivan Bratko and Bojan Cestnik", title = "A Dataset Decomposition Approach to Data Mining and Machine Discovery", booktitle = "Knowledge Discovery and Data Mining", pages = "299-302", year = "1997", url = "citeseer.ist.psu.edu/zupan97dataset.html" } -------------------------------------------------------------------------------------------------------------------- @inproceedings{ koller96toward, author = "Daphne Koller and Mehran Sahami", title = "Toward Optimal Feature Selection", booktitle = "International Conference on Machine Learning", pages = "284-292", year = "1996", url = "citeseer.ist.psu.edu/koller96toward.html" } Feature selection méthode par filtre (distance = mesure de cross-entropy : KL-distance) backward elimination gère 100aine 1000ier de features => elimination des redondant/irrelevant features usage de la notion de markov blanket (couverture de markov) : suppression de features appartenant a la markov blanket des features supprimées prec. (a revoir...) comparaison avec une méthode proche utilisant une forward selection approximation de la couv. de markov d'une feature fi en selectionnant un ensemble de features fortement corrélées avec fi couts : calculs du facteur de correlation entre chaque features calcul de la KL-distance entre chaque feature et sa blanket markov approchée (de cardinal=K fixé) tests sur plusieurs BD (artificial and real-word) avec un naive-bayesian et un C4.5 et comparaison avec forward selection bonne reduction du nombre de features et coonservation voire amélioration de l'accurency perso : l'approximation s'éloigne assez du modèle théorique (blanket markov) et ressemble plus à une estimation de la coorélation entre une feature et un groupe de features de taille fixée (K). Avec cet optique l'article reste néanmoins interessant, un peu trop mathématique (pour moi) mais accompagné de klk tests et validation. pas assez avec d'autres modèles de filtres... -------------------------------------------------------------------------------------------------------------------- @inproceedings{ demsar97constructing, author = "Janez Demsar and Blaz Zupan and Marko Bohanec and Ivan Bratko", title = "Constructing Intermediate Concepts by Decomposition of Real Functions", booktitle = "European Conference on Machine Learning", pages = "93-107", year = "1997", url = "citeseer.ist.psu.edu/demsar97constructing.html" } Feature decomposition -------------------------------------------------------------------------------------------------------------------- @article{ inza00feature, author = "Inaki Inza and Pedro Larranaga and R. Etxeberria and Basilio Sierra", title = "Feature Subset Selection by Bayesian network-based optimization", journal = "Artificial Intelligence", volume = "123", number = "1-2", pages = "157-184", year = "2000", url = "citeseer.ist.psu.edu/inza99feature.html" } Features selection methode de filtre basée sur la generation de reseau bayesien approché (EBNA) utilise un paradigme proche des GA (population selection ...) utilisé avec la méthode NB classifier (naive bay.) comparaison avec des methodes forward / backtrack (hillclimbing), GA (un point CO/ multipoints) résultats en moyenne meilleurs, mais jamais optimum sur un pb donné. perso : biais lié a NB, autres methodes de comparaisons 'jouet' et trop bruts, utilisation plus en tant que filtre a redondance (defaut de NB) ke de selecteur pur. -------------------------------------------------------------------------------------------------------------------- @article{ krawieck02feature, author = " Krzyztof Krawieck", title = "Genetic programming-based construction of features for machine learnng and knowledge discovery tasks", journal = "Genetic programming and evolvable machines", volume = "3", number = "4", pages = "329-343", year = "2002", month = "December"} Features construction creation a l'aide de GP individu <=> ensemble de K fonctions (arbres), K fixe GP similaire aux conseils koza fitness : par wrapping (C4.5) => accuracy moyenne (cross validation) méthode étendue avec bloquage de klk arbres d'un individu (partie cachée de taille fixe) tests des deux methodes + sans FC : amélioration de l'accuracy moyenne perso : méthode interessante, manque de tests avec d'autres inducers, comparaison avec d'autres methodes, probleme du nombre de features fixes... (cachées ou visibles) -------------------------------------------------------------------------------------------------------------------- krawieck02coevolution Feature construction inspiré de l'approche précedente utilisation de GP-CCA (GP coop. Coev Algo) une population par feature eval en prennant le best de l'éval prec. si une pop n'améliore pas les resultat reinitialisation de la pop comparaison avec les précédents travaux => amélioration à l'aide de cette méthode + possibilité de parallelisation memes remarques que pour l'étude précédente -------------------------------------------------------------------------------------------------------------------- krawieck pairwise comparison... méthode de comparaison entre deux classeurs différente d'une simple évaluation du taux d'apprentissage/généralisation. basée sur une relation d'ordre partielle, tq si l'ensemble des exemples bien classés avec un classeur A englobe ceux avec un classeur B alors F(A)>=F(B). méthode utilisée pour la selection par tournoi entre deux classeurs générés par GP. Tous les classeurs inomparables (a!>=b et b!>=a) sont selectionnés pour la reproduction, ainsi qu'un pourcentage de parents meilleurs (selection par tournoi) M"thode interessante et parait plus logique... observation d'une amélioration par rapport à la meme méthode en comparant l'accurency des classeurs -------------------------------------------------------------------------------------------------------------------- Ming Dong, Ravi Kothari Feature Subset Selection using a new definition of classifiability Feature selection Filter approche forward selection utilisation d'une mesure de 'classifiabilité' basée sur une notion d'homogénéité au sein d'une classe d'une instance et de son voisinnage avec un subset donné. Bons rappels des autres méthodes (filter / wrapper) tests sur des exemples academiques et réels comparaison en terme d'accuracy et de tps cpu avec des méthodes de wrapper... (seulement basées sur ID3 et NB) vérification sur les exemples académiques des bons choix de features perso : algorithme gérant apparement très bien les features irrelevant, mais pas les features redondantes (selection de Correlated dans le dataset corral). manque de comparaison avec d'autres méthodes de filtres (selon l'auteur moins efficaces que les méthodes de wrapper). et d'autres inducteurs, comme C4.5 souvent pris comme réference dans les autres papiers.. résultats montrant une éfficacité (pour les irrelevant) sur les dataset réel de taille importante (59 et 649 features, avec 208 et 1000 instances). -------------------------------------------------------------------------------------------------------------------- Ron Kohavi, George H. John Wrappers for feature subset selection (14/08/96) definition de la relevance of features (+ strong and weak relevance) explications des approches wrappers(forward-backward,C4.5-NB,HC-bestfirst)/filters (focus, relief) tests et analyses des resultats sur les wrappers (avec toutes les combinaisons proposées) sur différents datasets (academics et reels) comparaison avec relieveD (filter) bonne survey -------------------------------------------------------------------------------------------------------------------- Aymeric ZILS (these) Extraction de descripteurs musicaux: une approche evolutionniste Feature construction GP (parisienne ?) une feature = un individu evaluation par mesure (discriminant de fisher ou autre selon variables) apparement l'évaluation d'un descripteur (fonction) se fait suivant sa qualité pour classer un probleme donné... Manque de comparaisons, d'explications claires sur la fitness mise en jeu ... ------------------------------------------------------------------------------------------------------------------- Peter A. Flach, Nada Lavrac The role of feature construction in inductive rule learning