Selekcja zmiennych metodami statystycznymi i uczenia maszynowego. Porównanie podejść na przykładzie danych finansowych

Urszula Grzybowska; Marek Karwański

doi:10.22630/MIBE.2023.24.4.18

pdf

Opublikowane:

Dec 30, 2023

Numer

Tom 24 Nr 4 (2023)

Dział

Artykuły

CitedBy/Share

Urszula Grzybowska

Instytut Informatyki Technicznej

https://orcid.org/0000-0001-7342-5382

Marek Karwański

Instytut Informatyki Technicznej

https://orcid.org/0000-0001-5192-7920

DOI: https://doi.org/10.22630/MIBE.2023.24.4.18

Słowa kluczowe : selekcja zmiennych, uczenie maszynowe, ważność zmiennych

Abstrakt

Zgodnie z nowymi dyrektywami międzynarodowego nadzoru finansowego (MSSF9) banki powinny przyjrzeć się nowemu zestawowi narzędzi analitycznych, takich jak uczenie maszynowe. Wprowadzenie tych metod do praktyki bankowej wymaga przeformułowania celów biznesowych, zarówno w zakresie trafności przewidywań, jak i definicji czynników ryzyka. W artykule porównano metody selekcji zmiennych i przypisania „ważności” w modelach statystycznych i algorytmicznych. Obliczenia przeprowadzono na przykładzie klasyfikacji danych finansowych. Na wybranych zbiorach zmiennych porównano skuteczność różnych algorytmów uczenia maszynowego. Wyniki analiz wskazują na potrzebę rewizji koncepcji „ważności” zmiennej, tak aby nie była ona zależna od struktury modelu.

Jak cytować

Grzybowska, U., & Karwański, M. (2023). Selekcja zmiennych metodami statystycznymi i uczenia maszynowego. Porównanie podejść na przykładzie danych finansowych. Metody Ilościowe W Badaniach Ekonomicznych, 24(4), 229–241. https://doi.org/10.22630/MIBE.2023.24.4.18

Bibliografia

Adler A. I., Painsky A. (2022) Feature Importance in Gradient Boosting Trees with Cross-Validation Feature Selection. Entropy, 24(5), 687. https://doi.org/10.3390/e24050687. (Crossref)

Ben Jabeur S., Stef N., Carmona P. (2023) Bankruptcy Prediction using the XGBoost Algorithm and Variable Importance Feature Engineering. Comput Econ, 61, 715-741. https://doi.org/10.1007/s10614-021-10227-1. (Crossref)

Breiman L. (2001) Statistical Modeling: The Two Cultures. Statistical Science, 16(3), 199-215. (Crossref)

De Sa C.R. (2019) Variance-Based Feature Importance in Neural Networks. [in:] Kralj Novak P., Šmuc T., Džeroski S. (eds) Discovery Science, Lecture Notes in Computer Science, 11828, Springer, Cham. https://doi.org/10.1007/978-3-030-33778-0_24. (Crossref)

Engelmann B., Rauchmeier R. (2011) The Basel II: Risk Parameters. Estimation, Validation, Stress Testing - with Applications to Loan Risk Management. Springer Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-16114-8. (Crossref)

Elith J., Leathwick J. R. and Hastie T. (2008) A Working Guide to Boosted Regression Trees. Journal of Animal Ecology, 77, 802-813. https://doi.org/10.1111/j.1365-2656.2008.01390.x. (Crossref)

Gajowniczek K., Wu J., Gupta S., Bajaj C. (2022) HOFS: Higher Order Mutual Information Approximation for Feature Selection in R. SoftwareX, 19, 1-9. https://doi.org/10.1016/j.softx.2022.101148. (Crossref)

Hastie T., Tibshirani R., Friedman J. (2008) The Elements of Statistical Learning (2nd ed.), Springer.

Hastie T., Tibshirani R., Wainwright M. (2015) Statistical Learning with Sparsity: The Lasso and Generalizations. New York Chapman & Hall/CRC. https://doi.org/10.1201/b18401. (Crossref)

Hopf K., Sascha R. (2021) Filter Methods for Feature Selection in Supervised Machine Learning Applications - Review and Benchmark. arXiv preprint arXiv:2111.12140, 2021.

Jia W., Sun M., Lian J. et al. (2022) Feature Dimensionality Reduction: A Review. Complex Intell. Syst., 8, 2663-2693. https://doi.org/10.1007/s40747-021-00637-x. (Crossref)

Kohavi R, John G. H. (1997) Wrappers for Feature Subset Selection. Artificial Intelligence, 97(1-2), 273-324. https://doi.org/10.1016/S0004-3702(97)00043-X. (Crossref)

Lal T. N., Chapelle O., Weston J., Elisseeff A. (2006) Embedded Methods. [in:] Guyon I., Nikravesh M., Gunn S., Zadeh L. A. (eds) Feature Extraction. Studies in Fuzziness and Soft Computing, 207, Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-35488-8_6. (Crossref)

Li J., Cheng K., Wang S., Morstatter F., Trevino R. P., Tang J., Liu H. (2017) Feature Selection: A Data Perspective. ACM Computing Surveys, 50(6), Article 94, 1-45. https://doi.org/10.1145/3136625. (Crossref)

Olden J., Joy M., Death R. (2004) An Accurate Comparison of Methods for Quantifying Variable Importance in Artificial Neural Networks using Simulated Data. Ecological Modelling, 178(3-4), 389-397. https://doi.org/10.1016/j.ecolmodel.2004.03.013. (Crossref)

Pudjihartono N., Fadason T., Kempa-Liehr A. W., O'Sullivan J. M. (2022) A Review of Feature Selection Methods for Machine Learning-Based Disease Risk Prediction. Front. Bioinform, 2(927312). doi: 10.3389/fbinf.2022.927312. (Crossref)

Sánchez-Maroño N., Alonso-Betanzos A., Tombilla-Sanromán M. (2007) Filter Methods for Feature Selection – A Comparative Study. [in:] Yin H., Tino P., Corchado E., Byrne W., Yao X. (eds) Intelligent Data Engineering and Automated Learning - IDEAL 2007. IDEAL 2007. Lecture Notes in Computer Science, 4881, Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-77226-2_19. (Crossref)

Taylor J., Tibshirani R. J. (2015) Statistical Learning and Selective Inference. Proc Natl Acad Sci U S A, 112(25), 7629-34. doi: 10.1073/pnas.1507583112. (Crossref)

Vergara J. R., Estévez P.A. (2014) A Review of Feature Selection Methods Based on Mutual Information. Neural Comput & Applic, 24, 175-186. https://doi.org/10.1007/s00521-013-1368-0. (Crossref)

Zebari R., Abdulazeez A., Zeebaree D., Zebari D., Saeed J. (2020) A Comprehensive Review of Dimensionality Reduction Techniques for Feature Selection and Feature Extraction. Journal of Applied Science and Technology Trends, 1(2), 56-70. https://doi.org/10.38094/jastt1224. (Crossref)

Statystyki

Downloads

Download data is not yet available.

Rekomendowane teksty

Inne teksty tego samego autora

Urszula Grzybowska, Ludwik Wicki, Wykorzystanie metody DEA do analizy zmian produktywności i efektywności w zakresie produkcji zbóż według województw w latach 1997-2019 , Metody Ilościowe w Badaniach Ekonomicznych: Tom 23 Nr 4 (2022)
Bolesław Borkowski, Marek Karwański, Wiesław Szczesny, PORÓWNANIE SKUTECZNOŚCI DWÓCH KULTUR ANALITYCZNYCH , Metody Ilościowe w Badaniach Ekonomicznych: Tom 22 Nr 4 (2021)
Marek Karwański, Urszula Grzybowska, Vassilis Kostoglou, Ewa Mierzejewska, Katarzyna Szamotulska, Application of ITransformers to Predicting Preterm Birth Rate. Comparison with the ARIMA Model , Metody Ilościowe w Badaniach Ekonomicznych: Tom 25 Nr 3 (2024)
Urszula Grzybowska, Marek Karwański, Effectiveness of Variable Selection Methods for Machine Learning and Classical Statistical Models , Metody Ilościowe w Badaniach Ekonomicznych: Tom 25 Nr 2 (2024)
Marek Karwański, Urszula Grzybowska, APPLICATION OF L-MOMENTS IN HOMOGENEITY EXAMINATION FOR GROUPS OF PRODUCTION COMPANIES DISTINGUISHED BY DEA , Metody Ilościowe w Badaniach Ekonomicznych: Tom 18 Nr 3 (2017)
Marek Karwański, Krzysztof Zmarzłowski, MODELE PROGNOZ EKONOMETRYCZNYCH , Metody Ilościowe w Badaniach Ekonomicznych: Tom 16 Nr 4 (2015)
Urszula Grzybowska, Marek Karwański, Wykorzystanie miar matematycznych i biznesowych do porównania modeli macierzy migracji stosowanych w analizie ryzyka kredytowego , Metody Ilościowe w Badaniach Ekonomicznych: Tom 12 Nr 2 (2011)
Urszula Grzybowska, Marek Karwański, APPLICATION OF MIXED MODELS AND FAMILIES OF CLASSIFIERS TO ESTIMATION OF FINANCIAL RISK PARAMETERS , Metody Ilościowe w Badaniach Ekonomicznych: Tom 16 Nr 1 (2015)
Urszula Grzybowska, Marek Karwański, APPLICATION OF MIGRATION MATRICES TO RISK EVALUATION AND THEIR IMPACT ON PORTFOLIO VALUE , Metody Ilościowe w Badaniach Ekonomicznych: Tom 14 Nr 1 (2013)
Urszula Grzybowska, Marek Karwański, FAMILIES OF CLASSIFIERS – APPLICATION IN DATA , Metody Ilościowe w Badaniach Ekonomicznych: Tom 15 Nr 2 (2014)

Licencja

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne 4.0 Międzynarodowe.

Publikowane artykuły dostępne są na warunkach Open Access na zasadach licencji Creative Commons CC BY-NC – do celów niekomercyjnych udostępnione materiały mogą być kopiowane, drukowane i rozpowszechniane. Autorzy ponoszą opłatę za opublikowanie artykułu.

Article Sidebar

Main Article Content

Article Details

Downloads

policy Polityka prywatności