본문 바로가기

머신러닝24

article_rep_thumbnail [머신러닝] Random Forest 랜덤 포레스트 모델 개념 제대로 이해하기 머신러닝 Supervised Learning 모델 중 전반적으로 높은 성능을 가져 인기가 많은 랜덤포레스트(Random Forest) 모델에 대해 알아보겠습니다. 랜덤 포레스트란 어떤 모델인지, 어떻게 동작하는지, 어떤 장단점을 가지고 있는지, 사이킷런(Scikit-learn)으로 머신러닝 해보는 코드 예제를 함께 보겠습니다. 랜덤포레스트를 이해하기 전에 먼저 알아야 할 개념 : Decision Tree 랜덤포레스트(Random Forest) 모델을 제대로 알기 위해서는 Decision Tree(의사결정트리) 모델을 먼저 이해해야 합니다. 아래 포스팅을 참고해 주세요. Classification Decision Tree (결정트리) 개념 - Information gain, impurity, Entropy.. 2023. 2. 27.
article_rep_thumbnail 머신러닝 Ensemble method, Bagging (배깅), 성능 향상 방법 머신러닝에서 모델의 성능을 향상시키는 방법에는 여러가지 방법이 있습니다. 그중 Ensemble 방법은 가장 흔히 사용되는 방식 중 하나입니다. Ensemble method란 무엇인지, 그리고 그 중 Bagging(배깅)이 무엇인지, 이를 통해 어떻게 모델 성능을 향상시킬 수 있는지 살펴보겠습니다. Ensemble method란? 머신 러닝에서 Ensemble method는 여러 개별 모델을 결합하여 하나의 머신러닝 모델을 만드는 방법입니다. 이를통해 예측의 전반적인 성능과 정확도를 향상시킬 수 있습니다. Ensemble method의 기본 개념은 약한 여러 모델을 결합하면 더 강력하고 정확한 모델을 만들 수 있다는 것입니다. Ensemble method는 Decision Tree(의사 결정 트리), Ra.. 2023. 2. 26.
article_rep_thumbnail 머신러닝 Decision Tree 핵심 개념(Entropy, Information Gain) 머신러닝 모델은 수학과 통계에 기반을 두고 있습니다. 이번 포스팅에서는 Classification Tree 또는 Decision Tree가 어떤 수학에 기초하여 트리를 만들어 예측을 수행하는지 꼼꼼하게 알아보도록 하겠습니다. 핵심 개념인 엔트로피(Entropy)와 인포메이션게인(Information Gain)이 어떻게 계산되는지 살펴보겠습니다. Classification Tree(Decision Tree)가 트리를 그리는 과정 이해를 돕기 위해 데이터를 보면서 이 데이터에 대해 Decision Tree가 어떻게 트리를 그려나가는지 살펴보겠습니다. 아래 데이터는 특정 사람이 날씨와 어제 바빴는지 여부와 그리고 오늘 조깅을 했는지 여부를 기록한 데이터로, WEATHER, Busy_YESTERDAY, Jog .. 2023. 2. 24.
article_rep_thumbnail 머신러닝 Decision Tree 핵심 개념 (데이터 사이언티스트 면접 질문) 이번 포스팅에서는 머신러닝 Classification 모델 중 Decision Tree(의사결정트리)와 관련된 데이터사이언티스트 단골 면접(인터뷰) 질문 및 꼭 알고 넘어가야 하는 핵심 개념들에 대해 정리해 보겠습니다. 엔트로피(Entropy)와 인포메이션 게인(Information Gain)은 무엇인지? 엔트로피(Entropy)는 데이터의 불순도 또는 무질서를 측정하는 단위입니다. 따라서 데이터가 섞여있을 수록 높은 엔트로피를 가지고, 데이터가 하나의 클래스로 이루어져 있을수록 낮은 엔트로피를 가집니다. 인포메이션 게인(Information Gain)은 Classification Tree에서 부모 노드에서 자식 노드로 내려왔을 때 불순도(엔트로피)를 얼마나 낮춰줬는지를 측정하는 지표입니다. Decisi.. 2023. 2. 23.