본문 바로가기

머신러닝24

article_rep_thumbnail 불균형 데이터(Imbalanced Data) 머신러닝 Classification 문제점 해결방법 머신러닝 Classification을 할 때 흔히 접하는 문제는 데이터가 불균형하게 형성되어 있는 것입니다. 우리가 관심가지는 데이터를 현실적으로 충분하게 얻을 수 없을 때 발생합니다. 불균형 데이터(Imbalanced Data)를 가지고 머신러닝할 때 발생할 수 있는 문제점과 해결 방법에 대해 알아보겠습니다. 불균형 데이터란(Imbalanced Data)? 불균형 데이터는 데이터 세트의 클래스 분포가 불균일한 상황을 의미하며, 한 클래스의 샘플 수가 다른 클래스보다 현저히 적은 경우입니다. 이는 주로 사기 탐지(Fraud Detection, 스팸 필터링(Spam filtering) 또는 의료 진단과 같은 실제 Classification에서 일반적으로 발생하는 문제로, 소수 클래스(positive)에 해.. 2023. 2. 23.
article_rep_thumbnail 머신러닝 Feature Selection 개념, 중요성, 하는 방법 머신러닝 프로세스 중 Feature Selection 과정은 퍼포먼스를 높이기 위해 반드시 필요한 과정입니다. 이 포스팅에서는 Feature Selection이란 무엇인지 이해하고, Feature Selection이 필요한 이유와 Feature Selection을 하는 방법에는 어떤 것들이 있는지 알아보도록 하겠습니다. Feature Selection이란? Feature Selection은 머신러닝 프로세스 중 하나로 데이터에서 중요한 속성들을 찾아내는 과정입니다. 예를 들면 당뇨병인지 여부를 판단하는 Classification 모델을 만든다고 할 때, 학습용 데이터에는 환자들의 건강 정보와 기타 개인 정보들이 있을 수 있습니다. 환자의 나이나 식습관, 다른 질병 보유 여부 등의 경우 당뇨병을 예측하는 .. 2023. 2. 22.
article_rep_thumbnail 머신러닝 ROC curve(커브), AUC 개념 제대로 이해하기 머신러닝 Classification 모델에 있어서 ROC 커브와 AUC는 몰라서는 안되는 정말 중요한 개념입니다. 이를 이해하는 데 있어 필수적으로 같이 알아야하는 Threshold, Sensitivity, Specificity 그리고 Youden Index 개념까지 함께 알아보겠습니다. ROC 커브란? ROC 커브는 "Receiver Operating Characteristic" 커브로 binary classification 모델의 퍼포먼스를 나타내는 그래프입니다. 그래프의 X축은 False Positive Rate(FPR) Y축은 True Positive Rate(TPR)을 나타냅니다. 모델의 Threshold가 변함에 따라 TPR과 FPR 변화 추이를 그린 그래프입니다. (Threshold가 무엇인.. 2023. 2. 22.
article_rep_thumbnail [머신러닝] KNN 알고리즘 (K-Nearest Neighbor) K-Nearest Neighbor(KNN) 알고리즘은 Supervised Learning (지도학습) 머신러닝에서 가장 유명한 알고리즘 중 하나입니다. KNN 모델이 어떻게 동작하는지, 핵심적인 개념과 가장 적절한 K값을 찾는 방법, 그리고 사이킷런(Scikit-learn)으로 KNN 알고리즘을 적용해보는 예제를 다뤄보겠습니다. KNN(K-nearest Neighbor) 알고리즘이란? K-nearest neighbor (KNN) 알고리즘은 대표적인 Supervised Learning(지도학습) 알고리즘 중 하나입니다. KNN 알고리즘은 Classification이나 Regression에 사용되는 정말 간단하면서도 널리 활용되는 머신러닝 알고리즘입니다. KNN알고리즘은 test data에 있는 각 데이터 .. 2023. 2. 20.