티스토리 뷰

머신러닝

[10] 로지스틱 회귀 모델

up_one 2025. 2. 11. 16:35

로지스틱 회귀 모델은 일종의 선형회귀 모델과 유사하지만 종속 변수가 범주형인 것을 대상으로 예측 결과가 분류 분석로써 활용될 수 있습니다. 종속 변수가 이항 변수의 경우, logit 변환을 통해 값이 0에서 1 사이로 변환되어 확률적 개념이 생기면 Threshold에 따라 분류할 수 있습니다. 종속 변수의 값이 1인 확률을 예측한 후, 설정한 Threshold에 따라 종속변수 1과 0을 분류하는 것입니다.

 

일반 선형회귀 모델과 달리 로지스틱 회귀 모델의 값은 아래 그래프와 같이 반드시 0에서 1 사이의 값만 산출됩니다.

선형 회귀 모델과 로지스틱 회귀 모델의 차이

 

로지스틱 회귀 모델에서 Odds(오즈)란 개념은 이항변수가 극단적일 때 일어날 확률을 비교하기 위해서 사용됩니다.

 

EX) 도심지역의 발병 확률이 1 / 2000, 비도심지역의 발병확률이 1 / 8000 일 때, 비도심지역 대비 도심지역 발병 현황을 알아보기

-> 도심 지역의 Odds비 : (1 / 2000) / (1 - 1 / 2000) = 1 / 1999

-> 비도심 지역의 Odds비 : (1 / 8000) / (1 - 1 / 8000) = 1 / 7999

-> 비도심 지역 대비 도심 지역의 Odds비 : 1 / 1999 / 1 / 7999 = 4.0015

따라서 비도심 지역에 1명의 환자가 발생할 경우 도심 지역에 4명 환자가 발생한다.

 

로지스틱 회귀 모델은 Odds(오즈)에 로그(log)를 취해 값을 0에서 1 사이로 변환하면 OLS로 모델의 계수를 추정하는 회귀 분석을 할 수 있습니다. 특정 사건이 일어날 확률(p)이 0에 가까울수록 Odds비는 '0'에 가까워지고 1에 가까울수록 무한대에 가까워지는데 이 값에 log을 취하면 0에 가까운 Odds비가 음의 무한대로 발산하는 특징을 가집니다. 이 특징 때문에 OLS로 모델의 계수를 추정하는 회귀 분석을 할 수 있는 겁니다.

 

로지스틱 회귀 모델의 계수를 추정하는 방법은 선형회귀 모델의 계수 추정법과 다른 '최대 우도 추정법'을 사용합니다. 여기서 '우도(likelihood)'란 분포가 주어지고 관측치가 주어졌을 때, 모수가 나올 가능성을 뜻합니다. 우도를 최대로 추정하는 이유는 우도가 높을수록 해당 모수를 가진 분포가 관측치에 적합하다는 뜻이기 때문입니다.

 

자세하게 우도가 최대가 되는 모수를 추정하는 방법은 조건과 절차가 필요합니다.

  • 확률함수를 곱하기 위해서는 관측치가 서로 같은 분포를 가지고 독립이어야 한다는 조건을 가진다.
  • 위 조건을 통해, 우도를 각 관측치들의 우도의 곱으로 표현
  • 우도를

최대 우도 추정법을 통한 베르누이 분포의 모수 추정하기

 

'머신러닝' 카테고리의 다른 글

[12] Xgboost  (0) 2025.02.24
[11] RandomForest Model  (0) 2025.02.13
[9] 정규화 모델 (Regularization)  (0) 2024.07.07
[8] 의사결정나무  (2) 2024.06.30
[7] 앙상블 모델  (0) 2024.06.28
TAG more
글 보관함
최근에 올라온 글