티스토리 뷰
로지스틱 회귀 모델은 일종의 선형회귀 모델과 유사하지만 종속 변수가 범주형인 것을 대상으로 예측 결과가 분류 분석로써 활용될 수 있습니다. 종속 변수가 이항 변수의 경우, logit 변환을 통해 값이 0에서 1 사이로 변환되어 확률적 개념이 생기면 Threshold에 따라 분류할 수 있습니다. 종속 변수의 값이 1인 확률을 예측한 후, 설정한 Threshold에 따라 종속변수 1과 0을 분류하는 것입니다.
일반 선형회귀 모델과 달리 로지스틱 회귀 모델의 값은 아래 그래프와 같이 반드시 0에서 1 사이의 값만 산출됩니다.
로지스틱 회귀 모델에서 Odds(오즈)란 개념은 이항변수가 극단적일 때 일어날 확률을 비교하기 위해서 사용됩니다.
EX) 도심지역의 발병 확률이 1 / 2000, 비도심지역의 발병확률이 1 / 8000 일 때, 비도심지역 대비 도심지역 발병 현황을 알아보기
-> 도심 지역의 Odds비 : (1 / 2000) / (1 - 1 / 2000) = 1 / 1999
-> 비도심 지역의 Odds비 : (1 / 8000) / (1 - 1 / 8000) = 1 / 7999
-> 비도심 지역 대비 도심 지역의 Odds비 : 1 / 1999 / 1 / 7999 = 4.0015
따라서 비도심 지역에 1명의 환자가 발생할 경우 도심 지역에 4명 환자가 발생한다.
로지스틱 회귀 모델은 Odds(오즈)에 로그(log)를 취해 값을 0에서 1 사이로 변환하면 OLS로 모델의 계수를 추정하는 회귀 분석을 할 수 있습니다. 특정 사건이 일어날 확률(p)이 0에 가까울수록 Odds비는 '0'에 가까워지고 1에 가까울수록 무한대에 가까워지는데 이 값에 log을 취하면 0에 가까운 Odds비가 음의 무한대로 발산하는 특징을 가집니다. 이 특징 때문에 OLS로 모델의 계수를 추정하는 회귀 분석을 할 수 있는 겁니다.
로지스틱 회귀 모델의 계수를 추정하는 방법은 선형회귀 모델의 계수 추정법과 다른 '최대 우도 추정법'을 사용합니다. 여기서 '우도(likelihood)'란 분포가 주어지고 관측치가 주어졌을 때, 모수가 나올 가능성을 뜻합니다. 우도를 최대로 추정하는 이유는 우도가 높을수록 해당 모수를 가진 분포가 관측치에 적합하다는 뜻이기 때문입니다.
자세하게 우도가 최대가 되는 모수를 추정하는 방법은 조건과 절차가 필요합니다.
- 확률함수를 곱하기 위해서는 관측치가 서로 같은 분포를 가지고 독립이어야 한다는 조건을 가진다.
- 위 조건을 통해, 우도를 각 관측치들의 우도의 곱으로 표현
- 우도를
'머신러닝' 카테고리의 다른 글
[12] Xgboost (0) | 2025.02.24 |
---|---|
[11] RandomForest Model (0) | 2025.02.13 |
[9] 정규화 모델 (Regularization) (0) | 2024.07.07 |
[8] 의사결정나무 (2) | 2024.06.30 |
[7] 앙상블 모델 (0) | 2024.06.28 |
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- html #javascript #구구단 출력
- 머신러닝 #xgboost #
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- 잘라서 배열로 저장하기 #2차원으로 만들기
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- 머신러닝 #lightgbm #goss #ebf
- ridge #lasso #정규화모델 #머신러닝
- 파이썬 #시각화 #matplotlib
- python #deque #프로그래머스 #공 던지기 #문자열 계산하기 #코딩테스트
- subquery #sql 코딩테스트
- #python #프로그래머스 #외계어사전 #itertools #순열과조합
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- rnn #딥러닝 #시계열 데이터 #장기의존성 문제
- #tf idf
- #attention #deeplearning
- python #프로그래머스 #겹치는선분의길이
- 머신러닝 #project #classification #dacon
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- seaborn #데이터시각화 #타이타닉
- 딥러닝 #오차역전파 #연쇄법칙 #계산그래프 #최적화
- #opencv #이미지 연산 #합성
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- nlp #토큰화 #nltk #konply
- gan #생성자 #판별자 #적대적 신경 신경망 #딥러닝 #computer vision
- #seq2seq #encoder #decoder #teacher forcing
- 파이썬 #코딩테스트 #프로그래머스 #스택 #큐
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝
- python #프로그래머스 #리스트 #인덱싱