티스토리 뷰
정규화 모델(Regularization)은 머신러닝에서 회귀 계수의 크기를 제어해 과적합을 개선하는 기법입니다. 머신러닝이 극복해야 할 가장 중요한 이슈는 편향과 분산을 조절하여 과적합이 발생하지 않은 예측 정확도가 높은 모델을 구현하는 것입니다.

위 그림처럼 편향(Bias)은 데이터의 치우치는 경향, 예측한 결과가 정답과 일정하게 차이가 나는 정도를 의미합니다. 반면 분산(Variance)은 데이터가 퍼져있는 정도, 즉 머신러닝 모델 예측의 가변성을 뜻합니다. 편향과 분산은 서로 반비례 관계를 가지는 것이 특징입니다. 정규화 모델은 편향과 분산의 반비례 관계에서 오류 값이 최대로 낮아지는 모델을 구축할 때 사용됩니다.
1. Ridge
선형 회귀 모델(Linear Regression)에서 예측 정확도는 MSE(평균 제곱 오차)에 의해 결정됩니다. 다만 무조건적인 수치를 줄이기 위해 회귀 모델의 계수가 기하급수적으로 증가하여 데이터의 복잡도보다 큰 복잡도를 가진 모델을 구현하게 됩니다. 이를 방지하기 위해 모델 계수에 제한을 두는 것이 Ridge 기법입니다. Ridge 기법은 변수 간 상관관계가 높은 상황에서 높은 예측 정확도를 산출합니다.

Ridge 모델은 계수를 제곱한 값을 기준으로 추정치를 줄이는 방법을 취하는 정규화 방법입니다. λ는 β 계수에 대한 정규화의 영향을 조절하는 파라미터로 만약 값이 크면 β 계수가 0에 수렴하여 Underfitting 문제를 발생할 수도 있습니다. Ridge 모델 제한을 둘 수 있는 변수를 선택하지 못한다는 단점도 존재합니다.
2. Lasso
Lasso 기법은 추정치를 줄일 변수를 선택할 수 있는 정규화 기법입니다. Ridge와 다르게 모델의 파라미터 계수의 절댓값을 기준으로 추정치를 줄이는 방법입니다. Lasso 기법은 불필요한 회귀 계수를 급격하게 감소시켜 0으로 만들고 제거하는 특성을 가지고 있습니다. 즉 적절한 feature만 모델에 포함시켜야 하는 상황에서 높은 성능을 보이고 있습니다. 이 특성이 파라미터를 제거하기 때문에 변수 간 상관관계가 존재하는 경우 Ridge 기법에 비해 예측 성능이 낮은 경우도 존재합니다.

Ridge와 Lasso는 선형회귀 모델을 기반으로 높은 예측 성능과 설명력 높은 모델을 구현하기 위한 기법들입니다. 학습에 사용된 데이터를 잘 설명하여 Training error을 최소화하는 것뿐만 아니라 Test error도 최소화할 수 있는 성능 높은 모델들입니다.
'머신러닝' 카테고리의 다른 글
[11] RandomForest Model (0) | 2025.02.13 |
---|---|
[10] 로지스틱 회귀 모델 (1) | 2025.02.11 |
[8] 의사결정나무 (2) | 2024.06.30 |
[7] 앙상블 모델 (0) | 2024.06.28 |
[6] 주성분 분석(PCA) (0) | 2024.05.17 |
- 자연어 처리 #정제 #정규표현식 #어간 추출 #표제어 추출
- python #프로그래머스 #겹치는선분의길이
- #seq2seq #encoder #decoder #teacher forcing
- 파이썬 #시각화 #matplotlib
- #python #프로그래머스 #외계어사전 #itertools #순열과조합
- ridge #lasso #정규화모델 #머신러닝
- seaborn #데이터시각화 #타이타닉
- 머신러닝 #xgboost #
- #opencv #이미지 연산 #합성
- pca #주성분분석 #특이값분해 #고유값분해 #공분산행렬 #차원의 저주
- #자연어 처리 #정수 인코딩 #빈도 수 기반
- #opencv #이미지 읽기 #이미지 제작 #관심영역 지정 #스레시홀딩
- gan #생성자 #판별자 #적대적 신경 신경망 #딥러닝 #computer vision
- #물고기 종류별 대어 찾기 #즐겨찾기가 가장 많은 식당 정보 출력하기 #mysql #programmers
- randomforest #bagging #머신러닝 #하이퍼파라미터 튜닝
- 파이썬 #코딩테스트 #프로그래머스 #스택 #큐
- python #deque #프로그래머스 #공 던지기 #문자열 계산하기 #코딩테스트
- #attention #deeplearning
- 잘라서 배열로 저장하기 #2차원으로 만들기
- nlp #토큰화 #nltk #konply
- 머신러닝 #project #classification #dacon
- rnn #딥러닝 #시계열 데이터 #장기의존성 문제
- subquery #sql 코딩테스트
- 프로젝트 #머신러닝 #regression #eda #preprocessing #modeling
- python #프로그래머스 #리스트 #인덱싱
- html #javascript #구구단 출력
- 딥러닝 #오차역전파 #연쇄법칙 #계산그래프 #최적화
- 로지스틱 회귀 #오즈비 #최대우도추정법 #머신러닝
- #tf idf
- 머신러닝 #lightgbm #goss #ebf