티스토리 뷰

정규화 모델(Regularization)은 머신러닝에서 회귀 계수의 크기를 제어해 과적합을 개선하는 기법입니다. 머신러닝이 극복해야 할 가장 중요한 이슈는 편향과 분산을 조절하여 과적합이 발생하지 않은 예측 정확도가 높은 모델을 구현하는 것입니다.

 

편향과 분산의 고/저에 따른 표현

 

위 그림처럼 편향(Bias)은 데이터의 치우치는 경향, 예측한 결과가 정답과 일정하게 차이가 나는 정도를 의미합니다. 반면 분산(Variance)은 데이터가 퍼져있는 정도, 즉 머신러닝 모델 예측의 가변성을 뜻합니다. 편향과 분산은 서로 반비례 관계를 가지는 것이 특징입니다. 정규화 모델은 편향과 분산의 반비례 관계에서 오류 값이 최대로 낮아지는 모델을 구축할 때 사용됩니다.

 

1. Ridge

선형 회귀 모델(Linear Regression)에서 예측 정확도는 MSE(평균 제곱 오차)에 의해 결정됩니다. 다만 무조건적인 수치를 줄이기 위해 회귀 모델의 계수가 기하급수적으로 증가하여 데이터의 복잡도보다 큰 복잡도를 가진 모델을 구현하게 됩니다. 이를 방지하기 위해 모델 계수에 제한을 두는 것이 Ridge 기법입니다. Ridge 기법은 변수 간 상관관계가 높은 상황에서 높은 예측 정확도를 산출합니다.

 

Ridege의 비용함수

 

Ridge 모델은 계수를 제곱한 값을 기준으로 추정치를 줄이는 방법을 취하는 정규화 방법입니다. λ는 β 계수에 대한 정규화의 영향을 조절하는 파라미터로 만약 값이 크면 β 계수가 0에 수렴하여 Underfitting 문제를 발생할 수도 있습니다. Ridge 모델 제한을 둘 수 있는 변수를 선택하지 못한다는 단점도 존재합니다.

 

2. Lasso

Lasso 기법은 추정치를 줄일 변수를 선택할 수 있는 정규화 기법입니다. Ridge와 다르게 모델의 파라미터 계수의 절댓값을 기준으로 추정치를 줄이는 방법입니다. Lasso 기법은 불필요한 회귀 계수를 급격하게 감소시켜 0으로 만들고 제거하는 특성을 가지고 있습니다. 즉 적절한 feature만 모델에 포함시켜야 하는 상황에서 높은 성능을 보이고 있습니다. 이 특성이 파라미터를 제거하기 때문에 변수 간 상관관계가 존재하는 경우 Ridge 기법에 비해 예측 성능이 낮은 경우도 존재합니다.

Lasso의 비용함수

 

Ridge와 Lasso는 선형회귀 모델을 기반으로 높은 예측 성능과 설명력 높은 모델을 구현하기 위한 기법들입니다. 학습에 사용된 데이터를 잘 설명하여 Training error을 최소화하는 것뿐만 아니라 Test error도 최소화할 수 있는 성능 높은 모델들입니다.

'머신러닝' 카테고리의 다른 글

[11] RandomForest Model  (0) 2025.02.13
[10] 로지스틱 회귀 모델  (1) 2025.02.11
[8] 의사결정나무  (2) 2024.06.30
[7] 앙상블 모델  (0) 2024.06.28
[6] 주성분 분석(PCA)  (0) 2024.05.17
TAG more
글 보관함
최근에 올라온 글