[컴퓨터일반]금융IT 필기준비

[컴퓨터일반]_데이터 분석기법(앙상블기법)

bestFinanceDataAnalyist 2023. 6. 21. 09:00

안녕하세요. 금융 IT 준비생입니다. 본 카테고리는 금융 IT필기 준비를 위한 페이지이며 6월 20일 스터디를 통한 내용을 복습하고 정리하는 용도입니다.  여러 책 과 블로그를 참고하였으며 문제가 있을 시 삭제하겠습니다.

 


 

앙상블 기법

여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정화도를 높이는 방법이다. 데이터 양이 적어도 충분한 학습 효과를 거둘 수 있으며 단일모형모다 신뢰도가 올라가며, 분산이 감소한다.

ex) 배깅(Bagging), 부스팅(Boosting), 랜덤포레스트(random Forest)등이 있다

 

부트스트랩

단순 복원 추출법(랜덤 샘플링)으로 크기가 동일한 여러 개의 표본 자료를 생성한다. 즉, 전체에서 일부를 뽑아 통계값을 측정하는 과정을 여러 번 반복하는 것.

 

배깅

여러 부스트트랩 자료를 생성하여 학습 하는 모델링으로 분류기를 생성한 후, 그 결과를 앙상블한다. 여러 모델을 학습시켜 결합하는 방식으로 일반화 성능이 향상되어 과적합을 해결 할 수 있다

부트스트랩을 통해 주어진 자료에서 동일한 크기의 표본을 랜덤으로 복원을 추출하여 각각의 모델링을 진행한다. 각 분류기는 병렬로 수행되며, 평균이나 투표를 통해 다수결로 최종 모델을 결정한다. 여러 번 샘플링을 반복하기 때문에 모델 변동성(분산) 감소한다.

결측치에 영향을 덜 받지만 특정 샘플이 여러 번 사용되어 편향될 가능성이 있다! 소량의 데이터에 유리하다

632+ 법칙, oob erroor 가 발생할 수 있음

 

이때 투표, voting 은 hardvoting(만장일치, 과반수) / softvoting(클래스의 확률을 평균하여 결정) 으로 정할 수 있다

 

 

부스팅

가중치를 활용하여 약분류기를 강분류기로 만드는 방법으로, 분류 모델이 틀린 곳(정답 틀린 경우 높은 가중치, 맞힌 경우에는 낮은 가중치)에 집중하여 새로운 분류 규칙을 만든다. 즉 다음 분석모형이 더  맞추도록 반복 학습을 수행함

ex) adaboost, gboost, catboost

  배깅 부스팅
수행원리 샘플링 > 결합 약분류기 가중치 재조정 > 강분류기
목적 변동성 감소 정확도 향상(오분류 x)
활용모델 boostrap >> bagging week >> strong classification
데이터 소량의 데이터 대용량 데이터
비고 결측시 존재 시 우수 데이터가 많을수록 우수

 

 

랜덤포레스트

부트스트래핑 기반 샘플링을 활용 한 후 의사결정나무 생성 이후 배깅 기반 나무들을 모아 앙상블 학습한 후 이를 모은 것

배깅보다 더 많음 임의성을 주어 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 법

 

장점: 결측치 다르기 쉬움. 대용량 데이터에서 잘 사용됨. 과적합 문제를 회피하며 모델 정확독 ㅏ향상

단점: 매게변수가 많아 시간이 많이 소요됨. 최종 모델에 대한 해석이 어려움