[컴퓨터일반]금융IT 필기준비

[컴퓨터 일반] _ 데이터 분석기법(지도학습_의사결정나무)

bestFinanceDataAnalyist 2023. 6. 17. 22:30

안녕하세요. 금융 IT 준비생입니다. 본 카테고리는 금융 IT필기 준비를 위한 페이지이며 6월 17일 스터디를 통한 내용을 복습하고 정리하는 용도입니다.  여러 책 과 블로그를 참고하였으며 문제가 있을 시 삭제하겠습니다.

 


 

의사결정나무

의사결정나무?

의사결정 규칙을 나무 모양으로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 기법이다

상위노드인 뿌리마디(Root Note)부터 시작해서 중간마디, 끝마디까지 , 즉 하위노드로 트리구조를 형성하며

매 단계마다 분류 변수와 분류 기준값이 중요하다. 하위노드는 노드 내 동질적이고 노드 간 이질적이다

모형이 과적합될 수 있으므로, 분류 변수와 기준값을 잘 선택하는 것이 중요하다!!

 

장점 : 나무 구조로 사용자가 처음 볼 때도 해석하기 쉽다. (선형성, 등분상성, 정규성)가정을 필요로 하지 않는 비모수적 방법이며, 수치형 범주형 변수 모두 사용 가능하다. 또한 대용량 데이터에서도 빠르게 생성하며, 유연성도 좋다

단점: 연속형 변수를 비연속적 값으로 취급하여 분리되는 경계에서는 예측오류가 커진다. 학습용 자료에 의존하기 때문에 과적합할 가능성이 높다. 또한 다른 모델링에 비해 각 변수의 영향력을 알기 어렵다

 

 

정지규칙

더 이상 트리가 분리되지 않도로 하는 규칙이다. 이가 없으면 각 끝마디가 하나의 범주만을 갖는 과적합이 발생할 수 있다.

분류오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거한다

 

가지치기

불필요한 가지를 제거하여 모형의 복잡도를 줄이는 과정이다.

ex) 에러감소 가지치기(분할 전/결합 전과 후의 오류를 비교하여 반복),

       룰 포스트 가지치기(뿌리부터 잎 노드까지 경로의 형태로 변환 후, 정확도가 낮은 순서대로 제거)

 

노드의 분리 기준

종속변수 알고리즘 분류 기준 비고
이산형 CHAID 카이제곱 통계량
(실제도수-기대도수)^2/ 기대도수 합
분류한 두 마디가 동질적이라는 귀무가설 기각하게 설정
CART 지니 지수
(특정 집합에서 한 항목을 뽑아 무작위로 라벨 추정 시 틀릴 확률)
지니지수가 작을수록
불순도가 감소함
C4.5 엔트로피 지수
(무질서 정도)
엔트로피지수가 낮을수록
불순도가 감소함
연속형 CHAID 분산분석 F-통계량 p-value가 작아지며 모형이 유의하므로 가지 분할 수행
CART 분산 감소량 분산의 감소량이 커지는 방향으로 가지 분할 수행

 

타당성평가

이익도표(GAIN CHART)나 위험도표(RISK CHART) 를 보고 교차 타당성을 ㅏ악하여 평가