안녕하세요. 금융 IT 준비생입니다. 본 카테고리는 금융 IT필기 준비를 위한 페이지이며 6월 17일 스터디를 통한 내용을 복습하고 정리하는 용도입니다. 여러 책 과 블로그를 참고하였으며 문제가 있을 시 삭제하겠습니다.
의사결정나무
의사결정나무?
의사결정 규칙을 나무 모양으로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 기법이다
상위노드인 뿌리마디(Root Note)부터 시작해서 중간마디, 끝마디까지 , 즉 하위노드로 트리구조를 형성하며
매 단계마다 분류 변수와 분류 기준값이 중요하다. 하위노드는 노드 내 동질적이고 노드 간 이질적이다
모형이 과적합될 수 있으므로, 분류 변수와 기준값을 잘 선택하는 것이 중요하다!!
장점 : 나무 구조로 사용자가 처음 볼 때도 해석하기 쉽다. (선형성, 등분상성, 정규성)가정을 필요로 하지 않는 비모수적 방법이며, 수치형 범주형 변수 모두 사용 가능하다. 또한 대용량 데이터에서도 빠르게 생성하며, 유연성도 좋다
단점: 연속형 변수를 비연속적 값으로 취급하여 분리되는 경계에서는 예측오류가 커진다. 학습용 자료에 의존하기 때문에 과적합할 가능성이 높다. 또한 다른 모델링에 비해 각 변수의 영향력을 알기 어렵다
정지규칙
더 이상 트리가 분리되지 않도로 하는 규칙이다. 이가 없으면 각 끝마디가 하나의 범주만을 갖는 과적합이 발생할 수 있다.
분류오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거한다
가지치기
불필요한 가지를 제거하여 모형의 복잡도를 줄이는 과정이다.
ex) 에러감소 가지치기(분할 전/결합 전과 후의 오류를 비교하여 반복),
룰 포스트 가지치기(뿌리부터 잎 노드까지 경로의 형태로 변환 후, 정확도가 낮은 순서대로 제거)
노드의 분리 기준
종속변수 | 알고리즘 | 분류 기준 | 비고 |
이산형 | CHAID | 카이제곱 통계량 (실제도수-기대도수)^2/ 기대도수 합 |
분류한 두 마디가 동질적이라는 귀무가설 기각하게 설정 |
CART | 지니 지수 (특정 집합에서 한 항목을 뽑아 무작위로 라벨 추정 시 틀릴 확률) |
지니지수가 작을수록 불순도가 감소함 |
|
C4.5 | 엔트로피 지수 (무질서 정도) |
엔트로피지수가 낮을수록 불순도가 감소함 |
|
연속형 | CHAID | 분산분석 F-통계량 | p-value가 작아지며 모형이 유의하므로 가지 분할 수행 |
CART | 분산 감소량 | 분산의 감소량이 커지는 방향으로 가지 분할 수행 |
타당성평가
이익도표(GAIN CHART)나 위험도표(RISK CHART) 를 보고 교차 타당성을 ㅏ악하여 평가
'[컴퓨터일반]금융IT 필기준비' 카테고리의 다른 글
[컴퓨터일반]_데이터분석기법(Python실습) (1) | 2023.06.21 |
---|---|
[컴퓨터일반]_데이터 분석기법(앙상블기법) (0) | 2023.06.21 |
[컴퓨터 일반] _ 데이터 분석기법(지도학습_회귀) (1) | 2023.06.17 |
[컴퓨터일반]_데이터 가설검정 (0) | 2023.06.16 |
컴퓨터일반_데이터전처리[실습] (2) | 2023.06.15 |