선형 판별 분석 예제

여러 변수가 있는 경우 다변량 가우시안을 통해 동일한 통계 적 속성이 계산됩니다. 여기에는 수단과 공변행렬이 포함됩니다. 이러한 모든 속성은 데이터에서 직접 추정됩니다. 선형 판별 해석 방정식으로 직접 이동합니다. 여기서 선형 판별 분석(LDA)이 유용합니다. 로지스틱 회귀보다 안정적이며 두 개 이상의 클래스를 예측하는 데 널리 사용됩니다. 기계 학습에 대한 선형 차별 분석제이미 맥캐프리에 의해 사진, 일부 권리 는 예약. = 그룹 공분산 행렬 내에서 풀런된 값입니다. 행렬의 각 항목에 대해 계산됩니다.

이 예제에서는 및 , 따라서 매개 변수에서 몇 가지 예제만 추정해야 하는 경우 로지스틱 회귀가 불안정해지는 경향이 있습니다. 이 경우에도 선형 판별 분석은 예제수가 적어도 안정적으로 유지되는 경향이 있으므로 우수한 옵션입니다. 이 게시물에서는 분류 예측 모델링 문제에 대한 LDA(선형 판별 분석) 알고리즘을 검색합니다. 이 게시물을 읽은 후 당신은 알 수 있습니다 : 원래 이분법적 인 차별 분석은 경 로널드 피셔에 의해 개발되었다 1936. [8] 하나 이상의 독립적인 범주형 변수에 의해 하나(ANOVA) 또는 다중(MANOVA) 연속 종속 변수를 예측하는 데 사용되는 ANOVA 또는 MANOVA와 는 다릅니다. 판별 함수 분석은 변수 집합이 범주 멤버 자격을 예측하는 데 효과적인지 여부를 결정하는 데 유용합니다. [9] 선형 판별 분석과 동일한 목적으로 일반적으로 사용되는 2차원 감소 기술은 로지스틱 회귀 및 PCA(주요 구성 요소 분석)입니다. 그러나 선형 판별 분석에는 많은 경우에 선택하기 위한 기술이 되는 특정 고유한 기능이 있습니다. 선형 판별 분석과 다른 기술 간의 몇 가지 차이점은 다음과 같습니다. LDA는 각 관측값에 대한 독립 변수에 대한 측정값이 연속 수량일 때 작동합니다. 범주형 독립 변수를 처리할 때 동등한 기술은 판별 대응 분석입니다. [5] [6] 선형 판별 분석에서는 새 입력 집합이 모든 클래스에 속할 확률을 추정합니다.

출력 클래스는 확률이 가장 높은 클래스입니다. 이것이 LDA가 예측을 하는 방법입니다. 회계비율 및 기타 재무변수에 따른 파산예측에서 선형차별분석은 파산에 진입한 기업과 생존을 위한 기업을 체계적으로 설명하기 위해 적용된 최초의 통계적 분석이었습니다. LDA의 정규 분포 가정에 대한 회계 비율의 알려진 부적합을 포함한 제한에도 불구하고 Edward Altman의 1968 년 모델은 여전히 실용적인 응용 분야에서 선도적 인 모델입니다. LDA는 두 개의 대신 C가 N 가능한 상태의 범주형 변수가 되는 여러 판별 해석으로 일반화될 수 있습니다. 마찬가지로, 클래스 조건부 밀도 p (x → = c = i) {displaystyle p ({vec {x}}==i)}가 공유 공분산으로 정상인 경우 P에 대한 충분한 통계 (cmid {vec {x}}})는 N프로젝션의 값입니다. N 평균에 스팬된 하위 공간, 역 공분산 행렬에 의해 투영된 affine입니다. 이러한 투영은 분자가 수단을 샘플로 처리하여 형성된 공분산 행렬이고 분모가 공유 공분산 행렬인 일반화된 아이젠값 문제를 해결함으로써 찾을 수 있습니다.

자세한 내용은 위의 “다중 클래스 LDA”를 참조하십시오. 선형 판별 분석은 이러한 각 점을 처리하며 다중 클래스 분류 문제에 대한 이동-선형 방법입니다. 이진 분류 문제가 있더라도 로지스틱 회귀 및 선형 판별 분석을 모두 시도하는 것이 좋습니다.