차원축소(2)
-
8-2. PCA(Principal Component Analysis)
주성분 분석(Principal Component Analysis, PCA)는 데이터에 가장 가까운 초평면을 정의하고, 이 초평면에 데이터를 투영시키는 기법이다. 출처 : laptrinhx.com/dimensionality-reduction-principal-component-analysis-359354885/ 위 그림은 투영시켰을 때 데이터셋과의 평균제곱거리가 가장 적은 초평면을 찾고 투영시키는 과정을 나타냈다. PCA의 과정은 다음과 같다. 출처 : medium.com/xebia-engineering/principal-component-analysis-autoencoder-257e90d08a4e 1. 데이터셋의 분산을 최대한 보존하는 축을 찾는다. (1번째 주성분) 2. 1번째 주성분에 직교하고, 남은..
2021.05.12 -
8-1. 차원 축소(Dimensionality Reduction)
예측 모델을 훈련시킬 때, 훈련시킬 데이터셋이 너무 고차원이라면(특성 수가 과도하게 많다면) 훈련 시간이 지나치게 길어지거나 과대적합의 위험이 존재한다. 이 훈련 세트의 특성 수를 줄임에도 해당 데이터셋의 특질을 잘 파악할 수 있다면 특성의 수를 줄이는 것이 좋은 방법일 것이다. 이를 차원 축소(Dimensionality Reduction)라고 한다. 투영(Projection) 투영(Projection)은 차원 축소의 한가지 방법이다. 대부분의 실전 문제에서는 훈련 샘플은 모든 차원에 균일하게 퍼져있지 않고 고차원 공간 안의 저차원 부분공간(subspace)에 놓여있다. 투영은 이러한 고차원 공간 안에서 데이터의 양상을 최대한 보존하면서 차원을 축소시키는 방법이다. 매니폴드 학습(Manifold Lear..
2021.05.12