전체 글(113)
-
9-4. 군집(Clustering) - DBSCAN
Kmean 클러스터와 더불어 군집의 대표적인 알고리즘이 DBSCAN이다. DBSCAN의 클러스터링 과정은 다음과 같다. 1. 각 샘플별 기준 거리 ε(입실론) 내 샘플의 갯수를 측정한다. 이 지역을 샘플의 ε-이웃이라고 한다. 2. ε-이웃 내에 적어도 지정된 m개 샘플이 있다면 이를 핵심 샘플로 간주한다. 3. (조건 2를 만족하며) 핵심 샘플의 이웃에 있는 모든 샘플은 동일한 클러스터에 속한다. 4. 핵심샘플도 아니며 이웃도 아니라면 이상치로 판단한다. 출처 : https://en.wikipedia.org/wiki/DBSCAN 위 그림은 DBSCAN에 의해 분류된 케이스를 나타낸다. 지정된 최소샘플수(minPts)는 4로 설정되었고 점 A를 비롯해 빨간색으로 표시된 점들이 핵심 샘플이다. 점 B, C..
2021.05.23 -
9-3. 군집(Clustering) - 준지도 학습
준지도 학습이란 비지도 학습과 지도 학습에 중간 단계에 있는 학습 방법으로 레이블된 샘플의 수가 그렇지 않은 샘플 수에 비해 적을 경우 사용한다. 준지도 학습을 실습을 통해 알아보겠다. X_digits, y_digits = load_digits(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X_digits, y_digits) 먼저 digit 데이터를 호출하고 훈련 세트와 테스트 세트로 나눠준다. n_labled = 50 log_reg = LogisticRegression() log_reg.fit(X_train[:n_labled], y_train[:n_labled]) print(log_reg.score(X_test, y_test)..
2021.05.21 -
9-2. 군집(Clustering) - K평균 클러스터링(2)
K-mean 클러스터링 과정 K-mean 클러스터 알고리즘은 다음과 같다. 1. 센트로이드를 랜덤하게 초기화한다. 2. 센트로이드를 중심으로 샘플에 레이블을 할당한다. 3. 센트로이드를 업데이트한다. 4. 샘플에 레이블을 할당한다. 위 과정을 반복하여 가장 최적의 센트로이드를 추출한다. 이너셔(Inertia), 엘보우(Elbow) 출처 : https://www.kdnuggets.com/2019/08/introduction-image-segmentation-k-means-clustering.html K-mean 클러스터링의 성능 지표를 이너셔(Inertia)라고 한다. 이너셔는 각 샘플과 가장 가까운 센트로이드 사이의 평균 제곱 거리를 측정한 수치이다. 이전 장에서는 클러스터 수를 5개로 지정해줬는데, 그..
2021.05.20 -
9-1. 군집(Clustering) - K평균 클러스터링(1)
이전 장에서는 샘플마다 레이블링이 되어있는 데이터셋에 대해 살펴보았다. 비지도 학습은 레이블이 없는 데이터를 분류하는 알고리즘이다. 비지도 학습에는 크게 군집(Clustering), 이상치 탐지(Outlier Detection), 밀도 추정(Density estimation)이 있다. 군집(Clustering) 출처 : https://kevin-c-lee26.medium.com/machine-learning-101-classification-vs-clustering-e11b12c71243 군집(Clustering)이란 데이터셋에서 비슷한 샘플들을 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업이다. 대표적인 군집 알고리즘으로 K-mean 클러스터링과 DBSCAN이 있다. K-mean 클러스터링..
2021.05.20 -
8-2. PCA(Principal Component Analysis)
주성분 분석(Principal Component Analysis, PCA)는 데이터에 가장 가까운 초평면을 정의하고, 이 초평면에 데이터를 투영시키는 기법이다. 출처 : laptrinhx.com/dimensionality-reduction-principal-component-analysis-359354885/ 위 그림은 투영시켰을 때 데이터셋과의 평균제곱거리가 가장 적은 초평면을 찾고 투영시키는 과정을 나타냈다. PCA의 과정은 다음과 같다. 출처 : medium.com/xebia-engineering/principal-component-analysis-autoencoder-257e90d08a4e 1. 데이터셋의 분산을 최대한 보존하는 축을 찾는다. (1번째 주성분) 2. 1번째 주성분에 직교하고, 남은..
2021.05.12 -
8-1. 차원 축소(Dimensionality Reduction)
예측 모델을 훈련시킬 때, 훈련시킬 데이터셋이 너무 고차원이라면(특성 수가 과도하게 많다면) 훈련 시간이 지나치게 길어지거나 과대적합의 위험이 존재한다. 이 훈련 세트의 특성 수를 줄임에도 해당 데이터셋의 특질을 잘 파악할 수 있다면 특성의 수를 줄이는 것이 좋은 방법일 것이다. 이를 차원 축소(Dimensionality Reduction)라고 한다. 투영(Projection) 투영(Projection)은 차원 축소의 한가지 방법이다. 대부분의 실전 문제에서는 훈련 샘플은 모든 차원에 균일하게 퍼져있지 않고 고차원 공간 안의 저차원 부분공간(subspace)에 놓여있다. 투영은 이러한 고차원 공간 안에서 데이터의 양상을 최대한 보존하면서 차원을 축소시키는 방법이다. 매니폴드 학습(Manifold Lear..
2021.05.12