비지도학습(4)
-
9-4. 군집(Clustering) - DBSCAN
Kmean 클러스터와 더불어 군집의 대표적인 알고리즘이 DBSCAN이다. DBSCAN의 클러스터링 과정은 다음과 같다. 1. 각 샘플별 기준 거리 ε(입실론) 내 샘플의 갯수를 측정한다. 이 지역을 샘플의 ε-이웃이라고 한다. 2. ε-이웃 내에 적어도 지정된 m개 샘플이 있다면 이를 핵심 샘플로 간주한다. 3. (조건 2를 만족하며) 핵심 샘플의 이웃에 있는 모든 샘플은 동일한 클러스터에 속한다. 4. 핵심샘플도 아니며 이웃도 아니라면 이상치로 판단한다. 출처 : https://en.wikipedia.org/wiki/DBSCAN 위 그림은 DBSCAN에 의해 분류된 케이스를 나타낸다. 지정된 최소샘플수(minPts)는 4로 설정되었고 점 A를 비롯해 빨간색으로 표시된 점들이 핵심 샘플이다. 점 B, C..
2021.05.23 -
9-3. 군집(Clustering) - 준지도 학습
준지도 학습이란 비지도 학습과 지도 학습에 중간 단계에 있는 학습 방법으로 레이블된 샘플의 수가 그렇지 않은 샘플 수에 비해 적을 경우 사용한다. 준지도 학습을 실습을 통해 알아보겠다. X_digits, y_digits = load_digits(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X_digits, y_digits) 먼저 digit 데이터를 호출하고 훈련 세트와 테스트 세트로 나눠준다. n_labled = 50 log_reg = LogisticRegression() log_reg.fit(X_train[:n_labled], y_train[:n_labled]) print(log_reg.score(X_test, y_test)..
2021.05.21 -
9-2. 군집(Clustering) - K평균 클러스터링(2)
K-mean 클러스터링 과정 K-mean 클러스터 알고리즘은 다음과 같다. 1. 센트로이드를 랜덤하게 초기화한다. 2. 센트로이드를 중심으로 샘플에 레이블을 할당한다. 3. 센트로이드를 업데이트한다. 4. 샘플에 레이블을 할당한다. 위 과정을 반복하여 가장 최적의 센트로이드를 추출한다. 이너셔(Inertia), 엘보우(Elbow) 출처 : https://www.kdnuggets.com/2019/08/introduction-image-segmentation-k-means-clustering.html K-mean 클러스터링의 성능 지표를 이너셔(Inertia)라고 한다. 이너셔는 각 샘플과 가장 가까운 센트로이드 사이의 평균 제곱 거리를 측정한 수치이다. 이전 장에서는 클러스터 수를 5개로 지정해줬는데, 그..
2021.05.20 -
9-1. 군집(Clustering) - K평균 클러스터링(1)
이전 장에서는 샘플마다 레이블링이 되어있는 데이터셋에 대해 살펴보았다. 비지도 학습은 레이블이 없는 데이터를 분류하는 알고리즘이다. 비지도 학습에는 크게 군집(Clustering), 이상치 탐지(Outlier Detection), 밀도 추정(Density estimation)이 있다. 군집(Clustering) 출처 : https://kevin-c-lee26.medium.com/machine-learning-101-classification-vs-clustering-e11b12c71243 군집(Clustering)이란 데이터셋에서 비슷한 샘플들을 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업이다. 대표적인 군집 알고리즘으로 K-mean 클러스터링과 DBSCAN이 있다. K-mean 클러스터링..
2021.05.20