Kmean(3)
-
9-3. 군집(Clustering) - 준지도 학습
준지도 학습이란 비지도 학습과 지도 학습에 중간 단계에 있는 학습 방법으로 레이블된 샘플의 수가 그렇지 않은 샘플 수에 비해 적을 경우 사용한다. 준지도 학습을 실습을 통해 알아보겠다. X_digits, y_digits = load_digits(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X_digits, y_digits) 먼저 digit 데이터를 호출하고 훈련 세트와 테스트 세트로 나눠준다. n_labled = 50 log_reg = LogisticRegression() log_reg.fit(X_train[:n_labled], y_train[:n_labled]) print(log_reg.score(X_test, y_test)..
2021.05.21 -
9-2. 군집(Clustering) - K평균 클러스터링(2)
K-mean 클러스터링 과정 K-mean 클러스터 알고리즘은 다음과 같다. 1. 센트로이드를 랜덤하게 초기화한다. 2. 센트로이드를 중심으로 샘플에 레이블을 할당한다. 3. 센트로이드를 업데이트한다. 4. 샘플에 레이블을 할당한다. 위 과정을 반복하여 가장 최적의 센트로이드를 추출한다. 이너셔(Inertia), 엘보우(Elbow) 출처 : https://www.kdnuggets.com/2019/08/introduction-image-segmentation-k-means-clustering.html K-mean 클러스터링의 성능 지표를 이너셔(Inertia)라고 한다. 이너셔는 각 샘플과 가장 가까운 센트로이드 사이의 평균 제곱 거리를 측정한 수치이다. 이전 장에서는 클러스터 수를 5개로 지정해줬는데, 그..
2021.05.20 -
9-1. 군집(Clustering) - K평균 클러스터링(1)
이전 장에서는 샘플마다 레이블링이 되어있는 데이터셋에 대해 살펴보았다. 비지도 학습은 레이블이 없는 데이터를 분류하는 알고리즘이다. 비지도 학습에는 크게 군집(Clustering), 이상치 탐지(Outlier Detection), 밀도 추정(Density estimation)이 있다. 군집(Clustering) 출처 : https://kevin-c-lee26.medium.com/machine-learning-101-classification-vs-clustering-e11b12c71243 군집(Clustering)이란 데이터셋에서 비슷한 샘플들을 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업이다. 대표적인 군집 알고리즘으로 K-mean 클러스터링과 DBSCAN이 있다. K-mean 클러스터링..
2021.05.20