인공지능(32)
-
7-2. oob 평가 / 랜덤 패치, 랜덤 서브스페이스
oob 평가 앙상블 학습에서 훈련 세트를 샘플링할때 중복을 허용하는 배깅 방식을 채택할 경우, 일반적으로 훈련 샘플의 63%만 샘플링이 되는데, 이는 나머지 37%의 데이터는 훈련에 쓰이지 않는다. 이러한 데이터를 oob(out-of-bag)라고 하는데, 앙상블의 평가에 이 oob 샘플을 활용할 수 있다. bag_clf = BaggingClassifier(DecisionTreeClassifier(), n_estimators=500, max_samples=30, bootstrap=True, n_jobs=-1, oob_score=True) bag_clf.fit(X_train, y_train) y_pred = bag_clf.predict(X_valid) BaggingClassifier 객체 생성 시 oob_s..
2021.05.12 -
7-1. 앙상블 학습(Ensemble Learning)
앙상블 학습(Ensemble Learning) '앙상블 학습은 여러 모델이 전략적으로 생성되고 결합되어 특정 계산 지능 문제를 해결하는 과정이다.' 출처 : www.scholarpedia.org/article/Ensemble_learning Ensemble learning - Scholarpedia Ensemble learning is the process by which multiple models, such as classifiers or experts, are strategically generated and combined to solve a particular computational intelligence problem. Ensemble learning is primarily used to i..
2021.05.12 -
6. 결정 트리(Decision Tree)
결정 트리(Decision Tree)는 분류, 회귀, 다중출력 작업이 가능한 머신러닝 알고리즘 중 하나다. 출처 : www.w3schools.com/python/python_ml_decision_tree.asp 결정 트리의 분류 방법을 살펴보자. 먼저 결정 트리는 루트 노드에서 특정 조건을 기준으로 샘플들을 두 부류로 나눈다. 자식 노드들에서도 마찬가지고 해당 노드의 조건을 기준으로 샘플들을 나누고 리프 노드에 도달하게되면 모든 분류를 멈춘다. 노드의 gini 특성 은 노드의 불순도를 의미하며, sample 특성 은 해당 노드에 있는 샘플수를 의미한다. value 특성 은 해당 노드에 클래스별로 샘플들이 얼마나 있는지를 나타낸다. 각 노드는 i번째 클래스에 속한 샘플의 비율(클래스 i에 속한 샘플 수 /..
2021.05.04 -
5-2. 서포트 벡터 머신(SVM) - 비선형 SVM 분류
비선형 SVM 분류 출처 : ai.plainenglish.io/what-is-deep-learning-and-how-deep-learning-works-6f055125633d 5-1 장에서는 선형 데이터를 SVM으로 분류하는 방법에 대해서 살펴보았다. 비선형 데이터 역시 SVM으로 분류가 가능한데, 선형 회귀에서 비선형 데이터를 처리하던 것과 마찬가지로 기존 데이터에 다항 특성을 추가하여 SVM을 사용할 수 있다. X, y = make_moons(n_samples=100, noise=0.15) polynomial_svm_clf = Pipeline([ ("poly_feathers", PolynomialFeatures(degree=3)), ("scaler", StandardScaler()), ("svm_cl..
2021.05.04 -
5-1. 서포트 벡터 머신(SVM) - 선형 SVM 분류
서포트 벡터 머신(SVM)은 선형, 비선형 분류, 회귀, 이상치 탐치 등 범용적으로 쓰일 수 있는 머신러닝 모델이다. 출처 : www.researchgate.net/figure/SVM-6-Shows-the-main-concept-of-SVM-Its-margins-and-support-vectors_fig1_343997587 서포트 벡터 머신은 위 그림과 같이 데이터를 클래스로 분류할 때 클래스 간의 가장 넓은 거리(Margin)를 찾는 모델이다. 그래서 라지 마진 분류(Large Margin Classification)라고도 한다. 마진의 끝자락에 위치한 샘플에 의해 마진이 결정되는데, 이러한 샘플을 서포트 벡터라고 한다. 소프트 마진 분류 모든 샘플이 마진의 바깥쪽에 완벽하게 분류되어있다면 이를 하드 ..
2021.05.04 -
4-2. 소프트맥스 회귀(Softmax Regression)
4.1장의 로지스틱 회귀는 양성 클래스/음성 클래스만을 분류하는 이진 분류기였다. 하지만 로지스틱 회귀 역시 다중 클래스를 분류할 수 있는데, 이를 소프트맥스 회귀 혹은 다항 로지스틱 회귀라고 한다. 먼저 샘플 x에 대해서 각 클래스별로 가진 파라미터 행렬을 곱한 뒤, 각 클래스 k에 대한 점수를 계산한다. 이를 소프트맥스 함수에 통과시켜 표준화시킨다. 그렇게 출력된 값이 각 클래스에 속할 확률이다. 크로스 엔트로피 비용함수 소프트맥스 회귀에서 사용하는 비용함수는 이진 분류기의 비용함수를 다항으로 확장한 것과 같다. k번째 클래스에 속할 확률 pk를 낮게 측정했는데(log값이 -∞에 가까운데), 실제 타깃확률인 yk가 1일 경우 비용함수가 매우 커지게 된다. 반대의 경우 역시 마찬가지이다. 크로스 엔트로..
2021.05.02