선형회귀(3)
-
6. 결정 트리(Decision Tree)
결정 트리(Decision Tree)는 분류, 회귀, 다중출력 작업이 가능한 머신러닝 알고리즘 중 하나다. 출처 : www.w3schools.com/python/python_ml_decision_tree.asp 결정 트리의 분류 방법을 살펴보자. 먼저 결정 트리는 루트 노드에서 특정 조건을 기준으로 샘플들을 두 부류로 나눈다. 자식 노드들에서도 마찬가지고 해당 노드의 조건을 기준으로 샘플들을 나누고 리프 노드에 도달하게되면 모든 분류를 멈춘다. 노드의 gini 특성 은 노드의 불순도를 의미하며, sample 특성 은 해당 노드에 있는 샘플수를 의미한다. value 특성 은 해당 노드에 클래스별로 샘플들이 얼마나 있는지를 나타낸다. 각 노드는 i번째 클래스에 속한 샘플의 비율(클래스 i에 속한 샘플 수 /..
2021.05.04 -
2-1. 다항 회귀(Polynomial Regression)
1장에서는 선형 데이터를 추정하는 방법을 살펴보았다. 다항 회귀는 비선형 데이터를 선형 모델을 통해 추정하는 기법이다. 먼저 각 특성의 거듭제곱을 (기존 특성과 함께) 새로운 특성으로 추가하고, 이를 선형 모델로 훈련시키는 원리이다. 먼저 샘플을 생성한다. m = 100 X = 6*np.random.rand(m,1) - 3 y = 0.5*X**2 + X + 2 + np.random.rand(m,1) from sklearn.preprocessing import PolynomialFeatures poly_feather = PolynomialFeatures(degree=2, include_bias=False) X_poly = poly_feather.fit_transform(X) 사이킷런의 PolynomialF..
2021.04.26 -
1-1. 선형 회귀(Linear regression)
우리는 일상 속에서 '선형 모델'을 쉽게 찾아볼 수 있다. 나이에 따른 성인병 발병확률이나, 소득과 비만율과의 상관지수 등이 그 예가 될 수 있다. 선형 회귀(Linear regression)는 이러한 선형 모델을 분석하기 위한 방법으로, 여러 샘플 입력(X)와 그에 대한 결과값(y)가 주어졌을 때 이 데이터셋(dataset)을 분석하여 해당 데이터가 어떤 양상을 띠는지 선(line)으로서 추정하는 모델이다. X = 2*np.random.randn(50,1) y = 4 + 3*X + np.random.randn(50,1) plt.scatter(X,y) plt.xlabel('X') plt.ylabel('y') plt.show() 1의 mean 값을 가지는 50개의 Gaussian Distribution 난..
2021.04.26