자료를 공개한 저자 오렐리앙 제롱에게 깊은 감사를 드립니다. 이와 더불어 한빛미디어로부터 강의준비에 필요한 자료를 지원받았음을 밝히며, 이에 대해 진심어린 감사를 전합니다.
데이터 | 행렬 기호 | 수학 행렬 모양(shape) | 넘파이 어레이 모양 |
---|---|---|---|
레이블, 예측값 | $\mathbf y$, $\hat{\mathbf y}$ | $m \times 1$ | (m, 1) |
가중치 | $\theta$ | $(n+1)\times 1$ | (n+1, 1) |
훈련 세트 | $\mathbf X$ | $m\times n$ | (m, n) |
훈련 센트(수정) | $\mathbf X_b$ | $m\times (n+1)$ | (m, n+1) |
비용함수를 최소화하는 또는 효용함수를 최대화하는 파라미터를 사용하는 모델
예제: 선형 회귀 모델
학습 모델을 지정할 때 사용되는 값
예제: 학습률, 배치 크기, 에포크, 허용오차 등
스텝 크기 = (훈련 샘플 수) / (배치 크기)
경우에 따라 배치 크기 대신에 스텝 크기가 하이퍼파라미터로 주어짐.
에포크 수는 크게 설정한 후 허용오차를 지정하여 학습 시간 제한 필요
이유: 포물선의 최솟점에 가까워질 수록 그레이디언트 벡터의 크기가 0에 수렴
허용오차와 에포크 수는 서로 반비례의 관계
SGDRegressor
¶경사 하강법 바로 지원
사용되는 하이퍼파라미터
max_iter
: 에포크 수 제한tol
: 허용 오차eta0=0,1
: SGDRegressor
가 사용하는 학습 스케줄 함수에 사용되는 매개 변수. 일종의 학습률.penalty
: 규제 사용 여부 결정 (추후 설명)알고리즘 | 많은 샘플 수 | 외부 메모리 학습 | 많은 특성 수 | 하이퍼 파라미터 수 | 스케일 조정 | 사이킷런 지원 |
---|---|---|---|---|---|---|
정규방정식 | 빠름 | 지원 안됨 | 느림 | 0 | 불필요 | 지원 없음 |
SVD | 빠름 | 지원 안됨 | 느림 | 0 | 불필요 | LinearRegression |
배치 GD | 느림 | 지원 안됨 | 빠름 | 2 | 필요 | LogisticRegression |
SGD | 빠름 | 지원 | 빠름 | >= 2 | 필요 | SGDRegressor |
미니배치 GD | 빠름 | 지원 | 빠름 | >=2 | 필요 | 지원 없음 |
PolynomialFeatures
변환기¶주어진 특성들의 거듭제곱과 특성들 사이의 곱셈을 실행하여 특성을 추가하는 기능 제공
degree=d
하이퍼파라미터 지정
예제: 선형 모델, 2차 다항 회귀 모델, 300차 다항 회귀 모델 비교
다항 회귀 모델의 차수에 따라 훈련된 모델이 훈련 세트에 과소 또는 과대 적합할 수 있음.
규제항은 훈련 과정에만 사용된다. 테스트 과정에는 다른 기준으로 성능을 평가한다.
$\alpha$(알파): 규제 강도를 지정하는 하이퍼파라미터
$\alpha=0$: 단순 선형 회귀
$\alpha$가 커질 수록 가중치의 역할이 줄어듦.
주의사항: 훈련 세트에 대한 특성 스케일링 전처리 실행 후 적용
$\alpha$(알파)
$\theta_i$: 덜 중요한 특성을 무시하기 위해 $\mid\theta_i\mid$가 0에 수렴하도록 학습 유도.
주의: $\theta_0$은 규제하지 않음
로지스틱 회귀와 소프트맥스 회귀를 이용하여 분류 모델 학습 가능
이진 분류: 로지스틱 회귀 활용
다중 클래스 분류: 소프트맥스 회귀 활용
특성과 가중치의 곱한 값들을 더한 결과에 시그모이드 함수를 적용한 결과 이용
로지스틱 회귀 모델에서 샘플 $\mathbf x$에 대한 예측값
penalty
와 C
이용penalty
l1
, l2
, elasticnet
세 개중에 하나 사용.l2
, 즉, $\ell_2$ 규제를 사용하는 릿지 규제.elasticnet
을 선택한 경우 l1_ration
옵션 값을 지정해서 함께 사용.C
$K=2$이면 로지스틱 회귀의 로그 손실 함수와 정확하게 일치한다.
주어진 샘플의 타깃 클래스를 제대로 예측할 경우 높은 확률값 계산
크로스 엔트로피 개념은 정보 이론에서 유래하였다. (자세한 설명은 생략)
LogisticRegression
예측기 활용multi_class
하이퍼파라미터 값을 multinomial
로 지정