자료를 공개한 저자 오렐리앙 제롱에게 깊은 감사를 드립니다. 이와 더불어 한빛미디어로부터 강의준비에 필요한 자료를 지원받았음을 밝히며, 이에 대해 진심어린 감사를 전합니다.
사용된 0부터 9까지의 숫자는 각각 28*28= 784크기의 픽셀로 구성된 이미지 데이터
레이블: 총 70,000개의 사진 샘플이 표현하는 값
from sklearn.linear_model import SGDClassifier
sgd_clf = SGDClassifier(max_iter=1000, tol=1e-3, random_state=42)
sgd_clf.fit(X_train, y_train_5)
from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")
교차 검증 결과가 95% 이상으로 매우 우수한 것으로 나옴.
하지만 무조건 '5 아님'이라고 찍는 분류기도 90%의 정확도를 보임.
훈련 세트의 샘플이 불균형적으로 구성되었다면, 정확도를 분류기의 성능 측정 기준으로 사용하는 것은 피해야 함
정밀도 하나만으로 분류기의 성능을 평가할 수는 없음
분류기가 정확하게 예측한 양성 샘플의 비율인 재현율을 함께 다루어야 함
재현율(TPR)과 거짓 양성 비율(FPR) 사이에도 서로 상쇄하는 기능이 있다는 것을 확인 가능
따라서 좋은 분류기는 재현율은 높으면서 거짓 양성 비율은 최대한 낮게 유지해야함
ROC 곡선이 y축에 최대한 근접하는 결과가 나오도록 해야함.
AUC: ROC 곡선 아래의 면적
MNIST의 경우, 아래와 같이 총 9+8+...+1 = 45개의 결투를 판별하는 분류기를 이용
OneVsOneClassifier
또는 OneVsRestClassifier
사용[True, False, True]
출력[False, True]
출력KNeighborsClassifier
KNeighborsClassifier