자료를 공개한 저자 오렐리앙 제롱에게 깊은 감사를 드립니다. 이와 더불어 한빛미디어로부터 강의준비에 필요한 자료를 지원받았음을 밝히며, 이에 대해 진심어린 감사를 전합니다.
머신러닝 작업 흐름의 전체를 머신러닝 파이프라인 또는 MLOps(Machine Learning Operations, 머신러닝 운영)라 부르며 자동화가 가능함.
분류 기준이 상호 배타적이지 않음.
스팸 필터 예제
* k-평균
* DBSCAN
* 계층 군집 분석
다차원 특성을 가진 데이터셋을 2D 또는 3D로 표현하기
시각화를 하기 위해서는 데이터의 특성을 2가지로 줄여야함
* 주성분 분석(PCA)
* 커널 PCA
* 지역적 선형 임베딩
* t-SNE
X
를 세모에 더 가깝다고 판단함.X
가 기존에 세모인 샘플과의 유사도가 높기 때문에 세모로 분류.X
를 세모 클래스로 분류전체 데이터셋을 훈련 세트(80%)와 테스트 세트(20%)로 구분
검증 기준: 일반화 오차
과대 적합: 훈련 오차에 비해 일반화 오차가 높은 경우
예비표본(홀드아웃holdout) 검증
교차 검증