새소식

Machine Learning&Deep Learning

Wk 5 머신러닝

  • -

Task Performance Experience

1) Task = data

- classification: n차원의 벡터를 특정한 클래스로 나눈다.

- 결측치 처리

- regression

- transciption: unstructured data -> structured data (예: OCR, STT)

- machine translation

- structured output

- 이상탐지 anomaly detection

- imputation of missing values

- denoising 저해상도 이미지 > 고해상도 이미지

- density estimation or probability mass function estimation 모집단의 데이터를 추정하고 싶다.

 

2) Performance

- Accuracy

- Error rate

- Recall: 실제 positive인 것 중에서, 우리 모델이 positive로 잘 예측한 비율

      - Precision: 우리 모델이 positive라고 예측한 것 중에서, 실제로 positive인 비율

      - 두 비율은 서로를 보정하고 , F1 (recall-precision의 종합 평균)을 사용한다. 

- ROC-AUC

- Log-likelihood (density estimation)

- Inception Score (density estimation)

       - 인셉션 모델에 학습시키고, 우리의 생성 모델을 파악하겠다. 

       - 실제 이미지와의 비교는 없다. 

- FID 스코어: 실제 이미지와 얼마나 유사한지 확인

 

3) Experience

: 수많은 example을 모아놓은 데이터셋

- Supervised learning

- Unsupervised learning

- Semi-supervised learning: 문제는 있는데 답은 없는

- multi-instance learning 

- reinforcement learning

- self-supervised: 레이블 없는 상황에서 스스로 공부

 

 

Generalization error

: expected value of the error on a new input 새로운 데이터에 대한 에러 (테스트 에러)

-> 트레이닝 에러 ~ 테스트 에러 간 상이함이 작아진다 = how well the ml algorithm will perform

- underfitting

- overfitting

 

Occam's razor

- 여러 hypothesis (우리 모델의 후보군) 셋의 hypotheses 중에서는 간단한 걸 고르는 게 좋다. 

- How to measure the model capacity? > VC dimention

 

VC dimension

- Hoeffding's Inequality; sum of bounded independent 

 

 

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.