# deeplearning data

- training set, validation set, test set

- (10이라는 데이터가 있으면 7:1:2 정도로 나누어 줌)

- training set :  훈련용 데이터셋, validaition set : 훈련검증용 데이터셋, test set : 테스트용 데이터셋

- training (공부) / validation (모의고사) / test (수능)  => 이렇게 생각하면 이해가 쉬운거 같다

- label : data에 대한 정답 (labeling이 되어 있지 않은 데이터에 대해서는 직접 라벨링 작업을 해주어야 함)

 

# AI system = code + data

- 성능 향상을 위해 학습방법과 모델구조를 바꿔서 학습시키는 경우가 많은데, 학습의 기본은 data라고 생각해야한다. 데이터의 질을 올려 성능 향상을 시도하고 후에 학습방법과 모델구조를 바꾸는 게 좋다 

=> 이미 모델들은 잘 만들어져있기 때문에 우리가 모델을 사용하면서 성능이 안나오면 데이터의 질을 확인해야할 필요가 있다는 것임

- 질좋은 데이터를 구축하기 위한 주의할 사항

    - 데이터가 평형을 이루고 있는가? ( 한쪽에 치우치진 않았는지)

    - 라벨링 해준 사람의 판단이 정확한지?

    ** 항상!! 양보단 질이다!!

+ Recent posts