AI/Deep Learning
딥러닝을 위한 Data
sonzwon
2022. 7. 8. 20:06
# deeplearning data
- training set, validation set, test set
- (10이라는 데이터가 있으면 7:1:2 정도로 나누어 줌)
- training set : 훈련용 데이터셋, validaition set : 훈련검증용 데이터셋, test set : 테스트용 데이터셋
- training (공부) / validation (모의고사) / test (수능) => 이렇게 생각하면 이해가 쉬운거 같다
- label : data에 대한 정답 (labeling이 되어 있지 않은 데이터에 대해서는 직접 라벨링 작업을 해주어야 함)
# AI system = code + data
- 성능 향상을 위해 학습방법과 모델구조를 바꿔서 학습시키는 경우가 많은데, 학습의 기본은 data라고 생각해야한다. 데이터의 질을 올려 성능 향상을 시도하고 후에 학습방법과 모델구조를 바꾸는 게 좋다
=> 이미 모델들은 잘 만들어져있기 때문에 우리가 모델을 사용하면서 성능이 안나오면 데이터의 질을 확인해야할 필요가 있다는 것임
- 질좋은 데이터를 구축하기 위한 주의할 사항
- 데이터가 평형을 이루고 있는가? ( 한쪽에 치우치진 않았는지)
- 라벨링 해준 사람의 판단이 정확한지?
** 항상!! 양보단 질이다!!