# deeplearning data
- training set, validation set, test set
- (10이라는 데이터가 있으면 7:1:2 정도로 나누어 줌)
- training set : 훈련용 데이터셋, validaition set : 훈련검증용 데이터셋, test set : 테스트용 데이터셋
- training (공부) / validation (모의고사) / test (수능) => 이렇게 생각하면 이해가 쉬운거 같다
- label : data에 대한 정답 (labeling이 되어 있지 않은 데이터에 대해서는 직접 라벨링 작업을 해주어야 함)
# AI system = code + data
- 성능 향상을 위해 학습방법과 모델구조를 바꿔서 학습시키는 경우가 많은데, 학습의 기본은 data라고 생각해야한다. 데이터의 질을 올려 성능 향상을 시도하고 후에 학습방법과 모델구조를 바꾸는 게 좋다
=> 이미 모델들은 잘 만들어져있기 때문에 우리가 모델을 사용하면서 성능이 안나오면 데이터의 질을 확인해야할 필요가 있다는 것임
- 질좋은 데이터를 구축하기 위한 주의할 사항
- 데이터가 평형을 이루고 있는가? ( 한쪽에 치우치진 않았는지)
- 라벨링 해준 사람의 판단이 정확한지?
** 항상!! 양보단 질이다!!
'AI > Deep Learning' 카테고리의 다른 글
activation function (활성화함수) (0) | 2022.10.20 |
---|---|
Gradient Vanishing & Exploding (기울기 소실과 폭주) (0) | 2022.10.18 |
weight (가중치) (0) | 2022.07.14 |
ANN (Artificial Neural Network, 인공신경망) (0) | 2022.07.14 |
딥러닝과 인공지능에 대한 이해 (0) | 2022.07.08 |