딥러닝을 위한 Data

sonzwon 2022. 7. 8. 20:06

2022. 7. 8. 20:06

- training set, validation set, test set

- (10이라는 데이터가 있으면 7:1:2 정도로 나누어 줌)

- training set : 훈련용 데이터셋, validaition set : 훈련검증용 데이터셋, test set : 테스트용 데이터셋

- training (공부) / validation (모의고사) / test (수능) => 이렇게 생각하면 이해가 쉬운거 같다

- label : data에 대한 정답 (labeling이 되어 있지 않은 데이터에 대해서는 직접 라벨링 작업을 해주어야 함)

- 성능 향상을 위해 학습방법과 모델구조를 바꿔서 학습시키는 경우가 많은데, 학습의 기본은 data라고 생각해야한다. 데이터의 질을 올려 성능 향상을 시도하고 후에 학습방법과 모델구조를 바꾸는 게 좋다

=> 이미 모델들은 잘 만들어져있기 때문에 우리가 모델을 사용하면서 성능이 안나오면 데이터의 질을 확인해야할 필요가 있다는 것임

- 질좋은 데이터를 구축하기 위한 주의할 사항

- 데이터가 평형을 이루고 있는가? ( 한쪽에 치우치진 않았는지)

- 라벨링 해준 사람의 판단이 정확한지?

** 항상!! 양보단 질이다!!

activation function (활성화함수) (0)	2022.10.20
Gradient Vanishing & Exploding (기울기 소실과 폭주) (0)	2022.10.18
weight (가중치) (0)	2022.07.14
ANN (Artificial Neural Network, 인공신경망) (0)	2022.07.14
딥러닝과 인공지능에 대한 이해 (0)	2022.07.08

KEEP GOING