기본적으로 0.01 정도로 시작해서 조정한다.
- Large learning rate : Overshooting, 최소값을 뛰어 넘어 오히려 값이 커진다.
- Small learning rate : Takes too long, stops at local minimum, 최소값을 찾는 데 너무 오래 걸리거나, 지역 최소값에 머무른 채 끝날 수 있다. cost 값을 주기적으로 찍어 변화량을 확인해야 한다.
- 값 사이가 차이가 많이 날 경우, 등고선이 길게 그려지는 왜곡된 형태로 그려진다. 이를 해결하기 위해 데이터를 normalize 하는 과정이 필요. (data preprocessing)
Our model is very good with training data set. Not good at test dataset or in real use.
- More training data
- Reduce number of feature
- Regularization (일반화)
- Early stopping
- Dropout