We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
1.为什么代码中存储模型和验证指标都是按Iteration来统计,这样不是受到BatchSize影响很大吗,为什么不选择epoch?是因为我用的Flickr8k数据集比较小而MsCOCO比较大吗?
2.config对于一个caption模型分为base,long,sc,nsc,long指的是大epoch,sc我理解的是self-critical,但是nsc是什么,我看到里面有添加structure_loss,这是pytorch里面的吗,还有structure_loss_type: new_self_critical,我不是很理解structure_loss是干什么的,到底是另一种损失的统计方法还是强化学习的内容,这是一种很有意义的trick吗,我从没有接触过。
3.如果一共50轮,30轮开始强化学习,那么到底是50轮深度学习+20轮强化,还是30+20?
3.在base_sc的config中,学习率衰减去掉了,这是为什么?学习率会影响强化学习吗?
4.fc的参考是show and tell吗?为什么只用到resnet101的平均特征,12048,原文中应该是77*2048吧。
The text was updated successfully, but these errors were encountered:
2.nsc好像是new self-critical,学习率小了一个数量级,去掉了学习率衰减,用了结构损失。 4.写错了,1x2048和7x7*2048
5.如果我有一个训练好的30轮的模型,我设置最大50轮,默认在30轮基础上继续训练,学习率衰减会在20轮期间从最大降至最小吗,还是从30轮的开始,继续衰减,那么学习率就会很小。我是否应该重新设置学习率和衰减率
6.为什么Transformer中不设定scheduled_sampling?
7.为什么默认的Batch_size都很小,大多数模型我只用到5个g的显存,大Batch会影响读取效率吗,还是说小Batch效果更好?
Sorry, something went wrong.
No branches or pull requests
1.为什么代码中存储模型和验证指标都是按Iteration来统计,这样不是受到BatchSize影响很大吗,为什么不选择epoch?是因为我用的Flickr8k数据集比较小而MsCOCO比较大吗?
2.config对于一个caption模型分为base,long,sc,nsc,long指的是大epoch,sc我理解的是self-critical,但是nsc是什么,我看到里面有添加structure_loss,这是pytorch里面的吗,还有structure_loss_type: new_self_critical,我不是很理解structure_loss是干什么的,到底是另一种损失的统计方法还是强化学习的内容,这是一种很有意义的trick吗,我从没有接触过。
3.如果一共50轮,30轮开始强化学习,那么到底是50轮深度学习+20轮强化,还是30+20?
3.在base_sc的config中,学习率衰减去掉了,这是为什么?学习率会影响强化学习吗?
4.fc的参考是show and tell吗?为什么只用到resnet101的平均特征,12048,原文中应该是77*2048吧。
The text was updated successfully, but these errors were encountered: