如何分享数据? #39
Replies: 26 comments 1 reply
-
我最近将要构建印章数据页面,每个想要共享的人都可以把链接分享在该页面中,并且可以直观的看到大家的贡献。 基于如此,我将在未来首先会持续公开真实印章与生成的印章数据,以共同推动该方向的发展。 |
Beta Was this translation helpful? Give feedback.
-
好的。 不过有一个问题,可能大家都会遇到 手上的样本太敏感,无法真正做到开源。。 这个问题要如何解决? 还是当前我们之开源 可以开源的部分? 问题一 已经完毕 下一个问题 讨论一些想法 |
Beta Was this translation helpful? Give feedback.
-
|
Beta Was this translation helpful? Give feedback.
-
所以您的意思是说 第二点 trocr 有能力通过 合成数据与训练后 使用真实样本微调 达到理想的性能吗 |
Beta Was this translation helpful? Give feedback.
-
目前结论是可以的,而且没必要搞二次微调,直接放一起训练就好。 |
Beta Was this translation helpful? Give feedback.
-
感谢博主 学到了。 有时间的话可以验证一下在识别任务上,是不是同样也是这样子的存在。 怀疑是灰度合成样本更接近真实样本。 |
Beta Was this translation helpful? Give feedback.
-
我修正了上面的描述,真实数据不是存在很多种情况的噪声吗?有的时印泥情况造成印章颜色过深、过浅、扫描不清晰、背景文字干扰、印章重叠、像素过低等等,如果你的数据增强能够覆盖足够多的情况下,有可能会解决部分噪音情况的真实数据缺失情况。 合成样本的效果通常来说取决与你合成的策略、样本集特征范围等。 |
Beta Was this translation helpful? Give feedback.
-
您好,我想共享数据,但是没有自动化打标签工具,方便的话请告知打标工具等,或者可以组织一个群之类的东西。方便有志于此的同志。
|
Beta Was this translation helpful? Give feedback.
-
自动化打标签通常来说有两种方案 |
Beta Was this translation helpful? Give feedback.
-
谢谢,我想加入您的项目,有什么办法协作么 |
Beta Was this translation helpful? Give feedback.
-
非常期待大家参与合作,这是开源项目,任何有效的修复、维护、拓展等都可以提交pr,通过审核之后合入即可成为协作者,无需任何其他的批准要求! |
Beta Was this translation helpful? Give feedback.
-
您好!请问使用付费api来打标签这种方式,能分享以下具体方式吗?如何付费等等,谢谢您的开源项目! |
Beta Was this translation helpful? Give feedback.
-
作者您好,使用您的方法训练印章识别模型,我看好像都不需要标注出文字的位置,直接就标注文字的内容就可以了? |
Beta Was this translation helpful? Give feedback.
-
@freebooterish 百度印章识别、阿里印章识别、合合信息印章识别等。 |
Beta Was this translation helpful? Give feedback.
-
@dc6273632 嗯呢,这个是端到端的算法,不需要标注字符位置。 |
Beta Was this translation helpful? Give feedback.
-
如果要在自己的数据集上训练印章识别模型,需要下载哪一个预训练模型? |
Beta Was this translation helpful? Give feedback.
-
在训练或者推理的时候如果将印章图片转正,识别率是不是会高很多?对于印章转正有什么好的办法吗? |
Beta Was this translation helpful? Give feedback.
-
@dc6273632 |
Beta Was this translation helpful? Give feedback.
-
主要我想知道的是如果送给模型的样本都是转正的,推理的时候也都是转正的,这样识别精度会不会比未转正训练推理的精度要高一些呢?哪怕只高个2%-3%也是好的,说明前置的转正处理事有意义的,如果没有精度的提升,那这个就是无用功了。 |
Beta Was this translation helpful? Give feedback.
-
@dc6273632 你好,这是个值得做的消融实验,可以降低任务的复杂度,从而降低对模型的要求。在同等规模的模型下,也许是可以提升精度,因为相当于把一部分工作前移到方向预测模型了,简化了后续模型的识别任务。 |
Beta Was this translation helpful? Give feedback.
-
好的,谢谢老师的解答!还有一个问题,就是一些生僻字在训练样本中出现的次数少,然后在推理的时候会出现识别不出的情况,像这种的是否可以将出现该生僻字的样本多复制几份,重新训练来解决? |
Beta Was this translation helpful? Give feedback.
-
可以直接复制,但是更建议这边用到的生僻字作为字典,生成一些印章数据进行训练。 |
Beta Was this translation helpful? Give feedback.
-
好的,了解了,老师。我发现主要就是因为这些出现次数较少的字影响了模型最终的精度,如果能平衡字符出现次数,估计模型的精度会上一个台阶。 |
Beta Was this translation helpful? Give feedback.
-
老师,问个问题,是不是如果我的数据集的字符数量超过了预训练模型的字符数量,就没办法使用预训练模型了? |
Beta Was this translation helpful? Give feedback.
-
老师您好,想请教下,是否有可能在足够的数据增强基础上,使用纯生成印章进行训练呢? |
Beta Was this translation helpful? Give feedback.
-
您好我看到共享数据的 计划,想问一下如何联系。
Beta Was this translation helpful? Give feedback.
All reactions