如何分享数据？ #39

UnstoppableCurry · 2024-01-12T03:01:02Z

UnstoppableCurry
Jan 12, 2024

您好我看到共享数据的计划，想问一下如何联系。

Gmgge · 2024-01-16T03:17:47Z

Gmgge
Jan 16, 2024
Maintainer

我最近将要构建印章数据页面，每个想要共享的人都可以把链接分享在该页面中，并且可以直观的看到大家的贡献。

基于如此，我将在未来首先会持续公开真实印章与生成的印章数据，以共同推动该方向的发展。

0 replies

UnstoppableCurry · 2024-01-18T08:13:10Z

UnstoppableCurry
Jan 18, 2024
Author

好的。不过有一个问题，可能大家都会遇到手上的样本太敏感，无法真正做到开源。。这个问题要如何解决？还是当前我们之开源可以开源的部分？问题一已经完毕下一个问题讨论一些想法
有没有可能大家一起做一个生成式的开源项目用于生成合成印章样本更加逼近真实数据。
1.我用风格迁移的通用模型试了试，合成样本迁移到真实印章样本的风格很困难。或许需要微调通用模型才会有效果
2.或许用GAN 的方式来生成样本会更好一些，再有限的样本数量内，鉴别器能发挥比较好的效果。
3.扩散模型去实现或许效果也不错，有人用来消除水印，或许也可以用来生成印章（虽然难度更大）
4.类似anyText 的思路，使用阿里开源的模型测试过模型的文字修改，一般本文行的效果一般。弯曲文本行生成的字都不对。但是这个思路是不错的。通过可控文本生成的方式不仅可以生成样本，训练过程中的text embeddeding 或者是编码器是训练结果的副产品，对齐字典后可以用于 trocr 的识别

0 replies

Gmgge · 2024-01-19T00:52:33Z

Gmgge
Jan 19, 2024
Maintainer

数据共享：由于数据敏感的问题，如果是图像中其他数据敏感，我正在构建印章区域提取部分，可以单独将公章切分出来共享。如果这部分也存在敏感性的话，我建议是作为私人数据集不再共享。后续我将从互联网逐渐收集印章数据集并使用自动化工具构建成数据共享给大家，如果任何人在互联网上发现印章数据也可以提供线索。
印章生成部分，我建议构建印章生成代码，因为本身就是人造产物。如果你会使用GIMP、PS，也可以使用这些工具生成印章数据。使用的时候只要加上随机纹理、噪声、旋转、背景等增强手段即可。

0 replies

UnstoppableCurry · 2024-01-22T02:41:47Z

UnstoppableCurry
Jan 22, 2024
Author

所以您的意思是说第二点 trocr 有能力通过合成数据与训练后使用真实样本微调达到理想的性能吗

0 replies

Gmgge · 2024-01-23T02:03:49Z

Gmgge
Jan 23, 2024
Maintainer

目前结论是可以的，而且没必要搞二次微调，直接放一起训练就好。
1.经过测试结果验证，针对清晰的印章识别泛化性达到使用标准（保证字典范围覆盖，CER 90%+）。
2.模糊印章识别准确率下降，刨去各种噪声带来的影响，我推测可能是数据增强还是无法覆盖真实印章的噪声特征范围，因为在部分模糊情况下的准确率直逼清晰印章。

0 replies

UnstoppableCurry · 2024-01-23T09:22:40Z

UnstoppableCurry
Jan 23, 2024
Author

感谢博主学到了。
对于第二点，有一个问题。您指的模糊具体指的是那些。背景文字与前景印章重合还是指的像素密度太低导致的图片模糊的这个意思？
我最近做实验发现
样本A: 彩色->灰度->彩色样本B：彩色样本C：样本A+样本B
对于检测-分割任务
训练样本为全部为样本A时拟合与最终性能优于样本B 与样本C （训练集上全部为合成样本，验证集上位合成样本与真实样本）

有时间的话可以验证一下在识别任务上，是不是同样也是这样子的存在。怀疑是灰度合成样本更接近真实样本。

0 replies

Gmgge · 2024-01-25T02:12:08Z

Gmgge
Jan 25, 2024
Maintainer

我修正了上面的描述，真实数据不是存在很多种情况的噪声吗？有的时印泥情况造成印章颜色过深、过浅、扫描不清晰、背景文字干扰、印章重叠、像素过低等等，如果你的数据增强能够覆盖足够多的情况下，有可能会解决部分噪音情况的真实数据缺失情况。

合成样本的效果通常来说取决与你合成的策略、样本集特征范围等。

0 replies

UnstoppableCurry · 2024-01-29T02:07:49Z

UnstoppableCurry
Jan 29, 2024
Author

好的

0 replies

zhuyang2356 · 2024-05-06T01:59:59Z

zhuyang2356
May 6, 2024

您好，我想共享数据，但是没有自动化打标签工具，方便的话请告知打标工具等，或者可以组织一个群之类的东西。方便有志于此的同志。

我修正了上面的描述，真实数据不是存在很多种情况的噪声吗？有的时印泥情况造成印章颜色过深、过浅、扫描不清晰、背景文字干扰、印章重叠、像素过低等等，如果你的数据增强能够覆盖足够多的情况下，有可能会解决部分噪音情况的真实数据缺失情况。

合成样本的效果通常来说取决与你合成的策略、样本集特征范围等。

0 replies

Gmgge · 2024-05-07T00:47:34Z

Gmgge
May 7, 2024
Maintainer

自动化打标签通常来说有两种方案
1.使用付费api来打标签，性价比极高；
2.在构建一定的数据集之后，训练模型，使用自己的模型进行打标。

0 replies

zhuyang2356 · 2024-05-07T03:24:57Z

zhuyang2356
May 7, 2024

自动化打标签通常来说有两种方案 1.使用付费api来打标签，性价比极高； 2.在构建一定的数据集之后，训练模型，使用自己的模型进行打标。

谢谢，我想加入您的项目，有什么办法协作么

0 replies

Gmgge · 2024-05-08T01:25:31Z

Gmgge
May 8, 2024
Maintainer

非常期待大家参与合作，这是开源项目，任何有效的修复、维护、拓展等都可以提交pr，通过审核之后合入即可成为协作者，无需任何其他的批准要求！

0 replies

freebooterish · 2024-05-28T03:47:45Z

freebooterish
May 28, 2024

自动化打标签通常来说有两种方案 1.使用付费api来打标签，性价比极高； 2.在构建一定的数据集之后，训练模型，使用自己的模型进行打标。

您好!请问使用付费api来打标签这种方式,能分享以下具体方式吗?如何付费等等,谢谢您的开源项目!
分享一个数据集: 链接: https://pan.baidu.com/s/1iOciAjii82nXNyKrbbXciQ?pwd=q6a7 提取码: q6a7
--来自百度网盘超级会员v8的分享

0 replies

dc6273632 · 2024-06-19T03:08:40Z

dc6273632
Jun 19, 2024

作者您好，使用您的方法训练印章识别模型，我看好像都不需要标注出文字的位置，直接就标注文字的内容就可以了？

0 replies

Gmgge · 2024-06-19T09:33:01Z

Gmgge
Jun 19, 2024
Maintainer

@freebooterish 百度印章识别、阿里印章识别、合合信息印章识别等。

0 replies

Gmgge · 2024-06-19T09:33:29Z

Gmgge
Jun 19, 2024
Maintainer

@dc6273632 嗯呢，这个是端到端的算法，不需要标注字符位置。

0 replies

dc6273632 · 2024-06-21T11:24:01Z

dc6273632
Jun 21, 2024

如果要在自己的数据集上训练印章识别模型，需要下载哪一个预训练模型？

0 replies

dc6273632 · 2024-06-26T03:53:45Z

dc6273632
Jun 26, 2024

在训练或者推理的时候如果将印章图片转正，识别率是不是会高很多？对于印章转正有什么好的办法吗？

0 replies

Gmgge · 2024-06-30T01:07:14Z

Gmgge
Jun 30, 2024
Maintainer

@dc6273632
1.通常来说可以下载预训练模型，不过你也可以参考issue里面另一个小伙伴的网络配置，重新训练，他的线上精度98%，相当优秀的表现！
2.不需要，添加旋转数据增强就好，端到端策略就是为了去除各种人工设定的处理逻辑，让模型自己去学习。

0 replies

dc6273632 · 2024-06-30T03:15:38Z

dc6273632
Jun 30, 2024

@dc6273632 1.通常来说可以下载预训练模型，不过你也可以参考issue里面另一个小伙伴的网络配置，重新训练，他的线上精度98%，相当优秀的表现！ 2.不需要，添加旋转数据增强就好，端到端策略就是为了去除各种人工设定的处理逻辑，让模型自己去学习。

主要我想知道的是如果送给模型的样本都是转正的，推理的时候也都是转正的，这样识别精度会不会比未转正训练推理的精度要高一些呢？哪怕只高个2%-3%也是好的，说明前置的转正处理事有意义的，如果没有精度的提升，那这个就是无用功了。

0 replies

Gmgge · 2024-07-04T01:32:22Z

Gmgge
Jul 4, 2024
Maintainer

@dc6273632 你好，这是个值得做的消融实验，可以降低任务的复杂度，从而降低对模型的要求。在同等规模的模型下，也许是可以提升精度，因为相当于把一部分工作前移到方向预测模型了，简化了后续模型的识别任务。

0 replies

dc6273632 · 2024-07-04T07:36:03Z

dc6273632
Jul 4, 2024

@dc6273632 你好，这是个值得做的消融实验，可以降低任务的复杂度，从而降低对模型的要求。在同等规模的模型下，也许是可以提升精度，因为相当于把一部分工作前移到方向预测模型了，简化了后续模型的识别任务。

好的，谢谢老师的解答！还有一个问题，就是一些生僻字在训练样本中出现的次数少，然后在推理的时候会出现识别不出的情况，像这种的是否可以将出现该生僻字的样本多复制几份，重新训练来解决？

0 replies

Gmgge · 2024-07-04T07:42:56Z

Gmgge
Jul 4, 2024
Maintainer

可以直接复制，但是更建议这边用到的生僻字作为字典，生成一些印章数据进行训练。

0 replies

dc6273632 · 2024-07-04T08:34:20Z

dc6273632
Jul 4, 2024

可以直接复制，但是更建议这边用到的生僻字作为字典，生成一些印章数据进行训练。

好的，了解了，老师。我发现主要就是因为这些出现次数较少的字影响了模型最终的精度，如果能平衡字符出现次数，估计模型的精度会上一个台阶。

0 replies

dc6273632 · 2024-07-11T09:22:57Z

dc6273632
Jul 11, 2024

可以直接复制，但是更建议这边用到的生僻字作为字典，生成一些印章数据进行训练。

老师，问个问题，是不是如果我的数据集的字符数量超过了预训练模型的字符数量，就没办法使用预训练模型了？

1 reply

Gmgge Jul 15, 2024
Maintainer

如果相差不是特别大是可以的，遇到了什么错误吗？需要网络调整的话建议阅读下Trocr、Attention Is All You Need的论文

KevinInfinigon · 2024-10-08T09:23:51Z

KevinInfinigon
Oct 8, 2024

老师您好，想请教下，是否有可能在足够的数据增强基础上，使用纯生成印章进行训练呢？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何分享数据？ #39

{{title}}

Replies: 26 comments 1 reply

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

如何分享数据？ #39

Replies: 26 comments · 1 reply

Gmgge Jan 16, 2024 Maintainer

UnstoppableCurry Jan 18, 2024 Author

Gmgge Jan 19, 2024 Maintainer

UnstoppableCurry Jan 22, 2024 Author

Gmgge Jan 23, 2024 Maintainer

UnstoppableCurry Jan 23, 2024 Author

Gmgge Jan 25, 2024 Maintainer

UnstoppableCurry Jan 29, 2024 Author

Gmgge May 7, 2024 Maintainer

Gmgge May 8, 2024 Maintainer

Gmgge Jun 19, 2024 Maintainer

Gmgge Jun 19, 2024 Maintainer

Gmgge Jun 30, 2024 Maintainer

Gmgge Jul 4, 2024 Maintainer

Gmgge Jul 4, 2024 Maintainer

Gmgge Jul 15, 2024 Maintainer

Replies: 26 comments 1 reply

Gmgge
Jan 16, 2024
Maintainer

UnstoppableCurry
Jan 18, 2024
Author

Gmgge
Jan 19, 2024
Maintainer

UnstoppableCurry
Jan 22, 2024
Author

Gmgge
Jan 23, 2024
Maintainer

UnstoppableCurry
Jan 23, 2024
Author

Gmgge
Jan 25, 2024
Maintainer

UnstoppableCurry
Jan 29, 2024
Author

Gmgge
May 7, 2024
Maintainer

Gmgge
May 8, 2024
Maintainer

Gmgge
Jun 19, 2024
Maintainer

Gmgge
Jun 19, 2024
Maintainer

Gmgge
Jun 30, 2024
Maintainer

Gmgge
Jul 4, 2024
Maintainer

Gmgge
Jul 4, 2024
Maintainer

Gmgge Jul 15, 2024
Maintainer