Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于ShareGPT4V多语言版本数据在原始ShareGPT4V中缺少平行数据 #3

Open
f6ster opened this issue Dec 30, 2024 · 0 comments

Comments

@f6ster
Copy link

f6ster commented Dec 30, 2024

我在使用您提供的ShareGPT4V多语言版本:https://huggingface.co/datasets/AIDC-AI/Parrot-dataset/tree/main/sharegpt_4v
中的sharegpt4v_sft_zh_71k.json时发现,其中存在一部分内容与ShareGPT4V原始数据集,即sharegpt4v_instruct_gpt4-vision_cap100k.json不匹配。
我在您提供的中文版本中抽取的是来源于coco数据集的数据,例如这一条数据:
image
它对应在ShareGPT4V原始数据集中是:
image
图片的id能够匹配,但是其中的问题和回答无法匹配,且该条数据在ShareGPT4V原始数据集中有且仅有这一条。
同时,我在ShareGPT4V原始数据集原始仓库下的三个文件中https://huggingface.co/datasets/Lin-Chen/ShareGPT4V/tree/main
也无法匹配到该条内容。
请问您提供的ShareGPT4V多语言版本除了是通过对ShareGPT4V原始数据集进行翻译得到的结果,还加入了其他数据集的翻译结果吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant