Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

好像不太行 #2

Open
VectorWen opened this issue Sep 23, 2024 · 1 comment
Open

好像不太行 #2

VectorWen opened this issue Sep 23, 2024 · 1 comment
Labels
question Further information is requested

Comments

@VectorWen
Copy link

Filter4j 演示程序 已经启动!
爪子没力影响游戏心情 能不能调调
异常
中文是砥砺奋进
正常
2哦算了可接受的
正常
奥我理解时代峰峻
正常

异常
你大
异常
你大爷
异常
大爷你好
异常
了三等奖
异常

正常
三等奖
异常
二等奖
异常
一等
异常

异常

正常

@huzpsb
Copy link
Contributor

huzpsb commented Nov 7, 2024

您好!预训练的模型的训练集是COLD

https://github.com/LL4J/Filter4Jx

因此,Filter4J的预训练模型的能力是分类完整(包含规范的标点符号)的句子,例如

你看一下最新的一个回答下面,那个答主站的题主,题主现在得到精神鼓励,又改变想法了,又想分了,觉得男友配不上自己了

根据IID假设,可以预见的是,预训练模型并不包含对短语的分类能力。
如果目标场景中有许多这种不构成完整句子、对正常人而言也非常迷惑的词汇片段(如“2哦算了可接受的”);抑或标点符号使用不规范的短句(如“爪子没力影响游戏心情 能不能调调”使用了空格而非逗号),请根据自己的实际需要考虑微调模型。

我们难以将此类微调合并入基线模型,是因为此类文本资料的判定缺乏统一标准(即使是人类也很在没有上下文的情况下难笃定“2哦算了可接受的”是否具有攻击性);且客观来说,大量考虑边界情况会影响模型的泛化能力。
如果您是在使用COLD的测试集上不能复现我们给出的指标;又或是希望提升在某公开数据集上的排名,还请给出相关数据集以及您的试验结果的文件。

此外,如果您是在工程中使用,也可以考虑使用词频统计等方法在将句子交由LL4J判断前,首先判断句子是否规范、有效。

@huzpsb huzpsb added the question Further information is requested label Nov 7, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants