好像不太行 #2

VectorWen · 2024-09-23T10:19:24Z

Filter4j 演示程序已经启动!
爪子没力影响游戏心情能不能调调
异常
中文是砥砺奋进
正常
2哦算了可接受的
正常
奥我理解时代峰峻
正常
操
异常
你大
异常
你大爷
异常
大爷你好
异常
了三等奖
异常
了
正常
三等奖
异常
二等奖
异常
一等
异常
已
异常
一
正常

huzpsb · 2024-11-07T05:17:49Z

您好！预训练的模型的训练集是COLD

https://github.com/LL4J/Filter4Jx

因此，Filter4J的预训练模型的能力是分类完整（包含规范的标点符号）的句子，例如

你看一下最新的一个回答下面，那个答主站的题主，题主现在得到精神鼓励，又改变想法了，又想分了，觉得男友配不上自己了

根据IID假设，可以预见的是，预训练模型并不包含对短语的分类能力。
如果目标场景中有许多这种不构成完整句子、对正常人而言也非常迷惑的词汇片段（如“2哦算了可接受的”）；抑或标点符号使用不规范的短句（如“爪子没力影响游戏心情能不能调调”使用了空格而非逗号），请根据自己的实际需要考虑微调模型。

我们难以将此类微调合并入基线模型，是因为此类文本资料的判定缺乏统一标准（即使是人类也很在没有上下文的情况下难笃定“2哦算了可接受的”是否具有攻击性）；且客观来说，大量考虑边界情况会影响模型的泛化能力。
如果您是在使用COLD的测试集上不能复现我们给出的指标；又或是希望提升在某公开数据集上的排名，还请给出相关数据集以及您的试验结果的文件。

此外，如果您是在工程中使用，也可以考虑使用词频统计等方法在将句子交由LL4J判断前，首先判断句子是否规范、有效。

huzpsb added the question Further information is requested label Nov 7, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

好像不太行 #2

好像不太行 #2

VectorWen commented Sep 23, 2024

huzpsb commented Nov 7, 2024 •

edited

Loading

好像不太行 #2

好像不太行 #2

Comments

VectorWen commented Sep 23, 2024

huzpsb commented Nov 7, 2024 • edited Loading

huzpsb commented Nov 7, 2024 •

edited

Loading