We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Filter4j 演示程序 已经启动! 爪子没力影响游戏心情 能不能调调 异常 中文是砥砺奋进 正常 2哦算了可接受的 正常 奥我理解时代峰峻 正常 操 异常 你大 异常 你大爷 异常 大爷你好 异常 了三等奖 异常 了 正常 三等奖 异常 二等奖 异常 一等 异常 已 异常 一 正常
The text was updated successfully, but these errors were encountered:
您好!预训练的模型的训练集是COLD
https://github.com/LL4J/Filter4Jx
因此,Filter4J的预训练模型的能力是分类完整(包含规范的标点符号)的句子,例如
你看一下最新的一个回答下面,那个答主站的题主,题主现在得到精神鼓励,又改变想法了,又想分了,觉得男友配不上自己了
根据IID假设,可以预见的是,预训练模型并不包含对短语的分类能力。 如果目标场景中有许多这种不构成完整句子、对正常人而言也非常迷惑的词汇片段(如“2哦算了可接受的”);抑或标点符号使用不规范的短句(如“爪子没力影响游戏心情 能不能调调”使用了空格而非逗号),请根据自己的实际需要考虑微调模型。
我们难以将此类微调合并入基线模型,是因为此类文本资料的判定缺乏统一标准(即使是人类也很在没有上下文的情况下难笃定“2哦算了可接受的”是否具有攻击性);且客观来说,大量考虑边界情况会影响模型的泛化能力。 如果您是在使用COLD的测试集上不能复现我们给出的指标;又或是希望提升在某公开数据集上的排名,还请给出相关数据集以及您的试验结果的文件。
此外,如果您是在工程中使用,也可以考虑使用词频统计等方法在将句子交由LL4J判断前,首先判断句子是否规范、有效。
Sorry, something went wrong.
No branches or pull requests
Filter4j 演示程序 已经启动!
爪子没力影响游戏心情 能不能调调
异常
中文是砥砺奋进
正常
2哦算了可接受的
正常
奥我理解时代峰峻
正常
操
异常
你大
异常
你大爷
异常
大爷你好
异常
了三等奖
异常
了
正常
三等奖
异常
二等奖
异常
一等
异常
已
异常
一
正常
The text was updated successfully, but these errors were encountered: