Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20171128] 当前进展和关于接下来工作的思考 #25

Open
crownpku opened this issue Nov 28, 2017 · 2 comments
Open

[20171128] 当前进展和关于接下来工作的思考 #25

crownpku opened this issue Nov 28, 2017 · 2 comments

Comments

@crownpku
Copy link
Member

crownpku commented Nov 28, 2017

webui + database

前端界面和数据库都还在开发中,重点是要写好API和相应文档以便未来后端算法模块的接入,下一步希望能尽快出一个能看到界面的demo~

task_center + user_instance

当前已经搭建好一个最简单的offline training的pipeline。

下一步既然我们已经有spam email的数据和label,在前端完成之前,需要模拟用户 “拿到confidence最低的一批数据” -> "续标数据(其实就是从数据里把该部分的label拿出来)" -> "重新训练给出confidence ranking"这样一个过程,完成一个模拟的online training & inference pipeline的test case。未来就可以方便接入前端与数据库的部分。

另外一个,就是要注意把具体任务(如spam email classification)的所有配置文件(.config),文本数据(.sqlite/mongodb),模型数据(tensorflow/sklearn/jieba词库)乃至状态数据全都实例化单独放在同一个user_instance下面的位置。我们的目标是,用户换一台电脑装好我们的软件,把user_instance中相应任务的数据包拷贝过去,就能在尽可能简单地配置完成后接着进行之前的工作。

algo_factory

当前已经完成了符合pipline框架格式的基于component和message的 char_tokenizer, sentence_embedding_extractorsklean_classifier模块,可以接起来实现一个offline training的过程。

下一步,即是要实现与用户标注数据交互的一个过程,即新标注数据进来的re-train(暂时实现是所有已标注数据的全量训练,即伪active learning)以及未标注数据inference之后的confidence ranking功能,返回确信度最低的几条数据。每个功能要写unit test。

另外,要实验这样的SVM全量训练在数据多了之后,是否能给到用户active learning级别的反馈速度。如果不够快的话,就要考虑加入online batch learning来代替每次全量数据集的训练,实现真正的active learning过程;这一块挑战多多。

暂时想到这么多,欢迎大家讨论呀!

@JiaLei123
Copy link
Collaborator

我在作与API交互的页面,可以使用chrome浏览器打开webui/static/web_util.html 查看

@hanpum
Copy link

hanpum commented Jun 12, 2018

现在这个系统进展如何?好像还跑不起来? 有什么开发计划吗

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants