Pengzna/Data_Science_2021: 2021年秋 - 南京大学软件学院数据科学基础大作业 - 司法大数据自动化标注与分析 (github.com)
-
前端:Vue,Axios,ElementUI
-
后端:flask
-
NLP :hanlp、TF-IDF、textrank、朴素贝叶斯、机器学习
-
爬虫:Selenium
-
|-- data-science # 前后端分离项目
|-- .idea
|-- flask_backend # 后端文件
| |-- app.py # 后端主入口
| |-- .idea
| |-- case_txt
| |-- crawler # 爬虫
| |-- handle_data # 数据统计分析
| |-- json_result # 前端标注结果
| |-- mark # NLP
| |-- test_case
| |-- util
| |-- word_cloud # 数据可视化
|
|-- vue_frontend # 前端文件
|-- babel.config.js
|-- package-lock.json
|-- package.json
|-- vue.config.js
|-- .idea
|-- public
|-- src
|-- App.vue
|-- main.js
|-- assets # 静态资源
|-- components # 前端组件
|-- router # 路由
后端:
- 进入
flask_backend
文件夹,点击右上角修改编译配置,确保项目working directory
位于目录flask_backend
- 使用
pip install xxx
命令安装缺失的依赖(可根据pycharm IDE提示安装) - 进入
flask_backend
文件夹,运行app.py
文件,可见后台运行于http://127.0.0.1:5000/
前端:
- 进入
vue_frontend
文件夹,执行命令:
npm install
npm run serve
即可于http://localhost:8080/
启动前台vue工程
✅ 自动爬取选定日期区间的裁判文书并保存于本地
🙌 对键入或者上传的裁判文书按照词性进行分词
👍 支持用户手动标注,并可保存标注结果于本地
✨ 对分词结果进行自动标注,供用户参考
🎁 对自动分词结果生成可视化图片,供用户参考
- 访问
http://localhost:8080/
进入项目,前台页面如下
- 选定具体时间区间,自动化爬取选定时间区间的案例文书
- 在文本框手动输入案例或者上传本地案例文件,点击“开始分词”进行自动化分词
- 随后可以在页面看到后端的分词结果,用户可以进行手动标注。点击下方按钮保存标注结果。标注结果将以json格式保存到本地。如果用户认为后台的分词不准确,可以根据案例文本在下方输入框手动添加标记。
- 同时,前端会显示后端基于hanlp和反馈学习的自动化标注结果,并展示词云可视化结果,供用户参考
刘心怡、彭俊植、郑周斌(按姓名拼音排序)
©南京大学软件学院