-
Notifications
You must be signed in to change notification settings - Fork 17
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
nlp #7
Comments
数据集 2016年7月18日,哈工大讯飞联合实验室(HFL)发布填空型中文阅读理解数据集,其中包括《人民日报》新闻数据集和“儿童读物”数据集(HFL-RC: People Daily and CFT dataset)。 在英文阅读理解方面,已有Google DeepMind CNN/Daily Mail数据集,Facebook CBTest数据集,但一直缺少中文阅读理解数据集。此次,HFL发布的数据集不但填补了中文阅读理解的空白,而且与上述两个英文数据集不同,在HFL发布的“儿童读物”数据集中还包含了人工问题,人工问题比自动构造的问题更难回答,这为阅读理解的研究提出了新的挑战。 此外,我们还设计了一种简单有效的神经网络来解决填空型阅读理解问题,并获得了良好的效果。 |
topwords 实验 上传测试数据到hdfs
同样的创建结果保存目录
修改配置文件
修改/etc/profile
报错如下 无法解决 搁置
使用国内镜像 再次进行尝试 |
What industries are next to be disrupted by NLP and Text Analysis? |
词性标注 |
Welcome to the awesome-nlp wiki!
微博词 中英文维基百科语料上的Word2Vec实验 http://www.52nlp.cn/%e4%b8%ad%e8%8b%b1%e6%96%87%e7%bb%b4%e5%9f%ba%e7%99%be%e7%a7%91%e8%af%ad%e6%96%99%e4%b8%8a%e7%9a%84word2vec%e5%ae%9e%e9%aa%8c http://licstar.net/archives/262 Comparison of FastText and Word2Vec TopWORDS1是近期在PNAS发表的一种方法,它在没有任何先验知识的条件下,快速地从大规模中文语料里学习出一个排序的词典以及语料文本的分词结构。 https://mp.weixin.qq.com/s?__biz=MzAxMzA2MDYxMw==&mid=2651555619&idx=1&sn=4cdc0e19cf259845825f6a95707e1105 在谷歌最新的深度学习论文中,Oriol Vinyals与Geoff Hinton等人把LSTM用到了NLP的Parsing问题上,并且得到了不错的结果。O 我们在NAACL-16 上的Tutorial: Recent Progress on DL 4 NLP 的slides O网页链接 , 以及我在QA workshop上的talk: Towards Neural-Net-based QA 的slides O网页链接 http://www.cipsc.org.cn/qngw/?p=800 Language Understanding for Text-based Games using Deep Reinforcement Learning #PaperWeekly# 【哈工大讯飞联合实验室在零指代消解问题上取得进展】 在自然语言理解的零代词消解问题上,人工标注的训练数据非常有限,深度学习的能力无法发挥出来。哈工大讯飞联合实验室的研究人员们提出了一种自动构造大规模“伪训练数据”的方法:在一篇文本中,如果一个名词出现了两次,则将后面出现的一次变成空槽(零代词),从而构成一个“零代词消解”实例,而这个零代词的先行词(即应该填入空槽的答案)就是该名词本身。如此,可以构造无限量的“伪训练数据”,这些数据与真实数据的特征不完全一致,但数量巨大,可以用来做预训练,然后再结合数量很有限的“真实训练数据”,在统一的深度学习模型框架下,很快取得了超过现有最好的中文零指代消解指标5个百分点的进步。此方法简洁纯净,易于领域移植,且未来还有很大的提升空间。 论文已经放在了arXiv上:O网页链接,作者:刘挺、崔一鸣、尹庆宇、王士进、张伟男、胡国平,欢迎同行们批评指正。 零指代问题举例:“小明去找他妈妈了,【】一直没回来”,到底是“谁没回来”,应该是“小明”,而不是“妈妈” 当前国内外在自然语言处理领域的研究热点和难点? facebook fasttext 我觉得这个工作的最有意思的地方是,能够为实体找到最有信息量的句子,这些句子往往是该实体的定义或描述。这样,在构建知识图谱时,我们就可以自动为新增的实体构建对应的文本描述信息了。[微笑] |
blogs [干货]深度学习即将攻陷的下一个领域:NLP——ACL2016优秀论文解读(上篇) http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247483864&idx=1&sn=75136bfb9afc4e4f3ed1d3697151aef3 《How to Generate a Good Word Embedding?》导读 【立委科普:自然语言系统架构简说】 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&quickforward=1&id=981742 《深度学习与自然语言处理(斯坦福cs224d)》by 寒小阳, 龙心尘 Lecture1:O (Slides)《Using Text Embeddings for Information Retrieval》by Bhaskar Mitra O |
phd paper 其实就斯坦福NLP,伯克利NLP, CMU LTI, JHU CSLP四个学校的近期博士论文看一看,领域概况就能了解一大半。 Berkeley
Cornell
Cambridge
MITEisenstein ,J 2008 Gesture in Automatic Discourse processing
Edinburgh
Brown
U.Penn
[博士论文《基于神经网络的词和文档语义向量表示方法研究》](http://licstar.net/archives/687) |
Library https://github.com/FudanNLP/fnlp https://github.com/nltk/nltk https://github.com/thunlp https://github.com/WILAB-HIT/News/tree/master/2015/10/30 https://github.com/NLPchina/ansj_seg 词性标注 目前包括:知识表示学习工具包KG2E,关键词抽取和标签推荐工具包THUTag,中文词法分析工具包THULAC,中文文本分类工具包THUCTC等。欢迎关注试用,并提出宝贵意见。[微笑] https://github.com/lionsoul2014/jcseg 目前常用的自然语言处理开源项目/开发包有哪些?请从文本/语音两方面分别介绍一些。
[举报](#) [添加评论](#) [分享](#) • [邀请回答](#)
按投票排序 [按时间排序](/question/19929473?sort=created)
### 19 个回答
226 赞同 反对
[![](https://pic4.zhimg.com/f844abbf7_s.jpg) ](/people/liuliudong) [刘知远](/people/liuliudong),NLPer
[ff4415](https://www.zhihu.com/people/ff4415 "ff4415")、[格调七弦](https://www.zhihu.com/people/ge-diao-qi-xian "格调七弦")、[李木子](https://www.zhihu.com/people/li-mu-zi-88-71 "李木子") [等人赞同](javascript:;)
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。2016年3月31日更新,在THULAC新增Python版本分词器,欢迎使用。**中文词法分析**[THULAC:一个高效的中文词法分析工具包](//link.zhihu.com/?target=http%3A//thulac.thunlp.org/)包括中文分词、词性标注功能。已经提供C++、Java… [显示全部](/question/19929473/answer/90201148)
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。
2016年3月31日更新,在THULAC新增Python版本分词器,欢迎使用。
**中文词法分析**
[THULAC:一个高效的中文词法分析工具包](//link.zhihu.com/?target=http%3A//thulac.thunlp.org/)
包括中文分词、词性标注功能。已经提供C++、Java、Python版本。
**中文文本分类**
[THUCTC: 一个高效的中文文本分类工具](//link.zhihu.com/?target=http%3A//thuctc.thunlp.org/)
提供高效的中文文本特征提取、分类训练和测试功能。
**THUTag: 关键词抽取与社会标签推荐工具包**
[GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion](//link.zhihu.com/?target=https%3A//github.com/YeDeming/THUTag/)
提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。
**PLDA / PLDA+: 一个高效的LDA分布式学习工具包**
[https://code.google.com/archive/p/plda/](//link.zhihu.com/?target=https%3A//code.google.com/archive/p/plda/)
**知识表示学习**
知识表示学习工具包
[GitHub - Mrlyk423/Relation_Extraction: Knowledge Base Embedding](//link.zhihu.com/?target=https%3A//github.com/mrlyk423/relation_extraction)
包括TransE、TransH、TransR、PTransE等算法。
考虑实体描述的知识表示学习算法
[GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions](//link.zhihu.com/?target=https%3A//github.com/xrb92/DKRL)
**词表示学习**
跨语言词表示学习算法
[Learning Cross-lingual Word Embeddings via Matrix Co-factorization](//link.zhihu.com/?target=http%3A//nlp.csai.tsinghua.edu.cn/%7Elzy/src/acl2015_bilingual.html)
主题增强的词表示学习算法
[GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding](//link.zhihu.com/?target=https%3A//github.com/largelymfs/topical_word_embeddings)
可解释的词表示学习算法
[GitHub - SkTim/OIWE: Online Interpretable Word Embeddings](//link.zhihu.com/?target=https%3A//github.com/SkTim/OIWE)
考虑字的词表示学习算法
[GitHub - Leonard-Xu/CWE](//link.zhihu.com/?target=https%3A//github.com/Leonard-Xu/CWE)
**网络表示学习**
文本增强的网络表示学习算法
[GitHub - albertyang33/TADW: code for IJCAI2015 paper "Network Representation Learning with Rich Text Information"](//link.zhihu.com/?target=https%3A//github.com/albertyang33/TADW)
[编辑于 2016-03-31](/question/19929473/answer/90201148) [28 条评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
32 赞同 反对
[![](https://pic4.zhimg.com/b493fcf67_s.jpg) ](/people/kong-mu) [孔牧](/people/kong-mu),软件工程师
[王二毛](https://www.zhihu.com/people/wang-han-46-82 "王二毛")、[潇涧](https://www.zhihu.com/people/hujiaweibujidao "潇涧")、[Alex Green](https://www.zhihu.com/people/alex-green-40 "Alex Green") [等人赞同](javascript:;)
我只清楚文本方面的开源项目, 希望能帮到你:一整套文本挖掘流水线GATE:[http://gate.ac.uk/](//link.zhihu.com/?target=http%3A//gate.ac.uk/)你可以按照它的要求向其中添加组件, 完成自己的nlp任务我在的项目组曾经尝试过使用, 虽然它指出组件开发, 但是灵活性还是不高, 所以我们自己又开发了一套流… [显示全部](/question/19929473/answer/13381815)
我只清楚文本方面的开源项目, 希望能帮到你:
一整套文本挖掘流水线GATE:[http://gate.ac.uk/](//link.zhihu.com/?target=http%3A//gate.ac.uk/)
你可以按照它的要求向其中添加组件, 完成自己的nlp任务
我在的项目组曾经尝试过使用, 虽然它指出组件开发, 但是灵活性还是不高, 所以我们自己又开发了一套流水线。
国内一个NLP工具: 哈工大LTP:[http://ir.hit.edu.cn/](//link.zhihu.com/?target=http%3A//ir.hit.edu.cn/)
这个是一个较完善的流水线了, 不说质量怎么样, 它提供分词、语义标注、 句法依赖、 实体识别。 虽然会出现错误的结果, 但是, 找不到更好的了。
中科院分词ICTCLAS
一个比较权威的分词器, 相信你最后会选择它作为项目的分词工具, 虽然本身存在很多问题, 但是我找不到更好的开源项目了。
微软分词MOSS
当然这个是不开源的, 但是分词非常准, 但是悲剧的是它将分词和实体识别同时完成了, 而且分词(在它提供的工具中)不提供词性标注。
句法分析 Stanford Parser
这个据说非常不能用, 在中文方面, 试试吧。
以上都是成品, 下面是一些算法开发包:
比较新的序列标注算法CRF的开源项目: CRF++
经典模型SVM: svm-light 和 lib svm
[发布于 2011-11-24](/question/19929473/answer/13381815) [3 条评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
13 赞同 反对
[![](https://pic4.zhimg.com/9a43bcb7f_s.jpg) ](/people/xiaozhibo) [肖智博](/people/xiaozhibo),兴趣所在
[王昊](https://www.zhihu.com/people/wang-hao-58 "王昊")、[solisinvicti](https://www.zhihu.com/people/yytbob "solisinvicti")、[没有人](https://www.zhihu.com/people/mei-you-ren-87 "没有人") [等人赞同](javascript:;)
竟然没有人提 [Natural Language Toolkit](//link.zhihu.com/?target=http%3A//nltk.org/)
竟然没有人提 [Natural Language Toolkit](//link.zhihu.com/?target=http%3A//nltk.org/)
[发布于 2013-07-17](/question/19929473/answer/17952336) [6 条评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
3 赞同 反对
[![](https://pic1.zhimg.com/95cf898f3171bc58373237c0bdd8ab9c_s.jpg) ](/people/dai-lei) [戴磊](/people/dai-lei),自然语言处理,传统意义上的"好人"和”单…
[瞋德](https://www.zhihu.com/people/chen-yun-48-22 "瞋德")、[river](https://www.zhihu.com/people/riverphoenix1111111 "river")、[陈村](https://www.zhihu.com/people/xjiangxjxjxjx "陈村") 赞同
**_NiuTrans_**由[东北大学自然语言处理实验室](//link.zhihu.com/?target=http%3A//www.nlplab.com/)研制开发,它支持多个统计机器翻译模型(基于短语,基于层次短语,基于句法),内嵌小巧、高效的_N_-元语言模型,无需其它软件(如SRILM)的外部支持。下载地址:[NiuTrans下载](//link.zhihu.com/?target=http%3A//www.nlplab.com/NiuPlan/NiuTrans.ch.html)
**_NiuTrans_**
由[东北大学自然语言处理实验室](//link.zhihu.com/?target=http%3A//www.nlplab.com/)研制开发,它支持多个统计机器翻译模型(基于短语,基于层次短语,基于句法),内嵌小巧、高效的_N_-元语言模型,无需其它软件(如SRILM)的外部支持。
下载地址:[NiuTrans下载](//link.zhihu.com/?target=http%3A//www.nlplab.com/NiuPlan/NiuTrans.ch.html)
[发布于 2016-03-11](/question/19929473/answer/90188769) [1 条评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
5 赞同 反对
[![](https://pic1.zhimg.com/da8e974dc_s.jpg) ](/people/yifan) [贺一帆](/people/yifan)
[lankaka](https://www.zhihu.com/people/lankaka "lankaka")、[Spirit_Dongdong](https://www.zhihu.com/people/spirit-dongdong "Spirit_Dongdong")、[刘毅](https://www.zhihu.com/people/gavin1332 "刘毅") [等人赞同](javascript:;)
语音方面有CMU的Sphinx:[http://cmusphinx.sourceforge.net/](//link.zhihu.com/?target=http%3A//cmusphinx.sourceforge.net/)还有剑桥大学的HTK:[HTK Speech Recognition Toolkit](//link.zhihu.com/?target=http%3A//htk.eng.cam.ac.uk/)另外,中文分词现在有源自CSDN的ansj:[ansjsun/ansj_seg · GitHub](//link.zhihu.com/?target=https%3A//github.com/ansjsun/ansj_seg) 基于ICTCLAS,效果不错,接口简明。
语音方面有CMU的Sphinx:[http://cmusphinx.sourceforge.net/](//link.zhihu.com/?target=http%3A//cmusphinx.sourceforge.net/)
还有剑桥大学的HTK:[HTK Speech Recognition Toolkit](//link.zhihu.com/?target=http%3A//htk.eng.cam.ac.uk/)
另外,中文分词现在有源自CSDN的ansj:[ansjsun/ansj_seg · GitHub](//link.zhihu.com/?target=https%3A//github.com/ansjsun/ansj_seg) 基于ICTCLAS,效果不错,接口简明。
[发布于 2013-06-05](/question/19929473/answer/17372131) [添加评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
12 赞同 反对
[![](https://pic3.zhimg.com/1590fdda3cae8d6c7a01ef595d0258e6_s.png) ](/people/xpqiu) [邱锡鹏](/people/xpqiu),自然语言处理
[碧彤怡](https://www.zhihu.com/people/bi-tong-yi "碧彤怡")、[xuanjing huang](https://www.zhihu.com/people/xuanjing-huang "xuanjing huang")、[李奕](https://www.zhihu.com/people/li-yi-83-91 "李奕") [等人赞同](javascript:;)
如果除了分词,还想做些更深入的分析,推荐开源的FNLP [GitHub](//link.zhihu.com/?target=https%3A//github.com/xpqiu/fnlp/)利益相关:FNLP项目负责人
如果除了分词,还想做些更深入的分析,推荐开源的FNLP [GitHub](//link.zhihu.com/?target=https%3A//github.com/xpqiu/fnlp/)
利益相关:FNLP项目负责人
[编辑于 2014-09-05](/question/19929473/answer/17854072) [11 条评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
6 赞同 反对
[![](https://pic2.zhimg.com/48a091259_s.jpg) ](/people/pijili) [李丕绩](/people/pijili),Text Mining, Computer Vision, Machine …
[梦大人](https://www.zhihu.com/people/meng-da-ren "梦大人")、[simon](https://www.zhihu.com/people/zhaohuaipeng "simon")、[lxgone](https://www.zhihu.com/people/lxgone "lxgone") [等人赞同](javascript:;)
哈工大LTP,有全面又好用,分词、词性标注、NER、句法分析等。
哈工大LTP,有全面又好用,分词、词性标注、NER、句法分析等。
[发布于 2016-03-25](/question/19929473/answer/92228199) [添加评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
2 赞同 反对
[![](https://pic3.zhimg.com/4cc285e12_s.jpg) ](/people/hobermallow) [mallow](/people/hobermallow)
[碧彤怡](https://www.zhihu.com/people/bi-tong-yi "碧彤怡")、[Yan Zhang](https://www.zhihu.com/people/yan-zhang-45-43 "Yan Zhang") 赞同
分词推荐ansj. [https://github.com/NLPchina/ansj_seg](//link.zhihu.com/?target=https%3A//github.com/NLPchina/ansj_seg)比他老师张华平博士的东西用着顺手些。现在也有关键词等功能,很强大。word2vec.这是个好东西,把词变成向量以后,很多事都变得容易了
分词推荐ansj. [https://github.com/NLPchina/ansj_seg](//link.zhihu.com/?target=https%3A//github.com/NLPchina/ansj_seg)
比他老师张华平博士的东西用着顺手些。
现在也有关键词等功能,很强大。
word2vec.这是个好东西,把词变成向量以后,很多事都变得容易了
[发布于 2014-11-03](/question/19929473/answer/32831706) [添加评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
1 赞同 反对
[![](https://pic1.zhimg.com/da8e974dc_s.jpg) ](/people/chen-yang-yang-3) [沈阳阳](/people/chen-yang-yang-3),为机器翻译技术应用的美好明天而奋斗
[勾陈一](https://www.zhihu.com/people/gou-chen-___ "勾陈一") 赞同
东北大学自然语言处理实验室今天上半年推出了一套中文自动分析工具NiuParser,你可以了解一下
东北大学自然语言处理实验室今天上半年推出了一套中文自动分析工具NiuParser,你可以了解一下
[发布于 2014-11-05](/question/19929473/answer/32940932) [添加评论](#) [感谢](#) [分享](#) [收藏](#) • [没有帮助](#) • [举报](#) • [作者保留权利](/terms#sec-licence-1)
1 赞同 反对
[![](https://pic4.zhimg.com/b8ba74aef_s.jpg) ](/people/wu-bo-wen-99) [武博文](/people/wu-bo-wen-99),NLP/Resys with Java/Python
[郭同jetNLP](https://www.zhihu.com/people/guotong198801 "郭同jetNLP") 赞同
列几个强大的Python套件们吧。前面提到了出现顺序实属意外的NLTK,应该是非常强大的工具包了,3.x封了stanford nlp很多接口。另外语料,newspaper、TextBlob等都是质量蛮高的开源项目。中文的话,结巴分词、snownlp都挺不错的。
列几个强大的Python套件们吧。
前面提到了出现顺序实属意外的NLTK,应该是非常强大的工具包了,3.x封了stanford nlp很多接口。
另外语料,newspaper、TextBlob等都是质量蛮高的开源项目。
中文的话,结巴分词、snownlp都挺不错的。 |
nlp与医学 http://wi.hit.edu.cn/cemr/ 基于中文电子病历文本的在线演示 https://github.com/wanghaisheng/models/tree/master/syntaxnet http://www.xunsearch.com/scws/ 面向命名实体抽取的大规模中医临床病历语料库构建方法研究 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=1001697 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=932462 #Zachary Lipton# RNN/LSTM序列建模及其在医学和NLP中的应用。1综述RNN for Sequence Learning:论文(38页) +幻灯片(80页) 2从儿童重症室感知时序数据中多标签分类疾病Learning to Diagnose with LSTM Recurrent Neural Networks [ICLR16] 3博客(KDnuggets,IEEE Spectrum) http://t.cn/RqKBanr nlp与结构化提取 http://t.cn/zQivPUK deep learning in nlp →词向量与语言模型,,,通俗的不能再通俗了。推荐。 nlp 关键技术 第44期:深入NLP——看中文分词如何影响你的生活点滴 | 硬创公开课 http://mp.weixin.qq.com/s?__biz=MzIzMjIwNzM4OA==&mid=2650042180&idx=1&sn=0a78ab62e41a6ddeabb00729335911c7 哈工大LTP和中科院NLPIR中文分词比较 http://blog.csdn.net/churximi/article/details/51174317 cdmd.cnki.com.cn/Article/CDMD-10213-1015980148.htm http://cdmd.cnki.com.cn/Article/CDMD-10213-1014081807.htm http://www.ltp-cloud.com/intro/ |
|
斯坦福大学CS224d课程
http://blog.csdn.net/han_xiaoyang/article/details/51567822
The text was updated successfully, but these errors were encountered: