Skip to content

Commit

Permalink
词法分析与句法分析包装完毕
Browse files Browse the repository at this point in the history
  • Loading branch information
hankcs committed Mar 19, 2018
1 parent ceb5001 commit 84b1ea5
Show file tree
Hide file tree
Showing 10 changed files with 589 additions and 2 deletions.
5 changes: 5 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
Expand Up @@ -99,3 +99,8 @@ ENV/

# mypy
.mypy_cache/
*.jar
*.zip
pyhanlp/static/data
.idea/
pyhanlp/static/hanlp.properties
4 changes: 4 additions & 0 deletions MANIFEST.in
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
include README.md
include setup.cfg
include README.md
include pyhanlp/static/hanlp.properties.in
142 changes: 140 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,2 +1,140 @@
# pyhanlp
Python interfaces for HanLP: Han Language Processing
# pyhanlp: Python interfaces for HanLP

HanLP的Python接口,支持自动下载与升级HanLP的jar包和数据包。

## 安装

```
pip3 install pyhanlp
```

## 命令行

通过`hanlp --help`查看最新帮助手册。

### 中文分词

使用命令`hanlp segment`进入交互分词模式,输入一个句子并回车,HanLP会输出分词结果:

```
$ hanlp segment
商品和服务
商品/n 和/cc 服务/vn
当下雨天地面积水分外严重
当/p 下雨天/n 地面/n 积水/n 分外/d 严重/a
龚学平等领导说,邓颖超生前杜绝超生
龚学平/nr 等/udeng 领导/n 说/v ,/w 邓颖超/nr 生前/t 杜绝/v 超生/vi
```

还可以重定向输入输出到文件等:

```
$ hanlp segment <<< '欢迎新老师生前来就餐'
欢迎/v 新/a 老/a 师生/n 前来/vi 就餐/vi
```

### 依存句法分析

命令为`hanlp parse`,同样支持交互模式和重定向:

```
hanlp parse <<< '徐先生还具体帮助他确定了把画雄鹰、松鼠 和麻雀作为主攻目标。'
1 徐先生 徐先生 nh nr _ 4 主谓关系 _ _
2 还 还 d d _ 4 状中结构 _ _
3 具体 具体 a a _ 4 状中结构 _ _
4 帮助 帮助 v v _ 0 核心关系 _ _
5 他 他 r rr _ 4 兼语 _ _
6 确定 确定 v v _ 4 动宾关系 _ _
7 了 了 u ule _ 6 右附加关系 _ _
8 把 把 p pba _ 9 状中结构 _ _
9 画 画 v v _ 6 动宾关系 _ _
10 雄鹰 雄鹰 n n _ 9 动宾关系 _ _
11 、 、 wp w _ 12 标点符号 _ _
12 松鼠 松鼠 n n _ 10 并列关系 _ _
13 wp w _ 9 标点符号 _ _
14 和 和 c cc _ 15 左附加关系 _ _
15 麻雀 麻雀 n n _ 16 主谓关系 _ _
16 作为 作为 p p _ 9 并列关系 _ _
17 主攻 主攻 v vn _ 18 定中关系 _ _
18 目标 目标 n n _ 16 动宾关系 _ _
19 。 。 wp w _ 4 标点符号 _ _
```

### 升级

通过`hanlp update`命令来将HanLP升级到最新版。该命令会获取GitHub最新版本并自动下载安装。

## API

通过工具类`HanLP`调用常用接口:

```python
from pyhanlp import *

print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
testCases = [
"商品和服务",
"结婚的和尚未结婚的确实在干扰分词啊",
"买水果然后来世博园最后去世博会",
"中国的首都是北京",
"欢迎新老师生前来就餐",
"工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
"随着页游兴起到现在的页游繁盛,依赖于存档进行逻辑判断的设计减少了,但这块也不能完全忽略掉。"]
for sentence in testCases: print(HanLP.segment(sentence))
# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露," \
"根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标," \
"有部分省超过红线的指标。对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批," \
"严格地进行水资源论证和取水许可的批准。"
print(HanLP.extractKeyword(document, 2))
# 自动摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))
```

### 更多功能

更多功能,包括但不限于:

- 自定义词典
- 极速词典分词
- 索引分词
- CRF分词
- 感知机词法分析
- 臺灣正體、香港繁體
- 关键词提取、自动摘要
- 文本分类、情感分析

请阅读[HanLP主项目文档](https://github.com/hankcs/HanLP)以了解更多。调用更底层的API需要参考Java语法用JClass引入更深的类路径。以感知机词法分析器为例,这个类位于包名[`com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer`](https://github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/model/perceptron/PerceptronLexicalAnalyzer.java)下,所以先用`JClass`得到类,然后就可以调用了:

```
PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
```

输出:

```
[上海/ns 华安/nz 工业/n (/w 集团/n )/w 公司/n]/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国/ns 纽约/ns 现代/t 艺术/n 博物馆/n]/ns 参观/v
```

如果你经常使用某个类,欢迎将其写入`pyhanlp/__init__.py`中并提交pull request,谢谢!

## 与其他项目共享data

HanLP具备高度可自定义的特点,所有模型和词典都可以自由替换。如果你希望与别的项目共享同一套data,只需将该项目的配置文件`hanlp.properties`拷贝到pyhanlp的安装目录下即可。本机安装目录可以通过`hanlp --version`获取。

同时,还可以通过`--config`临时加载另一个配置文件:

```
hanlp segment --config path/to/another/hanlp.properties
```

## 授权协议

Apache License 2.0



15 changes: 15 additions & 0 deletions pyhanlp/__init__.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,15 @@
# -*- coding:utf-8 -*-
# Author:hankcs
# Date: 2018-03-18 19:49
import os
from jpype import *

from pyhanlp.static import HANLP_JAR_PATH, STATIC_ROOT

# 启动JVM
startJVM(getDefaultJVMPath(), "-Djava.class.path={}{}{}".format(HANLP_JAR_PATH, os.pathsep, STATIC_ROOT), "-Xms1g",
"-Xmx1g")

# API列表
HanLP = JClass('com.hankcs.hanlp.HanLP') # HanLP工具类
PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
65 changes: 65 additions & 0 deletions pyhanlp/main.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,65 @@
# -*- coding:utf-8 -*-
# Author:hankcs
# Date: 2018-03-19 01:05
import argparse
import sys

import os
from jpype import JClass

from pyhanlp import HanLP
from pyhanlp.static import eprint, PATH_CONFIG, update_hanlp, HANLP_JAR_VERSION, HANLP_JAR_PATH, HANLP_DATA_PATH, \
hanlp_installed_data_version


def main():
if len(sys.argv) == 1:
sys.argv.append('--help')

arg_parser = argparse.ArgumentParser(description='HanLP: Han Language Processing v{}'.format(HANLP_JAR_VERSION))
arg_parser.add_argument('-v', '--version', required=False, action='store_true',
help='show installed versions of HanLP')
task_parser = arg_parser.add_subparsers(dest="task", help='which task to perform?')
segment_parser = task_parser.add_parser(name='segment', help='word segmentation')
parse_parser = task_parser.add_parser(name='parse', help='dependency parsing')
update_parser = task_parser.add_parser(name='update', help='update jar and data of HanLP')

def add_args(p):
p.add_argument("--config", default=PATH_CONFIG,
help='path to hanlp.properties')
# p.add_argument("--action", dest="action", default='predict',
# help='Which action (train, test, predict)?')

add_args(segment_parser)
add_args(parse_parser)
args = arg_parser.parse_args()

def die(msg):
eprint(msg)
exit(1)

if args.config:
if os.path.isfile(args.config):
JClass('com.hankcs.hanlp.utility.Predefine').HANLP_PROPERTIES_PATH = args.config
else:
die('Can\'t find config file {}'.format(args.config))

if args.version:
print('jar {}: {}'.format(HANLP_JAR_VERSION, HANLP_JAR_PATH))
data_version = hanlp_installed_data_version()
print('data {}: {}'.format(data_version if data_version else '自定义', HANLP_DATA_PATH))

if args.task == 'segment':
for line in sys.stdin:
line = line.strip()
print(' '.join(term.toString() for term in HanLP.segment(line)))
elif args.task == 'parse':
for line in sys.stdin:
line = line.strip()
print(HanLP.parseDependency(line))
elif args.task == 'update':
update_hanlp()


if __name__ == '__main__':
main()
Loading

0 comments on commit 84b1ea5

Please sign in to comment.