Skip to content

手动配置

hankcs edited this page May 8, 2022 · 5 revisions

配置

这个页面收录了从易到难的几种配置方法,以备不时之需。

自动配置

默认在首次调用pyhanlp时自动下载jar包和数据包,并自动完成配置。

半自动配置

如果网络速度较慢:

Downloading http://file.hankcs.com/hanlp/data-for-1.6.2.zip 
to /usr/lib/python3.6/site-packages/pyhanlp/static/data-for-1.6.2.zip # ==>记住这个路径
0.04%, 0 MB, 22 KB/s, ETA 509 min 25 s

可以CTRL+C终止下载。然后用其他下载工具预先下载好data,放入上面显示的pyhanlp安装目录的static目录中:

pyhanlp
├── main.py
└── static
    ├── data-for-1.6.2.zip # <==放到你记下的路径中
    ├── hanlp-1.6.2.jar
    └── hanlp.properties

然后再次执行hanlp,这次就会直接利用你放进去的zip,而不会触发下载:

Using local /usr/lib/python3.6/site-packages/pyhanlp/static/data-for-1.6.2.zip, 
ignore http://file.hankcs.com/hanlp/data-for-1.6.2.zip
Extracting data.zip...
usage: hanlp [-h] [-v] {segment,parse,serve,update} ...

HanLP: Han Language Processing v1.6.2

手动配置

如果实在需要亲自动手,可以通过设置环境变量来自定义HanLP版本和数据位置。

变量名 默认值 备注
HANLP_STATIC_ROOT pyhanlp所在安装路径的static文件夹 配置文件hanlp.properties所在的目录
HANLP_JAR_PATH pyhanlp所在安装路径的static文件夹 HanLP jar 包位置
HANLP_JVM_XMS 512m Java 虚拟机 初始申请内存大小
HANLP_JVM_XMX 1g Java 虚拟机 可占用的最大内存
HANLP_GOOGLE_UA UA-XXXXX-X Google Analytics 网站 id
HANLP_VERBOSE 0 调试日志开关

注意:

  1. 使用pip初次安装 pyhanlp 后,不设置上述加粗变量,程序会自动下载所需依赖到默认位置。如果是设置了上述变量,则不进行下载。因为文件比较大,网络下载稳定性等原因,可以提前准备好datajar与配置文件,并放入static目录。

  2. 保证 hanlp.properties 中的 root 是指向正确的data路径。

比如:

export HANLP_JAR_PATH=/hanlp/hanlp-1.6.0.jar
export HANLP_STATIC_ROOT=/hanlp
tree $HANLP_STATIC_ROOT -L 2
ll $HANLP_JAR_PATH
cat $HANLP_STATIC_ROOT/hanlp.properties | grep root

就需要保证有如下的目录结构:

hanlp
├── data
│   ├── README.url
│   ├── dictionary
│   └── model
├── hanlp.properties
└── hanlp-1.6.0.jar
root=/hanlp
Clone this wiki locally