-
Notifications
You must be signed in to change notification settings - Fork 810
手动配置
hankcs edited this page May 8, 2022
·
5 revisions
这个页面收录了从易到难的几种配置方法,以备不时之需。
默认在首次调用pyhanlp
时自动下载jar包和数据包,并自动完成配置。
如果网络速度较慢:
Downloading http://file.hankcs.com/hanlp/data-for-1.6.2.zip
to /usr/lib/python3.6/site-packages/pyhanlp/static/data-for-1.6.2.zip # ==>记住这个路径
0.04%, 0 MB, 22 KB/s, ETA 509 min 25 s
可以CTRL+C
终止下载。然后用其他下载工具预先下载好data,放入上面显示的pyhanlp
安装目录的static
目录中:
pyhanlp
├── main.py
└── static
├── data-for-1.6.2.zip # <==放到你记下的路径中
├── hanlp-1.6.2.jar
└── hanlp.properties
然后再次执行hanlp
,这次就会直接利用你放进去的zip,而不会触发下载:
Using local /usr/lib/python3.6/site-packages/pyhanlp/static/data-for-1.6.2.zip,
ignore http://file.hankcs.com/hanlp/data-for-1.6.2.zip
Extracting data.zip...
usage: hanlp [-h] [-v] {segment,parse,serve,update} ...
HanLP: Han Language Processing v1.6.2
如果实在需要亲自动手,可以通过设置环境变量来自定义HanLP版本和数据位置。
变量名 | 默认值 | 备注 |
---|---|---|
HANLP_STATIC_ROOT | pyhanlp所在安装路径的static文件夹 | 配置文件hanlp.properties所在的目录 |
HANLP_JAR_PATH | pyhanlp所在安装路径的static文件夹 | HanLP jar 包位置 |
HANLP_JVM_XMS | 512m | Java 虚拟机 初始申请内存大小 |
HANLP_JVM_XMX | 1g | Java 虚拟机 可占用的最大内存 |
HANLP_GOOGLE_UA | UA-XXXXX-X | Google Analytics 网站 id |
HANLP_VERBOSE | 0 | 调试日志开关 |
注意:
-
使用pip初次安装 pyhanlp 后,不设置上述加粗变量,程序会自动下载所需依赖到默认位置。如果是设置了上述变量,则不进行下载。因为文件比较大,网络下载稳定性等原因,可以提前准备好data、jar与配置文件,并放入static目录。
-
保证 hanlp.properties 中的 root 是指向正确的data路径。
比如:
export HANLP_JAR_PATH=/hanlp/hanlp-1.6.0.jar
export HANLP_STATIC_ROOT=/hanlp
tree $HANLP_STATIC_ROOT -L 2
ll $HANLP_JAR_PATH
cat $HANLP_STATIC_ROOT/hanlp.properties | grep root
就需要保证有如下的目录结构:
hanlp
├── data
│ ├── README.url
│ ├── dictionary
│ └── model
├── hanlp.properties
└── hanlp-1.6.0.jar
root=/hanlp