-
Notifications
You must be signed in to change notification settings - Fork 220
/
soft.html
158 lines (141 loc) · 7.86 KB
/
soft.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>MeCab: ソフトわかち書き</title>
<link type="text/css" rel="stylesheet" href="mecab.css">
</head>
<body>
<h1>ソフトわかち書き</h1>
<h2>概要</h2>
<p>MeCab 0.90 よりソフトわかち書きの機能が付きました. ソフトわかち書きは
入力文に対して可能なすべての形態素列を周辺確率付きで出力する機能です.
全文検索のインデキシングに使うことで,複合語の単語分割の曖昧性等を
解決することができます.
</p>
<p>ソフトわかち書きの詳細については<a
href="http://chasen.org/~taku/publications/nlp2005.pdf">論文</a>をご参照下さい.</p>
<h2>全形態素の出力</h2>
<p>MeCab はデフォルトで最適解のみを出力します. -a オプションを指定すると
最適解ではなく, ラティス中の全形態素を出力します.</p>
<pre>
% mecab -a
東京都庁
東京 名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
東 名詞,固有名詞,一般,*,*,*,東,ヒガシ,ヒガシ
東 名詞,固有名詞,地域,一般,*,*,東,ヒガシ,ヒガシ
東 名詞,固有名詞,人名,名,*,*,東,ヒガシ,ヒガシ
東 名詞,固有名詞,人名,姓,*,*,東,アズマ,アズマ
東 名詞,一般,*,*,*,*,東,ヒガシ,ヒガシ
京都 名詞,固有名詞,一般,*,*,*,京都,キョウト,キョート
京都 名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート
京 名詞,固有名詞,地域,一般,*,*,京,キョウ,キョー
京 名詞,固有名詞,人名,名,*,*,京,ミヤコ,ミヤコ
京 名詞,固有名詞,人名,姓,*,*,京,キョウ,キョー
都庁 名詞,一般,*,*,*,*,都庁,トチョウ,トチョー
都 名詞,接尾,地域,*,*,*,都,ト,ト
都 名詞,固有名詞,地域,一般,*,*,都,ミヤコ,ミヤコ
都 名詞,固有名詞,人名,姓,*,*,都,ミヤコ,ミヤコ
都 名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ
都 名詞,一般,*,*,*,*,都,ト,ト
庁 名詞,接尾,一般,*,*,*,庁,チョウ,チョー
庁 名詞,固有名詞,地域,一般,*,*,庁,チョウ,チョー
庁 名詞,一般,*,*,*,*,庁,チョウ,チョー
EOS
</pre>
<h2>周辺確率の計算と出力</h2>
<p>各形態素の周辺確率(その形態素が入力文の中でどのくらいの確率で出現する
のか)の計算を行うには, -a と -m オプションを同時に使います.
</p>
<p>-m オプションを使うと浮動小数点演算が入るためデフォルトに比べて 8倍程度遅くなります.</p>
<p>各形態素の周辺確率を出力するには, -F オプションを使って出力フォーマットを個別に出力す
る必要があります. 通常 %pP %pb を使います. 出力フォーマットの指定方法は
<a href="format.html">こちら</a>をご覧下ざい.</p>
<ul>
<li>%pP: 周辺確率
<li>%pb: 最適解のとき * それ以外は空白文字
</ul>
<pre>
% mecab -m -a -F"%m %H %pP %pb\n" -E"EOS\n"
京都大学
京都大学 名詞,固有名詞,組織,*,*,*,京都大学,キョウトダイガク,キョートダイガク 0.559944 *
京都大 名詞,固有名詞,組織,*,*,*,京都大,キョウトダイ,キョートダイ 0.073824
京都 名詞,固有名詞,一般,*,*,*,京都,キョウト,キョート 0.004990
京都 名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート 0.360982
京 名詞,固有名詞,地域,一般,*,*,京,キョウ,キョー 0.000161
京 名詞,固有名詞,人名,名,*,*,京,ミヤコ,ミヤコ 0.000003
京 名詞,固有名詞,人名,姓,*,*,京,キョウ,キョー 0.000096
都 名詞,接尾,地域,*,*,*,都,ト,ト 0.000166
都 名詞,固有名詞,地域,一般,*,*,都,ミヤコ,ミヤコ 0.000001
都 名詞,固有名詞,人名,姓,*,*,都,ミヤコ,ミヤコ 0.000006
都 名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ 0.000072
都 名詞,一般,*,*,*,*,都,ト,ト 0.000015
大学 名詞,固有名詞,地域,一般,*,*,大学,ダイガク,ダイガク 0.004919
大学 名詞,固有名詞,人名,名,*,*,大学,ダイガク,ダイガク 0.004441
大学 名詞,一般,*,*,*,*,大学,ダイガク,ダイガク 0.350523
大 名詞,接尾,一般,*,*,*,大,ダイ,ダイ 0.003603
大 接頭詞,名詞接続,*,*,*,*,大,ダイ,ダイ 0.001123
大 接頭詞,動詞接続,*,*,*,*,大,オオ,オー 0.000011
大 名詞,固有名詞,地域,一般,*,*,大,オオ,オー 0.000171
大 名詞,固有名詞,人名,名,*,*,大,マサル,マサル 0.000016
大 名詞,一般,*,*,*,*,大,ダイ,ダイ 0.001424
学 名詞,接尾,一般,*,*,*,学,ガク,ガク 0.067828
学 名詞,固有名詞,地域,一般,*,*,学,ガク,ガク 0.001092
学 名詞,固有名詞,人名,名,*,*,学,マナブ,マナブ 0.004203
学 名詞,一般,*,*,*,*,学,ガク,ガク 0.007051
EOS
</pre>
<p>-t 数値 オプションを使って確率値の「なめらかさ」を変更することができます.
数値を小さくると, 確率値がなめらかになり, 短かい形態素が大きな確率値を
持つようになります. 数値を大きくすると最適解の確率が大きくなります.デフォルトは 0.75 です.</p>
<pre>
% mecab -m -a -F"%m %H %pP %pb\n" -t0.1 -E"EOS\n"
京都大学
京都大学 名詞,固有名詞,組織,*,*,*,京都大学,キョウトダイガク,キョートダイガク 0.023617 *
京都大 名詞,固有名詞,組織,*,*,*,京都大,キョウトダイ,キョートダイ 0.052790
京都 名詞,固有名詞,一般,*,*,*,京都,キョウト,キョート 0.113576
京都 名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート 0.200919
京 名詞,固有名詞,地域,一般,*,*,京,キョウ,キョー 0.206514
京 名詞,固有名詞,人名,名,*,*,京,ミヤコ,ミヤコ 0.157030
京 名詞,固有名詞,人名,姓,*,*,京,キョウ,キョー 0.245554
都 名詞,接尾,地域,*,*,*,都,ト,ト 0.168921
都 名詞,固有名詞,地域,一般,*,*,都,ミヤコ,ミヤコ 0.090030
都 名詞,固有名詞,人名,姓,*,*,都,ミヤコ,ミヤコ 0.098721
都 名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ 0.120077
都 名詞,一般,*,*,*,*,都,ト,ト 0.131348
大学 名詞,固有名詞,地域,一般,*,*,大学,ダイガク,ダイガク 0.056029
大学 名詞,固有名詞,人名,名,*,*,大学,ダイガク,ダイガク 0.063926
大学 名詞,一般,*,*,*,*,大学,ダイガク,ダイガク 0.097919
大 名詞,接尾,一般,*,*,*,大,ダイ,ダイ 0.150510
大 接頭詞,名詞接続,*,*,*,*,大,ダイ,ダイ 0.151888
大 接頭詞,動詞接続,*,*,*,*,大,オオ,オー 0.083163
大 名詞,固有名詞,地域,一般,*,*,大,オオ,オー 0.101090
大 名詞,固有名詞,人名,名,*,*,大,マサル,マサル 0.090363
大 名詞,一般,*,*,*,*,大,ダイ,ダイ 0.128706
学 名詞,接尾,一般,*,*,*,学,ガク,ガク 0.233658
学 名詞,固有名詞,地域,一般,*,*,学,ガク,ガク 0.150100
学 名詞,固有名詞,人名,名,*,*,学,マナブ,マナブ 0.174424
学 名詞,一般,*,*,*,*,学,ガク,ガク 0.200327
EOS
</pre>
<h2>ライブラリからの利用</h2>
<p>
-a オプションを指定した場合, mecab_sparse_tonode が返す node は
全形態素を辿ることができる双方向リストとなります.
-m を指定すると mecab_node_t::prob に周辺確率が代入されます.</p>
<pre>
mecab_t *mecab;
mecab_node_t *node;
mecab = mecab_new2("-m -a");
node = mecab_sparse_tonode(mecab, input);
for (; node; node = node->next) {
/* 最適解もしくは確率が 0.05 以上のとき出力 */
if (node->isbest || node->prob >= 0.05) {
fwrite (node->surface, sizeof(char), node->length, stdout);
printf("\t%s\t%f\n", node->feature, node->prob);
}
}
</pre>
</body>
</html>