-
Notifications
You must be signed in to change notification settings - Fork 2
단어 빈도 관리 - 단어가 보이지 않음 #46
Comments
안녕하세요, 저도 동일하게 해당 4번째 페이지에 15번째 / 16번째 단어가 비어보이는 것을 확인하였습니다. 이유를 확인해보니, 현재 KOMORAN 관리도구는 초기 실행 시 resources/defaults/dic.word의 것을 읽어오는데요, 이 파일의 93번째 부분이 정상적으로 표시되지 않는 것으로 보입니다. 원본 파일인 shin285/KOMORAN/blob/master/corpus_build/dic.word의 93번째 줄에서도 동일한 문제가 발생하고 있어, 이를 해결한 후 반영하는 것이 맞을 것 같습니다. @shin285 님, 해당 파일 확인 부탁드립니다. |
@shin285 UTF-8로는 아무것도 안 보이는 것처럼 보이는데요, 이게 맞을까요? |
위 유니코드는 soft-hyphen으로 보여집니다. https://www.fileformat.info/info/unicode/char/00ad/index.htm |
@shin285 |
@shin285 |
soft-hyphen을 corpub_build 밑에 있는 사전에서 제거하였습니다. KOMORAN master 버전에 반영되어 있습니다. |
#48 에서 처리하여 1.3에 반영할 예정입니다. |
안녕하세요!
사전을 살펴보다 다음과 같은 특이사항을 발견하였습니다.
단어 빈도 관리>특정 단어가 빈값으로 보임(15번째 단어)
사전데이터(dic.word)와 비교해보았을 때 "-" 이 보이지 않는 것 같았습니다.
The text was updated successfully, but these errors were encountered: