Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[공지] final_stt_3 제출 포맷 변경 안내 #17

Open
DaconHoneyBee opened this issue Nov 17, 2021 · 16 comments
Open

[공지] final_stt_3 제출 포맷 변경 안내 #17

DaconHoneyBee opened this issue Nov 17, 2021 · 16 comments
Assignees
Labels
공지사항 공지사항 필독! 필독!

Comments

@DaconHoneyBee
Copy link
Contributor

안녕하세요, 한국어 음성·자연어 인공지능 경진대회 대화요약 부문 참가자 여러분.
2021 훈민정음 한국어 음성 자연어 인공지능 경진대회 운영진 데이콘입니다.

final_stt_3의 데이터처리 코드 수정(#16) 이후 변경된 제출 포맷에 대해 안내드립니다.


기존 제출 포맷 : list(zip(0, pred)) #ex) [(0, '오늘 날씨가 좋다.'), (0, '내일 비가 온다.'), ...]
새로운 제출 포맷 : list(zip(file_name, text)) #ex) [('DKSR20006772', '오늘 날씨가 좋다.'), ...]


기존에 학습을 돌려서 session에 모델을 저장해놓은 참가자들은 새로 학습할 필요 없이,
제출 포맷만 변경 후 해당 가중치를 load해서 사용하면 됩니다.
(nsml.load(checkpoint='model number', session='session name') 사용 & 학습 코드 없이 세션 실행)
(nsml.load 함수 참고)

대회 운영에 있어 오류가 재발생하지 않도록 보다 세심한 검토를 약속드리며,
진심으로 사과의 말씀 드립니다.

감사합니다.
데이콘 드림.

@DaconHoneyBee
Copy link
Contributor Author

@hunminjeongeum-competition-final-2021/team-1

@DaconHoneyBee DaconHoneyBee pinned this issue Nov 17, 2021
@LVCSRer
Copy link

LVCSRer commented Nov 22, 2021

안녕하세요.

infer 함수의 return 형식을 위와 같이 맞추었는데 제출 오류가 발생합니다. inference 시간은 1시간 가까이 소요되었고 결과 제출시점에서 아래의 오류가 발생합니다. submit test 모드에서 print 로 출력 양식을 찍어봐도 위의 양식대로 생성된 것을 확인하였습니다. list(r) 의 r 은 정답텍스트인 reference 가 아닐까 싶은데 왜 float object 로 뜨는지 모르겠네요. 정식 제출의 경우 log 를 확인할 방법이 없어 문의드립니다. @bluebrush

Building docker image. It may take a while
.......nia1029/final_stt_3/29: Session ready
nia1029/final_stt_3/29: Load model
load nsml model takes 2.703497886657715 seconds
.Infer test set. The inference should be completed within 3600 seconds.

.Infer test set takes 2409.9933240413666 seconds
..Failed to evaluation
Traceback (most recent call last):
  File "/data/final_stt_3/evaluation.py", line 80, in <module>
    print(get_cer(answer_df, sub2))
  File "/data/final_stt_3/evaluation.py", line 57, in get_cer
    return word_error_rate(true, pred, use_cer = True)
  File "/data/final_stt_3/evaluation.py", line 34, in word_error_rate
    r_list = list(r)
TypeError: 'float' object is not iterable

Error: Fail to evaluate the model: nia1029/final_stt_3/27/0

@Ldoun
Copy link

Ldoun commented Nov 22, 2021

inference 때는 label 값이 제공되지 않는 것으로 알고 있습니다. 그래서 존재치 않는 label 값을 사용하려고 해서 에러가 난 것처럼 보입니다.

@LVCSRer
Copy link

LVCSRer commented Nov 22, 2021

inference 때는 label 값이 제공되지 않는 것으로 알고 있습니다. 그래서 존재치 않는 label 값을 사용하려고 해서 에러가 난 것처럼 보입니다.

정보 주셔서 감사합니다. evaluation.py 는 submit 때만 사용되는 참가자는 접근할 수 없는 모듈이라 제가 변경할수는 없는 것 같아요. 위의 오류 로그만 보고 추측하면 word_error_rate 함수에서 정답텍스트인 true 변수와 인식결과인 pred 비교를 하여 cer 을 산출하는 것 같은데 정답텍스트 포맷에 오류가 있는 것이 아닌가 생각되네요.

@DaconHoneyBee
Copy link
Contributor Author

@LVCSRer 안녕하세요.
r 값에는 예측한 문장(str) 값이 들어갑니다. 제출해주신 결과값이 float 형태인 것은 아닌지 확인 부탁드립니다. (nan일 가능성도 있습니다.)

@LVCSRer
Copy link

LVCSRer commented Nov 26, 2021

@LVCSRer 안녕하세요. r 값에는 예측한 문장(str) 값이 들어갑니다. 제출해주신 결과값이 float 형태인 것은 아닌지 확인 부탁드립니다. (nan일 가능성도 있습니다.)

@DaconHoneyBee
첫 질문에 올린 것처럼 nsml submit -test 실행할때 디버깅 용도로 print 로 찍었고 str 타입이 들어간 것으로 확인을 하였습니다.

위의 에러메세지를 보면 r_list = list(r) 을 실행하는 중에 발생한 것 같은데, test 가 아닌 정식제출은 오류원인을 확인할 수가 없습니다. evaluation.py 코드를 보내주실 수 있으신지요?

@DaconHoneyBee
Copy link
Contributor Author

@LVCSRer 죄송합니다. 운영지침상 evaluation.py는 공개가 불가합니다.
앞서 말씀드렸듯이 r은 제출해주신 정답값을 전달받게 되어있습니다.
str 형태여야 하는데, float 값을 전달받아서 에러가 발생한 것 같습니다.

전체 제출 값에 대해 print를 찍어보신 건가요?
list(zip(file_name, text))에서 text 값이 nan값 없이 전부 다 str 형태인가요?

@LVCSRer
Copy link

LVCSRer commented Nov 26, 2021

@DaconHoneyBee submit -test 에 사용되는 5개 샘플의 결과를 메일로 보내드리겠습니다. [email protected] 메일로 드리면 될까요?

@DaconHoneyBee
Copy link
Contributor Author

@LVCSRer[email protected] 메일로 보내주시기 바랍니다. 5개 샘플보다는 전체 결과를 보내주시는 것이 더 좋을 것 같습니다.

@DaconHoneyBee
Copy link
Contributor Author

@LVCSRer 소스코드도 함께 보내주시면 검토에 참고하겠습니다.

@LVCSRer
Copy link

LVCSRer commented Nov 26, 2021

@LVCSRer 소스코드도 함께 보내주시면 검토에 참고하겠습니다.

네 로그파일과 코드 메일로 보내드렸습니다.

@DaconHoneyBee
Copy link
Contributor Author

@LVCSRer 메일 보내주셨나요?? [email protected]로 아직 메일을 받지 못했습니다. 확인 부탁드립니다.

@LVCSRer
Copy link

LVCSRer commented Nov 26, 2021

@DaconHoneyBee 이런.. 보낼편지함에 들어가있네요.. 다시 보내드렸으니 확인 부탁드리겠습니다.

@LVCSRer
Copy link

LVCSRer commented Nov 30, 2021

@DaconHoneyBee @bluebrush

저의 코드가 제출 형식에 문제가 있는 경우라도 정식 제출의 경우에 제가 문제해결을 위한 원인을 확인할 수 없는데요.

제 코드의 경우 인식결과를 model/result/hyp 에 텍스트 파일로 기록하고, 다시 이것을 읽어서 제출포맷을 맞추는 방식이라 nsml 서버에서 이 파일을 가져올 수 있으면 참고를 할 수 있을 것 같습니다.

정식제출의 경우 세션기록이 남지않아서 확실하지는 않은데 nia1029/final_stt_3/58 로 예상합니다. 또는 그 앞번호의 정식제출 세션이 있다면 그것을 확인해도 될 것 같습니다.

도움 부탁드리겠습니다.

@DaconHoneyBee
Copy link
Contributor Author

@bluebrush 님 안녕하세요.
특정 세션(nia1029/final_stt_3/58)에 기록된 파일(hyp.txt)을 확인해볼 수 있을까요?

@nsmluser
Copy link

@DaconHoneyBee 님, 내부 github에 이슈로 회신드렸습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
공지사항 공지사항 필독! 필독!
Projects
None yet
Development

No branches or pull requests

4 participants