-
Notifications
You must be signed in to change notification settings - Fork 124
AWS temporary credential
공개 음성 데이터는 모아코인 이라는 음성 녹음 앱을 통해 기부되는 음성을 모아서 구축하는 모두가 함께 사용하는 음성 데이터입니다. 현재까지 누적된 음성 데이터는 아래와 같습니다.
- 2018.04.09: 76.6 시간 (35,139발화, 137명, 16,472문장)
- 2018.02.03: 51.6 시간 한국어 학습데이터 (22,263 발화, 105명, 3000 문장)
공개 음성 데이터를 구축하는 일은 다양한 분들의 참여가 이루어져야만 가능한 일입니다. 따라서 저희는 음성 데이터를 공유하는 정책을 정했습니다. 규칙은 간단합니다. 1시간의 오디오를 기부하시면 그 시점까지 모여있는 음성 데이터 전부를 다운 받으실 수 있습니다. 1시간의 오디오는 모아코인 앱을 통해 직접 녹음한 데이터의 총 시간이 1시간 이라는 의미이며 일반적으로 1시간의 녹음 오디오를 만드는데에는 2~3시간이 걸립니다. 모아코인에서 제시하는 문장들을 정확히 읽으시면 불일치/일치 판정을 거쳐 녹음 시간이 누적됩니다.
음성을 1시간 이상 녹음하신 후, 녹음에 사용하신 nickname 을 [email protected]
으로 알려주시면 공개 음성 DB에 접근할 수 있는 AWS temporary credential 을 발급합니다.
최신 업데이트 모아코인앱에서 마이페이지
> 데이터 기부 동의
메뉴에서 원하시는 이메일을 설정하시면
필요한 시간에 설정한 이메일로 AWS temporary credential을 발급해드립니다.
한번 발급된 credential 은 12 시간 동안 해당 정보에 접근할 수 있는 권한을 갖습니다.
지속적으로 데이터가 모임에 따라 최신 음성 DB에 다시 접근하시고 싶은 경우에는 모아코인을 지인에게 소개하여
1시간의 새로운 음성기부를 하고 새로 받게되는 credential 을 공유하시면 되겠습니다.
발급되는 credential 정보는 아래와 같은 형태를 가진 텍스트 정보입니다.
{
"Credentials": {
"SecretAccessKey": "3l+V+RRIc11lipQsFeilw6TiDeWjvMf73EtJ9Nm8",
"SessionToken": "AgoGb3JpZ2luELP//////////wEaDmFwLW5vcnRoZWFzdC0yIoACkOA .....",
"Expiration": "2018-02-04T02:45:20Z",
"AccessKeyId": "ASIAIQHHNX37UQTMJILA"
}
}
해당 정보를 제로스 프로젝트 main script run.sh
파일을 열고 아래 환경변수에 공백문자 혹은 줄바꿈없이 넣어주시면 됩니다.
이후 run.sh
스크립트를 실행 시키시면, local/download_and_untar.sh
local/download_lm.sh
두 가지 스트립트를 통해 자동으로 AWS s3 에 접근하여 음성 DB 파일과 언어모델을 받아오게 됩니다.
export AWS_ACCESS_KEY_ID=""
export AWS_SECRET_ACCESS_KEY=""
export AWS_SESSION_TOKEN=""