Skip to content
This repository has been archived by the owner on Aug 23, 2023. It is now read-only.

AWS temporary credential

Lucas Jo edited this page Apr 27, 2018 · 4 revisions

공개 음성 데이터 구축

공개 음성 데이터는 모아코인 이라는 음성 녹음 앱을 통해 기부되는 음성을 모아서 구축하는 모두가 함께 사용하는 음성 데이터입니다. 현재까지 누적된 음성 데이터는 아래와 같습니다.

  • 2018.04.09: 76.6 시간 (35,139발화, 137명, 16,472문장)
  • 2018.02.03: 51.6 시간 한국어 학습데이터 (22,263 발화, 105명, 3000 문장)

음성 데이터 공유 정책

공개 음성 데이터를 구축하는 일은 다양한 분들의 참여가 이루어져야만 가능한 일입니다. 따라서 저희는 음성 데이터를 공유하는 정책을 정했습니다. 규칙은 간단합니다. 1시간의 오디오를 기부하시면 그 시점까지 모여있는 음성 데이터 전부를 다운 받으실 수 있습니다. 1시간의 오디오는 모아코인 앱을 통해 직접 녹음한 데이터의 총 시간이 1시간 이라는 의미이며 일반적으로 1시간의 녹음 오디오를 만드는데에는 2~3시간이 걸립니다. 모아코인에서 제시하는 문장들을 정확히 읽으시면 불일치/일치 판정을 거쳐 녹음 시간이 누적됩니다.

음성을 1시간 이상 녹음하신 후, 녹음에 사용하신 nickname 을 [email protected] 으로 알려주시면 공개 음성 DB에 접근할 수 있는 AWS temporary credential 을 발급합니다. 최신 업데이트 모아코인앱에서 마이페이지 > 데이터 기부 동의 메뉴에서 원하시는 이메일을 설정하시면 필요한 시간에 설정한 이메일로 AWS temporary credential을 발급해드립니다. 한번 발급된 credential 은 12 시간 동안 해당 정보에 접근할 수 있는 권한을 갖습니다. 지속적으로 데이터가 모임에 따라 최신 음성 DB에 다시 접근하시고 싶은 경우에는 모아코인을 지인에게 소개하여 1시간의 새로운 음성기부를 하고 새로 받게되는 credential 을 공유하시면 되겠습니다.

AWS temporary credential

발급되는 credential 정보는 아래와 같은 형태를 가진 텍스트 정보입니다.

{
    "Credentials": {
        "SecretAccessKey": "3l+V+RRIc11lipQsFeilw6TiDeWjvMf73EtJ9Nm8",
        "SessionToken": "AgoGb3JpZ2luELP//////////wEaDmFwLW5vcnRoZWFzdC0yIoACkOA .....",
        "Expiration": "2018-02-04T02:45:20Z",
        "AccessKeyId": "ASIAIQHHNX37UQTMJILA"
    }
}

해당 정보를 제로스 프로젝트 main script run.sh 파일을 열고 아래 환경변수에 공백문자 혹은 줄바꿈없이 넣어주시면 됩니다. 이후 run.sh 스크립트를 실행 시키시면, local/download_and_untar.sh local/download_lm.sh 두 가지 스트립트를 통해 자동으로 AWS s3 에 접근하여 음성 DB 파일과 언어모델을 받아오게 됩니다.

export AWS_ACCESS_KEY_ID=""
export AWS_SECRET_ACCESS_KEY=""
export AWS_SESSION_TOKEN=""
Clone this wiki locally