relative distance 연산 #13

imj2185 · 2021-02-06T17:33:42Z

안녕하세요.

Music Transformer 페이퍼와 비교하면서 코들를 읽다가 질문이 있어서 올립니다.

페이퍼 섹션 3.4 에 relative distance를 구하여 dot product 연산하는 부분이 있는데 코드에서는

self.E = torch.randn([self.max_seq, int(self.dh)], requires_grad=False)로 distribution을 쓰시더라구요.

이부분은 페이퍼와 다르게 하신건가요?

감사합니다.

serkansulun · 2021-06-14T09:42:08Z

Bump. Can someone explain the usage of
self.E = torch.randn([self.max_seq, int(self.dh)], requires_grad=False)
while calculating relative attention? Also, this parameter isn't registered so it prevents reproducibility when model is reloaded.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

relative distance 연산 #13

relative distance 연산 #13

imj2185 commented Feb 6, 2021

serkansulun commented Jun 14, 2021 •

edited

Loading

relative distance 연산 #13

relative distance 연산 #13

Comments

imj2185 commented Feb 6, 2021

serkansulun commented Jun 14, 2021 • edited Loading

serkansulun commented Jun 14, 2021 •

edited

Loading