AndreyGuzhov · NotNANtoN · Sep 30, 2021 · Sep 30, 2021
diff --git a/.gitattributes b/.gitattributes
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,3 @@
+assets/
+.ipynb_checkpoints/
+__pycache__/
diff --git a/assets/AudioCLIP-Full-Training.pt b/assets/AudioCLIP-Full-Training.pt
diff --git a/assets/AudioCLIP-Partial-Training.pt b/assets/AudioCLIP-Partial-Training.pt
diff --git a/assets/CLIP.pt b/assets/CLIP.pt
diff --git a/assets/ESRNXFBSP.pt b/assets/ESRNXFBSP.pt
diff --git a/assets/README.md b/assets/README.md
diff --git a/assets/bpe_simple_vocab_16e6.txt.gz b/assets/bpe_simple_vocab_16e6.txt.gz
diff --git a/ignite_trainer/README.md → audioclip/ignite_trainer/README.md b/ignite_trainer/README.md → audioclip/ignite_trainer/README.md
diff --git a/ignite_trainer/__init__.py → audioclip/ignite_trainer/__init__.py b/ignite_trainer/__init__.py → audioclip/ignite_trainer/__init__.py
@@ -1,7 +1,7 @@
 import os as _os
 import sys as _sys
 
-from ignite_trainer.version import __version__
+from audioclip.ignite_trainer.version import __version__
 from ._trainer import main, run
 from ._utils import load_class
 from ._interfaces import AbstractNet, AbstractTransform

diff --git a/ignite_trainer/_interfaces.py → audioclip/ignite_trainer/_interfaces.py b/ignite_trainer/_interfaces.py → audioclip/ignite_trainer/_interfaces.py
diff --git a/ignite_trainer/_trainer.py → audioclip/ignite_trainer/_trainer.py b/ignite_trainer/_trainer.py → audioclip/ignite_trainer/_trainer.py
@@ -29,9 +29,9 @@
 from collections import defaultdict
 from collections.abc import Iterable
 
-from ignite_trainer import _utils
-from ignite_trainer import _visdom
-from ignite_trainer import _interfaces
+from audioclip.ignite_trainer import _utils
+from audioclip.ignite_trainer import _visdom
+from audioclip.ignite_trainer import _interfaces
 
 VISDOM_HOST = 'localhost'
 VISDOM_PORT = 8097

diff --git a/ignite_trainer/_utils.py → audioclip/ignite_trainer/_utils.py b/ignite_trainer/_utils.py → audioclip/ignite_trainer/_utils.py
diff --git a/ignite_trainer/_visdom.py → audioclip/ignite_trainer/_visdom.py b/ignite_trainer/_visdom.py → audioclip/ignite_trainer/_visdom.py
diff --git a/ignite_trainer/version.py → audioclip/ignite_trainer/version.py b/ignite_trainer/version.py → audioclip/ignite_trainer/version.py
diff --git a/main.py → audioclip/main.py b/main.py → audioclip/main.py
diff --git a/model/__init__.py → audioclip/model/__init__.py b/model/__init__.py → audioclip/model/__init__.py
diff --git a/model/audioclip.py → audioclip/model/audioclip.py b/model/audioclip.py → audioclip/model/audioclip.py
@@ -3,9 +3,9 @@
 import torch
 import torch.nn.functional as F
 
-from model.clip import CLIP
-from model.clip.clip import tokenize
-from model.esresnet import ESResNeXtFBSP
+from audioclip.model.clip import CLIP
+from audioclip.model.clip.clip import tokenize
+from audioclip.model.esresnet import ESResNeXtFBSP
 
 from typing import List
 from typing import Tuple
@@ -157,7 +157,7 @@ def forward(self,
 
         if text is not None:
             if batch_indices is None:
-                batch_indices = torch.arange(len(text), dtype=torch.int64, device=self.device)
+                batch_indices = torch.arange(len(text), dtype=self.dtype, device=self.device)
 
             text_features = self.encode_text(text, '{}', batch_indices)
             text_features = text_features / text_features.norm(dim=-1, keepdim=True)

diff --git a/model/clip/__init__.py → audioclip/model/clip/__init__.py b/model/clip/__init__.py → audioclip/model/clip/__init__.py
diff --git a/model/clip/clip.py → audioclip/model/clip/clip.py b/model/clip/clip.py → audioclip/model/clip/clip.py
@@ -11,8 +11,8 @@
 from torchvision.transforms import Compose, Resize, CenterCrop, ToTensor, Normalize
 from tqdm import tqdm
 
-from .model import build_model
-from utils.simple_tokenizer import SimpleTokenizer as _Tokenizer
+from audioclip.model.clip.model import build_model
+from audioclip.utils.simple_tokenizer import SimpleTokenizer as _Tokenizer
 
 __all__ = ["available_models", "load", "tokenize"]
 _tokenizer = _Tokenizer()

diff --git a/model/clip/model.py → audioclip/model/clip/model.py b/model/clip/model.py → audioclip/model/clip/model.py
diff --git a/model/esresnet/__init__.py → audioclip/model/esresnet/__init__.py b/model/esresnet/__init__.py → audioclip/model/esresnet/__init__.py
diff --git a/model/esresnet/attention.py → audioclip/model/esresnet/attention.py b/model/esresnet/attention.py → audioclip/model/esresnet/attention.py
diff --git a/model/esresnet/base.py → audioclip/model/esresnet/base.py b/model/esresnet/base.py → audioclip/model/esresnet/base.py
@@ -8,10 +8,10 @@
 
 import torchvision as tv
 
-import ignite_trainer as it
+import audioclip.ignite_trainer as it
 
-from model.esresnet import attention
-from utils.transforms import scale
+from audioclip.model.esresnet import attention
+from audioclip.utils.transforms import scale
 
 from typing import cast
 from typing import List
@@ -386,9 +386,11 @@ def _forward_classifier(self, x: torch.Tensor) -> torch.Tensor:
 
     def forward(self,
                 x: torch.Tensor,
-                y: Optional[torch.Tensor] = None) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+                y: Optional[torch.Tensor] = None,
+                skip_prepro=False) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
 
-        x = self._forward_pre_processing(x)
+        if not skip_prepro:
+            x = self._forward_pre_processing(x)
         x = self._forward_features(x)
         x = self._forward_reduction(x)
         y_pred = self._forward_classifier(x)

diff --git a/model/esresnet/fbsp.py → audioclip/model/esresnet/fbsp.py b/model/esresnet/fbsp.py → audioclip/model/esresnet/fbsp.py
@@ -5,9 +5,9 @@
 
 import torchvision as tv
 
-from utils import transforms
-from model.esresnet.base import _ESResNet
-from model.esresnet.base import Bottleneck
+from audioclip.utils import transforms
+from audioclip.model.esresnet.base import _ESResNet
+from audioclip.model.esresnet.base import Bottleneck
 
 from typing import cast
 from typing import List
@@ -135,19 +135,19 @@ def _inject_members(self):
         )
 
     def spectrogram(self, x: torch.Tensor) -> torch.Tensor:
-        with torch.no_grad():
-            frames = transforms.frame_signal(
-                signal=x.view(-1, x.shape[-1]),
-                frame_length=self.win_length,
-                hop_length=self.hop_length,
-                window=self.window
-            )
+        #with torch.no_grad():
+        frames = transforms.frame_signal(
+            signal=x.view(-1, x.shape[-1]),
+            frame_length=self.win_length,
+            hop_length=self.hop_length,
+            window=self.window
+        )
 
-            if self.n_fft > self.win_length:
-                pad_length = self.n_fft - self.win_length
-                pad_left = pad_length // 2
-                pad_right = pad_length - pad_left
-                frames = F.pad(frames, [pad_left, pad_right])
+        if self.n_fft > self.win_length:
+            pad_length = self.n_fft - self.win_length
+            pad_left = pad_length // 2
+            pad_right = pad_length - pad_left
+            frames = F.pad(frames, [pad_left, pad_right])
 
         spec, ttf_weights_ = self.fbsp(frames)
 

diff --git a/utils/__init__.py → audioclip/utils/__init__.py b/utils/__init__.py → audioclip/utils/__init__.py
diff --git a/utils/datasets/__init__.py → audioclip/utils/datasets/__init__.py b/utils/datasets/__init__.py → audioclip/utils/datasets/__init__.py
diff --git a/utils/datasets/esc50.py → audioclip/utils/datasets/esc50.py b/utils/datasets/esc50.py → audioclip/utils/datasets/esc50.py
diff --git a/utils/datasets/us8k.py → audioclip/utils/datasets/us8k.py b/utils/datasets/us8k.py → audioclip/utils/datasets/us8k.py
@@ -13,7 +13,7 @@
 
 import sklearn.model_selection as skms
 
-import utils.transforms as transforms
+import audioclip.utils.transforms as transforms
 
 from typing import Any
 from typing import Dict

diff --git a/utils/simple_tokenizer.py → audioclip/utils/simple_tokenizer.py b/utils/simple_tokenizer.py → audioclip/utils/simple_tokenizer.py
@@ -11,7 +11,7 @@
 
 @lru_cache()
 def default_bpe():
-    return os.path.join(os.path.dirname(os.path.abspath(__file__)), '..', 'assets', 'bpe_simple_vocab_16e6.txt.gz')
+    return os.path.join(os.path.dirname(os.path.abspath(__file__)), '..', '..', 'assets', 'bpe_simple_vocab_16e6.txt.gz')
 
 
 @lru_cache()

diff --git a/utils/transforms.py → audioclip/utils/transforms.py b/utils/transforms.py → audioclip/utils/transforms.py
@@ -5,7 +5,7 @@
 import torch
 import torchvision as tv
 
-import ignite_trainer as it
+import audioclip.ignite_trainer as it
 
 
 def scale(old_value, old_min, old_max, new_min, new_max):