UCSD-E4E · benjamin-cates · Aug 4, 2023 · Aug 5, 2023 · Aug 5, 2023 · Aug 6, 2023
diff --git a/.pylintrc b/.pylintrc
@@ -414,14 +414,15 @@ confidence=HIGH,
 # no Warning level messages displayed, use "--disable=all --enable=classes
 # --disable=W".
 disable=raw-checker-failed,
+ logging-fstring-interpolation,
  bad-inline-option,
  locally-disabled,
  file-ignored,
  suppressed-message,
  useless-suppression,
  deprecated-pragma,
  use-symbolic-message-instead,
- trailing-whitespace
+ trailing-whitespace
 
 # Enable the message, report, category or checker with the given id(s). You can
 # either give multiple identifier separated by comma (,) or put this option

diff --git a/pyha_analyzer/aug_viewer.py b/pyha_analyzer/aug_viewer.py
@@ -2,18 +2,19 @@
  This file contains methods that allow the visualization of
  different data augmentations.
 """
-from typing import Callable, List, Tuple, Dict, Any
+from typing import Any, Callable, Dict, List, Tuple
 
 import numpy as np
 import torch
 from matplotlib import cm
 from matplotlib import pyplot as plt
 
 from pyha_analyzer import config
-from pyha_analyzer.utils import get_annotation
-from pyha_analyzer.augmentations import (BackgroundNoise, LowpassFilter, Mixup, 
- HighpassFilter, RandomEQ, SyntheticNoise)
+from pyha_analyzer.augmentations import (BackgroundNoise, HighpassFilter,
+ LowpassFilter, Mixup, RandomEQ,
+ SyntheticNoise)
 from pyha_analyzer.dataset import PyhaDFDataset, get_datasets
+from pyha_analyzer.utils import get_annotation
 
 SYNTH_COLORS = ["white","pink","brown","violet","blue"]
 

diff --git a/pyha_analyzer/augmentations.py b/pyha_analyzer/augmentations.py
@@ -5,7 +5,7 @@
 import logging
 import os
 from pathlib import Path
-from typing import Any, Callable, Dict, List, Optional, Tuple, Iterable
+from typing import Any, Callable, Dict, Iterable, List, Optional, Tuple
 
 import numpy as np
 import pandas as pd

diff --git a/pyha_analyzer/chunking_methods/csv_cleaner.py b/pyha_analyzer/chunking_methods/csv_cleaner.py
@@ -23,7 +23,7 @@
  "Offset": "OFFSET",
  "Duration": "DURATION",
  },
- 
+
  # OUTPUT
  "cols_to_save": [
  "FILE NAME",
@@ -34,14 +34,14 @@
  "COMMON"
  ],
  "output_path": "../example_dataset/metadata_cleaned.csv",
- 
+
 }
 
 def main():
  """ Main function """
  if ARGUMENTS["input_path"] == "":
  raise ValueError("Input path not specified")
- 
+
  if ARGUMENTS["has_index_col"]:
  df = pd.read_csv(ARGUMENTS["input_path"], index_col=0)
  else:

diff --git a/pyha_analyzer/config.py b/pyha_analyzer/config.py
@@ -3,17 +3,18 @@
 """
 import argparse
 import logging
+import os
 import shutil
 import sys
-import os
 from pathlib import Path
+
 # "Repo" is not exported from module "git" Import from "git.repo" instead
 # https://gitpython.readthedocs.io/en/stable/tutorial.html?highlight=repo#meet-the-repo-type
 import git
+import importlib_resources as pkg_resources
 import yaml
 from git import Repo # pyright: ignore [reportPrivateImportUsage]
 from torch.cuda import is_available
-import importlib_resources as pkg_resources
 
 logger = logging.getLogger("acoustic_multiclass_training")
 

diff --git a/pyha_analyzer/dataset.py b/pyha_analyzer/dataset.py
@@ -7,25 +7,25 @@
  If this module is run directly, it tests that the dataloader works
 
 """
+import ast
 import logging
 import os
-from typing import List, Tuple, Optional
-import ast
+from typing import List, Optional, Tuple
 
 import numpy as np
 import pandas as pd
 import torch
 import torchaudio
-from torch.utils.data import Dataset, DataLoader, WeightedRandomSampler
+from torch.utils.data import DataLoader, Dataset, WeightedRandomSampler
 from torchaudio import transforms as audtr
 from torchvision.transforms import RandomApply
 from tqdm import tqdm
-import wandb
 
-from pyha_analyzer import config
-from pyha_analyzer import utils
-from pyha_analyzer.augmentations import (BackgroundNoise, LowpassFilter, Mixup, RandomEQ,
- HighpassFilter, SyntheticNoise)
+import wandb
+from pyha_analyzer import config, utils
+from pyha_analyzer.augmentations import (BackgroundNoise, HighpassFilter,
+ LowpassFilter, Mixup, RandomEQ,
+ SyntheticNoise)
 from pyha_analyzer.chunking_methods import sliding_chunks
 
 cfg = config.cfg
@@ -285,12 +285,12 @@ def get_sample_weights(self) -> pd.Series:
  weight_list = self.samples[manual_id].apply(lambda x: sample_weights.loc[x])
  return weight_list
 
-
 def get_datasets() -> Tuple[PyhaDFDataset, PyhaDFDataset, Optional[PyhaDFDataset]]:
  """ Returns train and validation datasets
  does random sampling for train/valid split
  adds transforms to dataset
  """
+
  train_p = cfg.train_test_split
  path = cfg.dataframe_csv
  # Load the dataset
@@ -346,8 +346,9 @@ def get_datasets() -> Tuple[PyhaDFDataset, PyhaDFDataset, Optional[PyhaDFDataset
  classes.add(species)
  classes = list(classes)
  classes.sort()
- # pylint: disable-next=attribute-defined-outside-init
  cfg.config_dict["class_list"] = classes
+ # pylint: disable-next=attribute-defined-outside-init
+ cfg.class_list = classes # type: ignore
  wandb.config.update({"class_list": classes}, allow_val_change=True)
 
  #for each species, get a random sample of files for train/valid split
@@ -358,10 +359,8 @@ def get_datasets() -> Tuple[PyhaDFDataset, PyhaDFDataset, Optional[PyhaDFDataset
 
  valid = data[~data.index.isin(train.index)]
  train_ds = PyhaDFDataset(train, train=True, species=classes)
-
  valid_ds = PyhaDFDataset(valid, train=False, species=classes)
-
-
+
 
  #Handle inference datasets
  if cfg.infer_csv is None:
@@ -380,59 +379,45 @@ def set_torch_file_sharing(_) -> None:
  """
  torch.multiprocessing.set_sharing_strategy("file_system")
 
-
-def make_dataloaders(train_dataset, val_dataset, infer_dataset
- )-> Tuple[DataLoader, DataLoader, Optional[DataLoader]]:
+def get_dataloader(train_dataset, val_dataset, infer_dataset):
  """
-  Loads datasets and dataloaders for train and validation
+ Convenience wrapper to apply `make_dataloader` to all datasets
  """
+ train_dataloader = make_dataloader(train_dataset,cfg.train_batch_size,
+ cfg.does_weighted_sampling)
+ val_dataloader = make_dataloader(val_dataset,cfg.validation_batch_size)
+ if infer_dataset is None:
+ infer_dataloader = None
+ else:
+ infer_dataloader = make_dataloader(infer_dataset,cfg.validation_batch_size)
+ return train_dataloader, val_dataloader, infer_dataloader
 
-
- # Create our dataloaders
- # if sampler function is "specified, shuffle must not be specified."
- # https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader
-
- if cfg.does_weighted_sampling:
- if train_dataset.samples[cfg.manual_id_col].any(lambda x: isinstance(x,dict)):
+def make_dataloader(dataset, batch_size, weighted_sampling=False, shuffle=True):
+ """ Creates a torch DataLoader from a PyhaDFDataset """
+ if weighted_sampling:
+ if dataset.samples[cfg.manual_id_col].any(lambda x: isinstance(x,dict)):
  raise NotImplementedError("Weighted sampling not implemented for overlapping targets")
  # Code used from:
  # https://www.kaggle.com/competitions/birdclef-2023/discussion/412808
  # Get Sample Weights
- weights_list = train_dataset.get_sample_weights()
+ weights_list = dataset.get_sample_weights()
  sampler = WeightedRandomSampler(weights_list, len(weights_list))
- train_dataloader = DataLoader(
- train_dataset,
+ # if sampler function is "specified, shuffle must not be specified."
+ # https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader
+ return DataLoader(
+ dataset,
  cfg.train_batch_size,
  sampler=sampler,
  num_workers=cfg.jobs,
  worker_init_fn=set_torch_file_sharing
  )
- else:
- train_dataloader = DataLoader(
- train_dataset,
- cfg.train_batch_size,
- shuffle=True,
- num_workers=cfg.jobs,
- worker_init_fn=set_torch_file_sharing
- )
-
- val_dataloader = DataLoader(
- val_dataset,
- cfg.validation_batch_size,
- shuffle=False,
+ return DataLoader(
+ dataset,
+ batch_size,
+ shuffle=shuffle,
  num_workers=cfg.jobs,
+ worker_init_fn=set_torch_file_sharing
  )
- if infer_dataset is None:
- infer_dataloader = None
- else:
- infer_dataloader = DataLoader(
- infer_dataset,
- cfg.validation_batch_size,
- shuffle=False,
- num_workers=cfg.jobs,
- worker_init_fn=set_torch_file_sharing
- )
- return train_dataloader, val_dataloader, infer_dataloader
 
 def main() -> None:
  """

diff --git a/pyha_analyzer/default_config.yml b/pyha_analyzer/default_config.yml
@@ -7,6 +7,10 @@ infer_csv:
 # Optional, automatically generates class order if not given
 class_list:
 
+# Pseudo-labeling if running pyha_analyzer/pseudolabel.py
+pseudo_data_augs: true
+pseudo_threshold: 0.7
+
 # Dataframe column names
 offset_col: "OFFSET"
 duration_col: "DURATION"
@@ -40,7 +44,7 @@ chunk_margin_s: 0.4 # Margin on either side of annotation
 logging: true
 logging_freq: 20 # Batches per log
 wandb_entity: "acoustic-species-identification"
-wandb_project: "acoustic-species-reu2023"
+wandb_project: "nutella"
 wandb_run_name: "auto"
 debug: false
 
@@ -81,7 +85,6 @@ sweep_id:
 early_stopping: false
 patience: 3
 min_valid_map_delta: 0.01
-
 # Data augmentation probabilities
 mixup_p: 0.4
 time_shift_p: 0

diff --git a/pyha_analyzer/get_test_map.py b/pyha_analyzer/get_test_map.py