kozistr · kozistr · Aug 15, 2024 · Aug 15, 2024 · Aug 15, 2024 · Aug 15, 2024
@@ -0,0 +1,5 @@
+## Change Log
+
+### Bug
+
+* Add `**kwargs` to the parameters for dummy placeholder. (#270, #271)
@@ -71,7 +71,7 @@ lint.select = [
 ]
 lint.ignore = [
     "B905", "D100", "D102", "D104", "D105", "D107", "D203", "D213", "D413", "PIE790", "PLR0912", "PLR0913", "PLR0915",
-    "PLR2004", "RUF013", "Q003",
+    "PLR2004", "RUF013", "Q003", "ARG002",
 ]
 lint.fixable = ["ALL"]
 lint.unfixable = ["F401"]

@@ -52,7 +52,7 @@ def get_linear_lr(self) -> float:
 
         return self.min_lr + (self.max_lr - self.min_lr) * ((1.0 - progress) / (1.0 - progress / 2.0))
 
-    def step(self, epoch: Optional[int] = None) -> float:  # noqa: ARG002
+    def step(self, epoch: Optional[int] = None) -> float:
         value: float = self.get_linear_lr()
 
         self.step_t += 1

@@ -27,6 +27,7 @@ def __init__(
         lips: float = 10.0,
         rho: float = 0.5,
         variant: str = 'uni',
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_non_negative(lips, 'lips')

@@ -42,6 +42,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-16,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -37,6 +37,7 @@ def __init__(
         ams_bound: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -26,6 +26,7 @@ def __init__(
         weight_decouple: bool = False,
         fixed_decay: bool = False,
         eps: float = 1e-6,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_range(rho, 'rho', 0.0, 1.0)

@@ -49,6 +49,7 @@ def __init__(
         eps1: float = 1e-30,
         eps2: float = 1e-3,
         momentum_dtype: torch.dtype = torch.bfloat16,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -40,6 +40,7 @@ def __init__(
         hessian_distribution: HUTCHINSON_G = 'rademacher',
         adam_debias: bool = False,
         eps: float = 1e-16,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -35,6 +35,7 @@ def __init__(
         dampening: float = 1.0,
         use_gc: bool = False,
         eps: float = 1e-3,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -35,6 +35,7 @@ def __init__(
         tau: float = 1.0,
         eps1: float = 1e-6,
         eps2: float = 1e-10,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -38,6 +38,7 @@ def __init__(
         num_heads: int = 32,
         num_query_groups: Optional[int] = None,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -32,6 +32,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -32,6 +32,7 @@ def __init__(
         weight_decouple: bool = False,
         fixed_decay: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -31,6 +31,7 @@ def __init__(
         fixed_decay: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -45,6 +45,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -36,6 +36,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -29,6 +29,7 @@ def __init__(
         weight_decay: float = 1e-2,
         weight_decouple: bool = True,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -37,6 +37,7 @@ def __init__(
         r: float = 0.95,
         adanorm: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -34,6 +34,7 @@ def __init__(
         ams_bound: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -36,6 +36,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -28,6 +28,7 @@ def __init__(
         keep_num: int = 10,
         reduce_func: Optional[Callable] = torch.max,
         eps: float = 1e-10,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -26,6 +26,7 @@ def __init__(
         weight_decouple: bool = False,
         fixed_decay: bool = False,
         eps: float = 1e-6,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -24,6 +24,7 @@ def __init__(
         weight_decay: float = 0.0,
         weight_decouple: bool = False,
         fixed_decay: bool = False,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -46,6 +46,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -25,6 +25,7 @@ def __init__(
         projection_fn: Optional[Callable] = None,
         momentum: float = 0.0,
         adjusted_momentum: bool = False,
+        **kwargs,
     ):
         self.validate_learning_rate(max_lr)
         self.validate_range(momentum, 'momentum', 0.0, 1.0)

@@ -31,6 +31,7 @@ def __init__(
         c_coef: float = 0.25,
         d_coef: float = 0.25,
         eps: float = 1e-18,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_range(momentum, 'momentum', 0.0, 1.0, range_type='[)')

@@ -33,6 +33,7 @@ def __init__(
         weight_decay_type: str = 'l2',
         warmup_steps: int = 500,
         eps: float = 1e-4,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_range(beta, 'beta', 0.0, 1.0, range_type='[]')

@@ -30,6 +30,7 @@ def __init__(
         fixed_decay: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-1,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -35,6 +35,7 @@ def __init__(
         ams_bound: bool = False,
         eps1: float = 1e-30,
         eps2: float = 1e-16,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -39,6 +39,7 @@ def __init__(
         weight_decouple: bool = False,
         fixed_decay: bool = False,
         eps: float = 0.0,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_range(momentum, 'momentum', 0.0, 1.0, range_type='[)')
@@ -266,6 +267,7 @@ def __init__(
         fixed_decay: bool = False,
         bias_correction: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)
@@ -423,6 +425,7 @@ def __init__(
         weight_decay: float = 0.0,
         weight_decouple: bool = False,
         fixed_decay: bool = False,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_range(momentum, 'momentum', 0.0, 1.0, range_type='[)')
@@ -560,6 +563,7 @@ def __init__(
         d0: float = 1e-6,
         growth_rate: float = float('inf'),
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)
@@ -721,6 +725,7 @@ def __init__(
         weight_decay: float = 0.0,
         weight_decouple: bool = False,
         fixed_decay: bool = False,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -40,6 +40,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -30,6 +30,7 @@ def __init__(
         eps: float = 1e-8,
         momentum_dtype: torch.dtype = torch.float32,
         fim_dtype: torch.dtype = torch.float32,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -22,7 +22,7 @@ class Fromage(BaseOptimizer):
         norms to lie within 2x their initial norms. This regularises the model class.
     """
 
-    def __init__(self, params: PARAMETERS, lr: float = 1e-2, p_bound: Optional[float] = None):
+    def __init__(self, params: PARAMETERS, lr: float = 1e-2, p_bound: Optional[float] = None, **kwargs):
         self.validate_learning_rate(lr)
 
         self.p_bound = p_bound

@@ -21,7 +21,12 @@ class GaLoreProjector:
     """
 
     def __init__(
-        self, rank: int = 128, update_proj_gap: int = 50, scale: float = 1.0, projection_type: PROJECTION_TYPE = 'std'
+        self,
+        rank: int = 128,
+        update_proj_gap: int = 50,
+        scale: float = 1.0,
+        projection_type: PROJECTION_TYPE = 'std',
+        **kwargs,
     ):
         self.rank = rank
         self.update_proj_gap = update_proj_gap

@@ -20,6 +20,7 @@ def __init__(
         lr: float = 1e-2,
         alpha: float = 0.01,
         beta: float = 0.9,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_range(alpha, 'alpha', 0.0, 1.0)

@@ -128,6 +128,7 @@ def __init__(
         fixed_decay: bool = False,
         normalize_lr: bool = True,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -26,6 +26,7 @@ def __init__(
         weight_decouple: bool = True,
         fixed_decay: bool = False,
         eps: float = 1e-8,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_range(delta, 'delta', 0.0, 1.0, '[)')

@@ -53,6 +53,7 @@ def __init__(
         adanorm: bool = False,
         adam_debias: bool = False,
         eps: float = 1e-6,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -26,6 +26,7 @@ def __init__(
         dampening: float = 0.0,
         trust_coefficient: float = 1e-3,
         nesterov: bool = False,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_non_negative(weight_decay, 'weight_decay')

@@ -31,6 +31,7 @@ def __init__(
         use_gc: bool = False,
         r: float = 0.95,
         adanorm: bool = False,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)

@@ -30,6 +30,7 @@ def __init__(
         lr: float = 1e-3,
         clip_grad_norm: Optional[float] = None,
         clip_grad_value: Optional[float] = None,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_non_negative(clip_grad_norm, 'clip_grad_norm')
@@ -228,6 +229,7 @@ def __init__(
         clip_grad_value: Optional[float] = None,
         eps1: float = 1e-30,
         eps2: float = 1e-3,
+        **kwargs,
     ) -> None:  # fmt: skip
         self.validate_learning_rate(lr)
         self.validate_non_negative(weight_decay, 'weight_decay')

@@ -22,6 +22,7 @@ def __init__(
         k: int = 5,
         alpha: float = 0.5,
         pullback_momentum: str = 'none',
+        **kwargs,
     ) -> None:
         self.validate_positive(k, 'k')
         self.validate_range(alpha, 'alpha', 0.0, 1.0)

@@ -32,6 +32,7 @@ def __init__(
         weight_decay: float = 0.0,
         weight_decouple: bool = False,
         eps: float = 1e-6,
+        **kwargs,
     ):
         self.validate_learning_rate(lr)
         self.validate_non_negative(weight_decay, 'weight_decay')