BiomedSciAI · mosheraboh · Oct 10, 2024 · Oct 7, 2024 · Oct 7, 2024 · Oct 9, 2024
diff --git a/fuse/data/tokenizers/modular_tokenizer/inject_utils.py b/fuse/data/tokenizers/modular_tokenizer/inject_utils.py
@@ -28,17 +28,15 @@ class InjectorToModularTokenizerLib:
  supported syntax/format:
 
  for text following <@TOKENIZER-TYPE=SCALARS_LITERALS> supports the following format:
- ',' separated float values and/or <MASK> tokens -
- for example: "2.7,3.99,-12.9" or "<MASK><MASK>" or "2.19,<MASK>,3.19,<MASK>"
+ ',' separated float values. For example: "2.7,3.99,-12.9"
 
  for text following <@TOKENIZER-TYPE=SCALARS_FROM_DICT> is expected to be a key to the sample NDict
  for example: "blah.boo.banana" or "data.input.encoder_input"
- note: in SCALARS_FROM_DICT you can't describe masked scalars (outputs) you can only describe inputs
 
  example usage:
 
  encoder_input:
- <@TOKENIZER-TYPE=AA><MOLECULAR_WEIGHT_IN_SOME_UNIT><@TOKENIZER-TYPE=SCALARS_LITERALS>0.3<@TOKENIZER-TYPE=AA><BINDING_AFFINITY_NANOMOLAR><@TOKENIZER-TYPE=SCALARS_LITERALS><MASK><@TOKENIZER-TYPE=AA><SEQUENCE_NATURAL_START>ISGGDAIYSSTGRCSLGFNVRSGSTYYFLTAGICTDGATTWWANSARTTVLGTTSGSSFPNNDYGIVRYTNTTIPKDGTVGGQDITSAANATVGMAVTRRGSTTGTISGSVTALNATVNYGGGDVVYGMIRTNVCAEPGDSGGPLYSGTRAIGLTSGGSGNCSSGGTTFFQPVTEALVAYGVSVY<SEQUENCE_NATURAL_END>
+ <@TOKENIZER-TYPE=AA><MOLECULAR_WEIGHT_IN_SOME_UNIT><@TOKENIZER-TYPE=SCALARS_LITERALS>0.3<@TOKENIZER-TYPE=AA><BINDING_AFFINITY_NANOMOLAR><MASK><@TOKENIZER-TYPE=AA><SEQUENCE_NATURAL_START>ISGGDAIYSSTGRCSLGFNVRSGSTYYFLTAGICTDGATTWWANSARTTVLGTTSGSSFPNNDYGIVRYTNTTIPKDGTVGGQDITSAANATVGMAVTRRGSTTGTISGSVTALNATVNYGGGDVVYGMIRTNVCAEPGDSGGPLYSGTRAIGLTSGGSGNCSSGGTTFFQPVTEALVAYGVSVY<SEQUENCE_NATURAL_END>
  labels:
  <@TOKENIZER-TYPE=AA><MOLECULAR_WEIGHT_IN_SOME_UNIT><@TOKENIZER-TYPE=SCALARS_LITERALS>0.3<@TOKENIZER-TYPE=AA><BINDING_AFFINITY_NANOMOLAR><@TOKENIZER-TYPE=SCALARS_LITERALS>12.4<@TOKENIZER-TYPE=AA><SEQUENCE_NATURAL_START>ISGGDAIYSSTGRCSLGFNVRSGSTYYFLTAGICTDGATTWWANSARTTVLGTTSGSSFPNNDYGIVRYTNTTIPKDGTVGGQDITSAANATVGMAVTRRGSTTGTISGSVTALNATVNYGGGDVVYGMIRTNVCAEPGDSGGPLYSGTRAIGLTSGGSGNCSSGGTTFFQPVTEALVAYGVSVY<SEQUENCE_NATURAL_END>
 
@@ -67,16 +65,15 @@ def build_placeholder_meta_tokenization(
  )
  if len(sequence) > 0:
  if isinstance(sequence[0], TypedInput):
- sequence_str = list_to_tokenizer_string(
+ sequence = list_to_tokenizer_string(
  sequence
  ) # currently supporting it in this simple way. Consider optimizing if it causes a bottleneck.
  else:
  raise Exception(
  f"Expected sequence to be either string or a list of TypedInput elements. Got a list, but the first element is of type {type(sequence[0])}"
  )
- else:
- sequence_str = sequence
- hints_and_subseq = re.split("<@TOKENIZER-TYPE=([^>]*)>", sequence_str)[
+
+ hints_and_subseq = re.split("<@TOKENIZER-TYPE=([^>]*)>", sequence)[
  1:
  ] # the first element is blank - removing it
  assert (
@@ -91,19 +88,18 @@ def build_placeholder_meta_tokenization(
  if tokenizer_type.startswith("SCALARS_"):
  with_placeholders.append(
  "<@TOKENIZER-TYPE=AA>"
- ) # won't use AA tokens, just an arbitrary one to be able to use a token like <SCALAR>
+ ) # AA tokenizer selection is arbitrary, we only take the special token <SCALAR> from it
 
- if (
- tokenizer_type == "SCALARS_LITERALS"
- ): # note: masking is only supported in literals (not in "from dict")
+ if tokenizer_type == "SCALARS_LITERALS":
  values = subseq.split(",")
- # seq = "<SCALAR>" * len(values)
- seq = "".join(
- [
- "<MASKED_SCALAR>" if x == "<MASK>" else "<SCALAR>"
- for x in values
- ]
- )
+ # validate that all values can be converted to float
+ try:
+ [float(x) for x in values]
+ except:
+ raise ValueError(
+ f'expected a string with "," separated values that can each be converted to float. Got {subseq}'
+ )
+ seq = "<SCALAR>" * len(values)
  elif tokenizer_type == "SCALARS_FROM_DICT":
  if sample_dict is None:
  raise Exception(
@@ -126,10 +122,11 @@ def build_placeholder_meta_tokenization(
  return "".join(with_placeholders), hints_and_subseq
 
  @staticmethod
- def prepare_info_for_model_step(
+ def build_scalars(
  *,
  per_meta_tokenizer_data: List[str],
  per_meta_encoding_including_placeholders: List[Encoding],
+ token_ids: List[int],
  sample_dict: Optional[NDict] = None,
  ) -> Dict:
  """
@@ -147,10 +144,13 @@ def prepare_info_for_model_step(
 
 
  """
- scalars_indices = []
- scalars_values = []
- scalars_masked_indices = []
- prev_index_end = -1
+ ## both `all_scalars_values` and `all_scalars_valid_mask` will contain torch tensors, which will be concatanated in the end of this function
+
+ # one scalar for every element, `scalar_default_unfound_value` is used for elements that aren't scalars
+ all_scalars_values = []
+ # for each element, whether it's a scalar or not
+ all_scalars_valid_mask = []
+ scalar_default_unfound_value = -1000.0
 
  for tokenizer_name, curr_str_data, curr_placeholder_encoding in zip(
  per_meta_tokenizer_data[::2],
@@ -165,42 +165,30 @@ def prepare_info_for_model_step(
  f"should match expected length. Found length {len(curr_str_data)} but placeholders length was {len(curr_placeholder_encoding.ids)}"
  )
 
- curr_indices = []
- curr_data = []
-
- for i, val in enumerate(curr_str_data):
- if val != "<MASK>":
- curr_indices.append(i + prev_index_end + 1)
- curr_data.append(float(val))
- else:
- scalars_masked_indices.append(i + prev_index_end + 1)
-
- if len(curr_indices) > 0:
- curr_indices = torch.tensor(curr_indices, dtype=torch.int64)
- curr_data = torch.tensor(curr_data, dtype=torch.float32)
-
- scalars_indices.append(curr_indices)
- scalars_values.append(curr_data)
-
- assert len(curr_data.shape) == 1
-
- prev_index_end += len(curr_str_data)
+ curr_scalar_values = [float(val) for val in curr_str_data]
+ curr_scalar_values = torch.tensor(
+ curr_scalar_values, dtype=torch.float32
+ )
+ all_scalars_values.append(curr_scalar_values)
+ all_scalars_valid_mask.append(
+ torch.full_like(
+ curr_scalar_values, fill_value=True, dtype=torch.bool
+ )
+ )
  elif "SCALARS_FROM_DICT" == tokenizer_name:
  if sample_dict is None:
  raise Exception(
  "SCALARS_FROM_DICT used but the provided sample_dict is None"
  )
- curr_data = sample_dict[curr_str_data]
- assert len(curr_data.shape) == 1
- curr_indices = torch.arange(
- prev_index_end + 1, prev_index_end + 1 + curr_data.shape[0]
+ curr_scalar_values = sample_dict[curr_str_data]
+ assert len(curr_scalar_values.shape) == 1
+ all_scalars_values.append(curr_scalar_values)
+ all_scalars_valid_mask.append(
+ torch.full_like(
+ curr_scalar_values, fill_value=True, dtype=torch.bool
+ )
  )
 
- scalars_indices.append(curr_indices)
- scalars_values.append(curr_data)
-
- prev_index_end += curr_data.shape[0]
-
  else:
  raise Exception(
  "Only supported SCALARS_* tokenizers are SCALARS_LITERALS and SCALARS_FROM_DICT"
@@ -209,24 +197,52 @@ def prepare_info_for_model_step(
  elif tokenizer_name.startswith("VECTORS_"):
  raise NotImplementedError
  else:
- prev_index_end += len(curr_placeholder_encoding.ids)
-
- if len(scalars_indices) > 0:
- scalars_indices = torch.concat(scalars_indices)
- scalars_values = torch.concat(scalars_values)
- else:
- scalars_indices = None
- scalars_values = None
-
- if len(scalars_masked_indices) > 0:
- scalars_masked_indices = torch.tensor(
- scalars_masked_indices, dtype=torch.int64
+ # prev_index_end += len(curr_placeholder_encoding.ids)
+ curr_scalar_values = torch.full(
+ (len(curr_placeholder_encoding.ids),),
+ fill_value=scalar_default_unfound_value,
+ )
+ all_scalars_values.append(curr_scalar_values)
+ all_scalars_valid_mask.append(
+ torch.full_like(
+ curr_scalar_values, fill_value=False, dtype=torch.bool
+ )
+ )
+
+ all_scalars_values = torch.concat(all_scalars_values)
+ all_scalars_valid_mask = torch.concat(all_scalars_valid_mask)
+
+ assert all_scalars_values.shape == all_scalars_valid_mask.shape
+
+ # pad if needed
+ full_query_len = len(token_ids)
+ if full_query_len > all_scalars_values.shape[0]:
+ pad_len = full_query_len - all_scalars_values.shape[0]
+ all_scalars_values = torch.concat(
+ [
+ all_scalars_values,
+ torch.full(
+ (pad_len,),
+ fill_value=scalar_default_unfound_value,
+ dtype=all_scalars_values.dtype,
+ ),
+ ]
+ )
+ all_scalars_valid_mask = torch.concat(
+ [
+ all_scalars_valid_mask,
+ torch.full(
+ (pad_len,), fill_value=False, dtype=all_scalars_valid_mask.dtype
+ ),
+ ]
  )
- else:
- scalars_masked_indices = None
+ elif full_query_len > all_scalars_values.shape[0]:
+ print('warning: scalars sequence had to be cropped. The full (including all subtokenizers) length was {all_scalars_values.shape[0]} after cropping it is {full_query_len}')
+ all_scalars_values = all_scalars_values[:full_query_len]
+ all_scalars_valid_mask = all_scalars_valid_mask[:full_query_len]
+
 
  return {
- "scalars_indices": scalars_indices, # 1d - its length is the number of actual scalars (provided) found
- "scalars_values": scalars_values, # 1d - values of provided scalars
- "scalars_masked_indices": scalars_masked_indices, # 1d - indices of masked scalars
+ "scalars_values": all_scalars_values, # 1d - its length is the number of actual scalars (provided) found
+ "scalars_valid_mask": all_scalars_valid_mask, # 1d - values of provided scalars
  }
diff --git a/fuse/data/tokenizers/modular_tokenizer/op.py b/fuse/data/tokenizers/modular_tokenizer/op.py
@@ -372,8 +372,7 @@ class ModularTokenizerOp(ModularTokenizerWithoutInjectOp):
  supported syntax/format:
 
  for text following <@TOKENIZER-TYPE=SCALARS_LITERALS> supports the following format:
- ',' separated float values and/or <MASK> tokens -
- for example: "2.7,3.99,-12.9" or "<MASK><MASK>" or "2.19,<MASK>,3.19,<MASK>"
+ ',' separated float values
 
  for text following <@TOKENIZER-TYPE=SCALARS_FROM_DICT> is expected to be a key to the sample NDict
  for example: "blah.boo.banana" or "data.input.encoder_input"
@@ -437,9 +436,7 @@ def __call__(
  on_unknown: Optional[str] = "warn",
  verbose: Optional[int] = 1,
  validate_ends_with_eos: Optional[bool] = None,
- key_out_scalars_indices: Optional[str] = None,
- key_out_scalars_values: Optional[str] = None,
- key_out_masked_scalars_indices: Optional[str] = None,
+ key_out_scalars: Optional[str] = None,
  ) -> NDict:
  """_summary_
 
@@ -458,10 +455,10 @@ def __call__(
  verbose (Optional[int], optional): verbosity level. 0: no notification, 1: warning notification, 2: warning with partial data, 3: warning
  with full data. Defaults to 1.
  validate_ends_with_eos (Optional[bool], optional): if not None, overrides self._validate_ends_with_eos
- key_out_scalars_inputs_indices:str optional
- if provided, will write to sample_dict in this key a 1D torch tensor with indices of all inputs scalar elements.
- key_out_scalars_inputs_values:str optional
- if provided, will write to sample_dict in this key a 1D torch tensor with indices of all inputs scalar values.
+ key_out_scalars:str optional
+ if provided, will write to:
+  `sample_dict[f'{key_out_scalars}.values]` - a 1D torch tensor with all the scalars values
+  `sample_dict[f'{key_out_scalars}.valid_mask]` - a 1D torch boolean tensor representing which elements have scalar values
 
  Returns:
  NDict: _description_
@@ -490,39 +487,20 @@ def __call__(
  + ".per_meta_part_encoding", # using the key_in as base for the name because key_out_* are optional
  )
 
- prepared_data = InjectorToModularTokenizerLib.prepare_info_for_model_step(
+ prepared_data = InjectorToModularTokenizerLib.build_scalars(
  per_meta_tokenizer_data=per_meta_orig,
  per_meta_encoding_including_placeholders=sample_dict[
  key_in + ".per_meta_part_encoding"
  ],
+ token_ids=sample_dict[key_out_tokens_ids],
  sample_dict=sample_dict,
  )
 
- if key_out_scalars_indices is not None:
- sample_dict[key_out_scalars_indices] = prepared_data["scalars_indices"]
- else:
- if prepared_data["scalars_indices"] is not None:
- raise Exception(
- "non None scalars_indices found but no key_out_scalars_indices found"
- )
-
- if key_out_scalars_values is not None:
- sample_dict[key_out_scalars_values] = prepared_data["scalars_values"]
- else:
- if prepared_data["scalars_values"] is not None:
- raise Exception(
- "non None scalars_value found but no key_out_scalars_values found"
- )
-
- if key_out_masked_scalars_indices is not None:
- sample_dict[key_out_masked_scalars_indices] = prepared_data[
- "scalars_masked_indices"
+ if key_out_scalars is not None:
+ sample_dict[key_out_scalars + ".values"] = prepared_data["scalars_values"]
+ sample_dict[key_out_scalars + ".valid_mask"] = prepared_data[
+ "scalars_valid_mask"
  ]
- else:
- if prepared_data["scalars_masked_indices"] is not None:
- raise Exception(
- "non None scalars_masked_indices found but no key_out_masked_scalars_indices found"
- )
 
  return sample_dict