save model error in reproduce results. #32

Alxemade · 2025-01-21T02:04:13Z

using phi3-vision for full train

torchrun --nproc_per_node=2 --master_port=22447 --max_restarts=0 train.py \
 --model_name microsoft/Phi-3.5-vision-instruct --bf16 --pooling last \
 --dataset_name TIGER-Lab/MMEB-train \
 --subset_name ImageNet_1K N24News HatefulMemes InfographicsVQA ChartQA Visual7W VisDial CIRR NIGHTS WebQA MSCOCO \
 --num_sample_per_subset 50000 \
 --image_dir MMEB-train \
 --max_len 256 --num_crops 4 --output_dir $OUTPUT_DIR --logging_steps 1 \
 --lr_scheduler_type linear --learning_rate 2e-5 --max_steps 2000 \
 --warmup_steps 200 --save_steps 1000 --normalize True \
 --temperature 0.02 --per_device_train_batch_size 8 \
 --grad_cache True --gc_q_chunk_size 2 --gc_p_chunk_size 2

when up to 1000 epoch, occur

ts/full_training/reproduce_TIGER-Lab-VLM2Vec-Full/checkpoint-1000
Traceback (most recent call last):
  File "train.py", line 89, in <module>
    main()
  File "train.py", line 81, in main
    trainer.train()
  File "/opt/conda/lib/python3.8/site-packages/transformers/trainer.py", line 2123, in train
    return inner_training_loop(
  File "/opt/conda/lib/python3.8/site-packages/transformers/trainer.py", line 2548, in _inner_training_loop
    self._maybe_log_save_evaluate(tr_loss, grad_norm, model, trial, epoch, ignore_keys_for_eval)
  File "/opt/conda/lib/python3.8/site-packages/transformers/trainer.py", line 3007, in _maybe_log_save_evaluate
    self._save_checkpoint(model, trial, metrics=metrics)
  File "/opt/conda/lib/python3.8/site-packages/transformers/trainer.py", line 3097, in _save_checkpoint
    self.save_model(output_dir, _internal_call=True)
  File "/opt/conda/lib/python3.8/site-packages/transformers/trainer.py", line 3730, in save_model
    self._save(output_dir)
  File "code/VLM2Vec-main/src/trainer.py", line 140, in _save
    self.model.encoder.save_pretrained(
  File "/opt/conda/lib/python3.8/site-packages/transformers/modeling_utils.py", line 2959, in save_pretrained
    raise RuntimeError(
RuntimeError: The weights trying to be saved contained shared tensors [{'model.embed_tokens.weight', 'model.vision_embed_tokens.wte.weight'}] that are mismatching the transformers base configuration. Try saving using `safe_serialization=False` or remove this tensor sharing.
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling par

look like

https://github.com/kazuar/Phi3-Vision-ft/issues/2

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

save model error in reproduce results. #32

save model error in reproduce results. #32

Alxemade commented Jan 21, 2025

save model error in reproduce results. #32

save model error in reproduce results. #32

Comments

Alxemade commented Jan 21, 2025