docs/cli-help-train.txt

usage: train.py [-h] [--debug] [--checkpoint CHECKPOINT] [--dilation DILATION]
                [--dilation-end DILATION_END] [--basenet BASENET]
                [--headnets HEADNETS [HEADNETS ...]] [--no-pretrain]
                [--two-scale] [--head-dropout HEAD_DROPOUT]
                [--head-quad HEAD_QUAD] [--head-kernel-size HEAD_KERNEL_SIZE]
                [--head-padding HEAD_PADDING] [--head-dilation HEAD_DILATION]
                [--lambdas LAMBDAS [LAMBDAS ...]] [--r-smooth R_SMOOTH]
                [--regression-loss {smoothl1,smootherl1,l1,laplace}]
                [--background-weight BACKGROUND_WEIGHT]
                [--paf-multiplicity-correction]
                [--paf-independence-scale PAF_INDEPENDENCE_SCALE]
                [--paf-min-size PAF_MIN_SIZE] [--paf-fixed-size]
                [--paf-aspect-ratio PAF_ASPECT_RATIO]
                [--pif-side-length PIF_SIDE_LENGTH] [--momentum MOMENTUM]
                [--beta2 BETA2] [--adam-eps ADAM_EPS] [--no-nesterov]
                [--weight-decay WEIGHT_DECAY] [--adam] [--amsgrad] [--lr LR]
                [--lr-decay LR_DECAY [LR_DECAY ...]]
                [--lr-burn-in-epochs LR_BURN_IN_EPOCHS]
                [--lr-burn-in-factor LR_BURN_IN_FACTOR] [--lr-gamma LR_GAMMA]
                [--train-annotations TRAIN_ANNOTATIONS]
                [--train-image-dir TRAIN_IMAGE_DIR]
                [--val-annotations VAL_ANNOTATIONS]
                [--val-image-dir VAL_IMAGE_DIR] [--pre-n-images PRE_N_IMAGES]
                [--n-images N_IMAGES] [--duplicate-data DUPLICATE_DATA]
                [--pre-duplicate-data PRE_DUPLICATE_DATA]
                [--loader-workers LOADER_WORKERS] [--batch-size BATCH_SIZE]
                [-o OUTPUT] [--stride-apply STRIDE_APPLY] [--epochs EPOCHS]
                [--freeze-base FREEZE_BASE] [--pre-lr PRE_LR]
                [--rescale-images RESCALE_IMAGES] [--orientation-invariant]
                [--update-batchnorm-runningstatistics]
                [--square-edge SQUARE_EDGE] [--ema EMA]
                [--debug-without-plots] [--profile PROFILE] [--disable-cuda]
                [--no-augmentation]

Train a pifpaf network.

optional arguments:
  -h, --help            show this help message and exit
  -o OUTPUT, --output OUTPUT
                        output file (default: None)
  --stride-apply STRIDE_APPLY
                        apply and reset gradients every n batches (default: 1)
  --epochs EPOCHS       number of epochs to train (default: 75)
  --freeze-base FREEZE_BASE
                        number of epochs to train with frozen base (default:
                        0)
  --pre-lr PRE_LR       pre learning rate (default: 0.0001)
  --rescale-images RESCALE_IMAGES
                        overall image rescale factor (default: 1.0)
  --orientation-invariant
                        augment with random orientations (default: False)
  --update-batchnorm-runningstatistics
                        update batch norm running statistics (default: False)
  --square-edge SQUARE_EDGE
                        square edge of input images (default: 401)
  --ema EMA             ema decay constant (default: 0.001)
  --debug-without-plots
                        enable debug but dont plot (default: False)
  --profile PROFILE     enables profiling. specify path for chrome tracing
                        file (default: None)
  --disable-cuda        disable CUDA (default: False)
  --no-augmentation     do not apply data augmentation (default: True)

logging:
  --debug               print debug messages (default: False)

network configuration:
  --checkpoint CHECKPOINT
                        Load a model from a checkpoint. Use "resnet50",
                        "resnet101" or "resnet152" for pretrained OpenPifPaf
                        models. (default: None)
  --dilation DILATION   apply atrous (default: None)
  --dilation-end DILATION_END
                        apply atrous (default: None)
  --basenet BASENET     base network, e.g. resnet50block5 (default: None)
  --headnets HEADNETS [HEADNETS ...]
                        head networks (default: ['pif', 'paf'])
  --no-pretrain         create model without ImageNet pretraining (default:
                        True)
  --two-scale           two scale (default: False)

head:
  --head-dropout HEAD_DROPOUT
                        zeroing probability of feature in head input (default:
                        0.0)
  --head-quad HEAD_QUAD
                        number of times to apply quad (subpixel conv) to heads
                        (default: 0)
  --head-kernel-size HEAD_KERNEL_SIZE
  --head-padding HEAD_PADDING
  --head-dilation HEAD_DILATION

losses:
  --lambdas LAMBDAS [LAMBDAS ...]
                        prefactor for head losses (default: [30.0, 2.0, 2.0,
                        50.0, 3.0, 3.0])
  --r-smooth R_SMOOTH   r_{smooth} for SmoothL1 regressions (default: 0.0)
  --regression-loss {smoothl1,smootherl1,l1,laplace}
                        type of regression loss (default: laplace)
  --background-weight BACKGROUND_WEIGHT
                        BCE weight of background (default: 1.0)
  --paf-multiplicity-correction
                        use multiplicity correction for PAF loss (default:
                        False)
  --paf-independence-scale PAF_INDEPENDENCE_SCALE
                        linear length scale of independence for PAF regression
                        (default: 3.0)

paf encoder:
  --paf-min-size PAF_MIN_SIZE
                        min side length of the PAF field (default: 3)
  --paf-fixed-size      fixed paf size (default: False)
  --paf-aspect-ratio PAF_ASPECT_RATIO
                        paf width relative to its length (default: 0.0)

pif encoder:
  --pif-side-length PIF_SIDE_LENGTH
                        side length of the PIF field (default: 4)

optimizer:
  --momentum MOMENTUM   SGD momentum, beta1 in Adam (default: 0.9)
  --beta2 BETA2         beta2 for Adam/AMSGrad (default: 0.999)
  --adam-eps ADAM_EPS   eps value for Adam/AMSGrad (default: 1e-06)
  --no-nesterov         do not use Nesterov momentum for SGD update (default:
                        True)
  --weight-decay WEIGHT_DECAY
                        SGD/Adam/AMSGrad weight decay (default: 0.0)
  --adam                use Adam optimizer (default: False)
  --amsgrad             use Adam optimizer with AMSGrad option (default:
                        False)

learning rate scheduler:
  --lr LR               learning rate (default: 0.001)
  --lr-decay LR_DECAY [LR_DECAY ...]
                        epochs at which to decay the learning rate (default:
                        [])
  --lr-burn-in-epochs LR_BURN_IN_EPOCHS
                        number of epochs at the beginning with lower learning
                        rate (default: 3)
  --lr-burn-in-factor LR_BURN_IN_FACTOR
                        learning pre-factor during burn-in (default: 0.01)
  --lr-gamma LR_GAMMA   learning rate decay factor (default: 0.1)

dataset and loader:
  --train-annotations TRAIN_ANNOTATIONS
  --train-image-dir TRAIN_IMAGE_DIR
  --val-annotations VAL_ANNOTATIONS
  --val-image-dir VAL_IMAGE_DIR
  --pre-n-images PRE_N_IMAGES
                        number of images to sampe for pretraining (default:
                        8000)
  --n-images N_IMAGES   number of images to sample (default: None)
  --duplicate-data DUPLICATE_DATA
                        duplicate data (default: None)
  --pre-duplicate-data PRE_DUPLICATE_DATA
                        duplicate pre data in preprocessing (default: None)
  --loader-workers LOADER_WORKERS
                        number of workers for data loading (default: 2)
  --batch-size BATCH_SIZE
                        batch size (default: 8)