Optimize memory when loading checkpoint #246

NouamaneTazi · 2024-11-21T15:28:13Z

Offload memory states to CPU to avoid memory peak when loading checkpoint, and only move to GPU after first fwd-bwd

Details

It seems that the peak reserved memory is higher when we load a checkpoint because when we do the 1st fwd-bwd, which is the most heavy in terms of memory allocation, we already have the optimizer’s state loaded.
Whereas when we train from scratch we do fwd-bwd (optimizer’s state doesnt load yet), then free some memory, then reallocate the optimizer’s state

case of from scratch:
Memory usage: 9793.18MiB. Peak allocated 10465.18MiB. Peak reserved: 10972.00MiB # before fwd-bwd
Memory usage: 9927.32MiB. **Peak allocated 21428.54MiB**. Peak reserved: 21926.00MiB # after fwd-bwd
Memory usage: 9927.32MiB. Peak allocated 10695.32MiB. Peak reserved: 21926.00MiB # before optim step
Memory usage: 16456.16MiB. Peak allocated 16648.16MiB. Peak reserved: 21926.00MiB # after optim step + zero_grad
>>iter2
Memory usage: 16456.16MiB. Peak allocated 17128.16MiB. Peak reserved: 21926.00MiB # before fwd-bwd


case of resume training:
Memory usage: 16321.23MiB. Peak allocated 17153.23MiB. Peak reserved: 17392.00MiB # before fwd-bwd
Memory usage: 16455.37MiB. **Peak allocated 27956.59MiB**. Peak reserved: 28474.00MiB # after fwd-bwd
Memory usage: 16455.37MiB. Peak allocated 17223.37MiB. Peak reserved: 28474.00MiB # before optim step
Memory usage: 16456.16MiB. Peak allocated 16647.37MiB. Peak reserved: 28474.00MiB # after optim step + zero_grad
>>iter2
Memory usage: 16456.16MiB. Peak allocated 17128.16MiB. Peak reserved: 28428.00MiB # before fwd-bwd

TLDR; The memory demand when loading a checkpoint is larger by Optimizer’s state compared when training from scratch

Peak reserved (when loading checkpoint) = Peak reserved (when training from scratch) + Optimizer's state

In example above: 
28GB = 22GB + 6GB
optimizer's state is 6GB = 0.856*10**9 (local params) * 2 (adam's state) * 4 bytes / 1024 / 1024

…oid peak memory

src/nanotron/trainer.py

src/nanotron/sanity_checks.py

xrsrke

LGTM. Left a small comment.

src/nanotron/optim/base.py

NouamaneTazi added 3 commits November 21, 2024 13:48

.custom load_state_dict that enables CPU offload

c33a860

.

312b759

load optim states in CPU and move them to GPU after 1st fwd-bwd to av…

9e1d76f

…oid peak memory

NouamaneTazi requested review from guipenedo and xrsrke November 21, 2024 15:28

move load custom func to base

bc25a35

NouamaneTazi force-pushed the nouamane/optim-state-cpu-offload branch from 7299fdc to bc25a35 Compare November 21, 2024 16:15

NouamaneTazi added 13 commits November 22, 2024 09:43

setup custom_load_state_dict for all torch optimizers

3a2a6c7

.

0a7801a

.

77ba96c

.

26ac3e0

fix map_location

62fa626

step can be on cpu or gpu

ef931bc

skip pp case for now

b10e4a3

add small tests

8e35c4c

update test_serialize

261e043

update trainer

9d4a7be

update optimizer

a87b83e

remove unused func

ca0ffa6

.

f00a380

xrsrke reviewed Nov 22, 2024

View reviewed changes

src/nanotron/trainer.py Show resolved Hide resolved

xrsrke reviewed Nov 22, 2024

View reviewed changes

src/nanotron/sanity_checks.py Show resolved Hide resolved

xrsrke approved these changes Nov 22, 2024

View reviewed changes

xrsrke reviewed Nov 22, 2024

View reviewed changes

src/nanotron/optim/base.py Show resolved Hide resolved

NouamaneTazi merged commit e694f6d into main Nov 25, 2024
3 of 4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize memory when loading checkpoint #246

Optimize memory when loading checkpoint #246

NouamaneTazi commented Nov 21, 2024 •

edited

Loading

xrsrke left a comment

Optimize memory when loading checkpoint #246

Optimize memory when loading checkpoint #246

Conversation

NouamaneTazi commented Nov 21, 2024 • edited Loading

xrsrke left a comment

Choose a reason for hiding this comment

NouamaneTazi commented Nov 21, 2024 •

edited

Loading