refine offload test #9974

strint · 2023-03-10T07:48:13Z

Related issue: #9971

lixiang007666 · 2023-03-10T07:54:23Z

python/oneflow/test/expensive/test_tensor_offload.py

                    layer_list.append(nn.Linear(768, 4096))
+                    # Big enough to seem mem change
+                    layer_list.append(nn.Linear(4096, 4096))


大缓存和小缓存看起来差距不是很大？是指 nn.Linear(768, 4096) 不能被 offload 吗？

如果 tensor 太小，发现 offload 和 load 的 cuda memory 没有变化。

哦哦明白了我们之前测试的都是 1024 x 1024 x 1024 这样的。

如果 tensor 太小，发现 offload 和 load 的 cuda memory 没有变化。

和 BinAllocator 的实现有关，如果一个 Block 不是都空的话，不会释放。Block 里面有一个或者多个 Pice，一个 Pice 最少 512 Byte。

所以如果当前释放的不足以产生一个 free 的 Block，就会导致 CachingAllocator 清理不出缓存。

至于 Block 会有多大，需要 @chengtbf 帮忙介绍下。

github-actions · 2023-03-10T10:55:05Z

Speed stats:

GPU Name: GeForce GTX 1080 

❌ OneFlow resnet50 time: 141.5ms (= 14151.5ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 145.8ms (= 14584.6ms / 100, input_shape=[16, 3, 224, 224])
❌ Relative speed: 1.03 (= 145.8ms / 141.5ms)

OneFlow resnet50 time: 84.3ms (= 8426.0ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 88.6ms (= 8862.0ms / 100, input_shape=[8, 3, 224, 224])
✔️ Relative speed: 1.05 (= 88.6ms / 84.3ms)

OneFlow resnet50 time: 51.6ms (= 10318.5ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 60.3ms (= 12065.2ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.17 (= 60.3ms / 51.6ms)

OneFlow resnet50 time: 34.1ms (= 6822.3ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 43.6ms (= 8713.7ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 1.28 (= 43.6ms / 34.1ms)

OneFlow resnet50 time: 27.1ms (= 5410.3ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 39.2ms (= 7840.6ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 1.45 (= 39.2ms / 27.1ms)

OneFlow swin dataloader time: 0.239s (= 47.895s / 200, num_workers=1)
PyTorch swin dataloader time: 0.148s (= 29.697s / 200, num_workers=1)
Relative speed: 0.620 (= 0.148s / 0.239s)

OneFlow swin dataloader time: 0.066s (= 13.191s / 200, num_workers=4)
PyTorch swin dataloader time: 0.043s (= 8.625s / 200, num_workers=4)
Relative speed: 0.654 (= 0.043s / 0.066s)

OneFlow swin dataloader time: 0.040s (= 8.051s / 200, num_workers=8)
PyTorch swin dataloader time: 0.022s (= 4.463s / 200, num_workers=8)
Relative speed: 0.554 (= 0.022s / 0.040s)

❌ OneFlow resnet50 time: 155.3ms (= 15527.1ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 169.9ms (= 16990.4ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
❌ Relative speed: 1.09 (= 169.9ms / 155.3ms)

OneFlow resnet50 time: 94.6ms (= 9457.8ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 104.5ms (= 10448.2ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.10 (= 104.5ms / 94.6ms)

OneFlow resnet50 time: 61.9ms (= 12385.1ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 79.3ms (= 15862.8ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.28 (= 79.3ms / 61.9ms)

OneFlow resnet50 time: 43.5ms (= 8699.5ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 69.1ms (= 13815.7ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.59 (= 69.1ms / 43.5ms)

OneFlow resnet50 time: 36.8ms (= 7364.1ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 73.2ms (= 14633.6ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.99 (= 73.2ms / 36.8ms)

github-actions · 2023-03-10T10:59:23Z

View latest API docs preview at: https://staging.oneflow.info/docs/Oneflow-Inc/oneflow/pr/9974/

refine offload test

220801c

strint requested review from BBuf and daquexian as code owners March 10, 2023 07:48

strint requested a review from lixiang007666 March 10, 2023 07:48

strint mentioned this pull request Mar 10, 2023

[load/offload API] Paramerters offload fail #9971

Closed

lixiang007666 approved these changes Mar 10, 2023

View reviewed changes

lixiang007666 reviewed Mar 10, 2023

View reviewed changes

strint added eager test labels Mar 10, 2023

mosout approved these changes Mar 10, 2023

View reviewed changes

strint added bug automerge labels Mar 10, 2023

strint requested a review from oneflow-ci-bot March 10, 2023 10:37

Merge branch 'master' into refine_tensor_offload

4cc39f4

mergify bot merged commit 823e27e into master Mar 10, 2023

mergify bot deleted the refine_tensor_offload branch March 10, 2023 11:40

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

refine offload test #9974

refine offload test #9974

strint commented Mar 10, 2023 •

edited

Loading

lixiang007666 Mar 10, 2023 •

edited

Loading

strint Mar 10, 2023 •

edited

Loading

lixiang007666 Mar 10, 2023 •

edited

Loading

strint Mar 10, 2023

chengtbf Mar 10, 2023

github-actions bot commented Mar 10, 2023

github-actions bot commented Mar 10, 2023

refine offload test #9974

refine offload test #9974

Conversation

strint commented Mar 10, 2023 • edited Loading

lixiang007666 Mar 10, 2023 • edited Loading

Choose a reason for hiding this comment

strint Mar 10, 2023 • edited Loading

Choose a reason for hiding this comment

lixiang007666 Mar 10, 2023 • edited Loading

Choose a reason for hiding this comment

strint Mar 10, 2023

Choose a reason for hiding this comment

chengtbf Mar 10, 2023

Choose a reason for hiding this comment

github-actions bot commented Mar 10, 2023

github-actions bot commented Mar 10, 2023

strint commented Mar 10, 2023 •

edited

Loading

lixiang007666 Mar 10, 2023 •

edited

Loading

strint Mar 10, 2023 •

edited

Loading

lixiang007666 Mar 10, 2023 •

edited

Loading