Variable.cuda() or Variable.grad - DonghoonPark12/ssd.pytorch GitHub Wiki

코드를 보다가 처음보는 부분이 나왔다. input_var = Variable(input).cuda(), target_var = Variable(target).cuda() 왜 감싸주는 것일까.

    for epoch in range(2):
        logger.info("-- EPOCH: %s", epoch)
        running_loss = 0.0
        for i, data in enumerate(train_loader, 0):
            if i % 50 == 49: 
                logger.info("-- ITERATION: %s", i)
            input, target = data

            # wrap input + target into variables
            input_var = Variable(input).cuda()
            target_var = Variable(target).cuda()
            ...

다른 코드를 보니 아래와 같이 두가지로 구분되어 있었다.

Variable(torch.randn(3,1,2).float().cuda(), requires_grad=True) # 혹은

Variable(torch.randn(3,1,2).float(), requires_grad=True).cuda()

답변 중에 다음과 같은 것이 있었다.
".cuda() creates another Variable that isn’t a leaf node in the computation graph"
.cuda()는 계산 그래프에서 리프(leaf) 노드가 아닌 다른 변수를 생성한다(?). 무슨 말일까.

실은 x = Variable(torch.randn(3,1,2).float(), requires_grad=True).cuda() 라 하면 아래의 의미를 가진다.

y = Variable(torch.randn(3,1,2).float(), requires_grad=True)
x = y.cuda()

여기서 gradient가 계산되는 것은 y이며, x가 아니다.

위의 답변을 참고해 볼때, 아래 코드에서 input_var과 target_var은 gradient가 계산되지 않는다는 것을 알 수 있다. 주석까지 첨부해 보았다.

# wrap input + target into variables
input_var = Variable(input).cuda()   # non-leaf Variable, result of operation, gradient would be 'None'
target_var = Variable(target).cuda()

만약 계산되게 하고 싶다면 아래의 코드로 바꾼다.

# wrap input + target into variables
input_var = Variable(input.cuda(), require_grad=True) # leaf Variable, user created
target_var = Variable(target.cuda, , require_grad=True)

하지만, 위의 답변들은 나의 궁금증을 해소해주지 못한다. 오히려 궁금증을 더 키운다. Variable()로 감싸는 이유는 무엇일까 심지어 gradient를 계산하지도 않을꺼면서 .cuda()는 왜 붙이는 것일까?

# wrap input + target into variables
input_var = Variable(input).cuda()
target_var = Variable(target).cuda()

pytorch 1.10기준으로 Variable()은 더이상 사용하지 않는다. 따라서 아래의 코드로 대체한다.
(이때, 상향된 pytorch버전에서 input_var과 target_var은 leaf_variable일까, non-leaf variable일까?)

# wrap input + target into variables
input_var = input.cuda()
target_var = target.cuda()

이제 마지막으로 남은 질문은 .cuda()로 감싸는 이유이다. input_var과target_var이 gpu유무에 따라 달라져야 되는 이유는 무엇일까. 질문을 남겼다. 기다려 보자.

[Reference]
https://discuss.pytorch.org/t/how-to-get-cuda-variable-gradient/1386
https://discuss.pytorch.org/t/strange-behavior-of-variable-cuda-and-variable-grad/1642