train.py

import os
import argparse
from ssim import *
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data import DataLoader
from tensorboardX import SummaryWriter
from models import DnCNN, Net, MyNet
from torchsummary import *
from dataset import prepare_data, Dataset
from utils import *

os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

parser = argparse.ArgumentParser(description="DnCNN")
parser.add_argument("--preprocess", type=bool, default=False, help='run prepare_data or not')
parser.add_argument("--batchSize", type=int, default=16, help="Training batch size")
parser.add_argument("--num_of_layers", type=int, default=17, help="Number of total layers")
parser.add_argument("--epochs", type=int, default=60, help="Number of training epochs")
parser.add_argument("--step", type=int, default=3, help="When to decay learning rate; should be less than epochs")
parser.add_argument("--lr", type=float, default=1e-4, help="Initial learning rate")
parser.add_argument("--outf", type=str, default="D:/checkpoint", help='path of log files')
parser.add_argument("--mode", type=str, default="B", help='with known noise level (S) or blind training (B)')
parser.add_argument("--noiseL", type=float, default=50, help='noise level; ignored when mode=B')
parser.add_argument("--val_noiseL", type=float, default=50, help='noise level used on validation set')
opt = parser.parse_args()


def main():
    # Load dataset
    print('Loading dataset ...\n')
    dataset_train = Dataset(train=True)
    dataset_val = Dataset(train=False)
    loader_train = DataLoader(dataset=dataset_train, num_workers=4, batch_size=opt.batchSize, shuffle=True)
    print("# of training samples: %d\n" % int(len(dataset_train)))
    # Build model
    # net = DnCNN(channels=1, num_of_layers=opt.num_of_layers)
    net = MyNet()
    # net.apply(weights_init_kaiming)
    s = MS_SSIM(data_range=1., channel=1)
    criterion = nn.L1Loss()
    # Move to GPU
    device_ids = [0]
    model = nn.DataParallel(net, device_ids=device_ids).cuda()
    criterion.cuda()
    summary(model, (1, 96, 96))
    # Optimizer
    optimizer = optim.Adam(model.parameters(), lr=opt.lr)
    # training
    writer = SummaryWriter(opt.outf)
    step = 0
    noiseL_B = [0, 55]  # ignored when opt.mode=='S'
    for epoch in range(opt.epochs):
        current_lr = opt.lr * (0.5 ** (epoch // opt.step))
        # set learning rate
        for param_group in optimizer.param_groups:
            param_group["lr"] = current_lr
        print('learning rate %f' % current_lr)
        # train
        for i, data in enumerate(loader_train, 0):
            # training step
            model.train()
            model.zero_grad()
            optimizer.zero_grad()
            img_train = data
            if opt.mode == 'S':
                noise = torch.FloatTensor(img_train.size()).normal_(mean=0, std=opt.noiseL/255.)
            if opt.mode == 'B':
                noise = torch.zeros(img_train.size())
                stdN = np.random.uniform(noiseL_B[0], noiseL_B[1], size=noise.size()[0])
                for n in range(noise.size()[0]):
                    sizeN = noise[0,:,:,:].size()
                    noise[n,:,:,:] = torch.FloatTensor(sizeN).normal_(mean=0, std=stdN[n]/255.)
            imgn_train = img_train + noise
            img_train, imgn_train = Variable(img_train.cuda()), Variable(imgn_train.cuda())
            noise = Variable(noise.cuda())
            out_train = model(imgn_train)
            # loss = criterion(out_train, noise) / (imgn_train.size()[0]*2)
            loss = criterion(out_train, img_train)
            loss.backward()
            # clip = 0.01 / current_lr
            # nn.utils.clip_grad_norm(model.parameters(), clip)
            optimizer.step()
            # results
            model.eval()
            # out_train = torch.clamp(imgn_train-model(imgn_train), 0., 1.)
            out_train = torch.clamp(model(imgn_train), 0., 1.)
            psnr_train = batch_PSNR(out_train, img_train, 1.)
            '''
            print("[epoch %d][%d/%d] loss: %.4f PSNR_train: %.4f" %
                (epoch+1, i+1, len(loader_train), loss.item(), psnr_train))
            '''
            # if you are using older version of PyTorch, you may need to change loss.item() to loss.data[0]
            if i % int(len(loader_train)//1) == 0:
                # the end of each epoch
                model.eval()
                # validate
                psnr_val = 0
                for k in range(len(dataset_val)):
                    img_val = torch.unsqueeze(dataset_val[k], 0)
                    noise = torch.FloatTensor(img_val.size()).normal_(mean=0, std=opt.val_noiseL/255.)
                    imgn_val = img_val + noise
                    with torch.no_grad():
                        img_val, imgn_val = Variable(img_val.cuda()), Variable(imgn_val.cuda())
                        # out_val = torch.clamp(imgn_val-model(imgn_val), 0., 1.)
                        out_val = torch.clamp(model(imgn_val), 0., 1.)
                    psnr_val += batch_PSNR(out_val, img_val, 1.)
                psnr_val /= len(dataset_val)
                # print("\n[epoch %d] PSNR_val: %.4f" % (epoch+1, psnr_val))
                print("[epoch %d][%d/%d] loss: %.4f PSNR_val: %.4f" %
                      (epoch+1, i+1, len(loader_train), loss.item(), psnr_val))
                torch.save(model.state_dict(), os.path.join(opt.outf, 'net_' + str(round(psnr_val, 4)) + '.pth'))
                # Log the scalar values
                writer.add_scalar('loss', loss.item(), step)
                writer.add_scalar('PSNR on training data', psnr_train, step)
            step += 1
        '''
        ## the end of each epoch
        model.eval()
        # validate
        psnr_val = 0
        for k in range(len(dataset_val)):
            img_val = torch.unsqueeze(dataset_val[k], 0)
            noise = torch.FloatTensor(img_val.size()).normal_(mean=0, std=opt.val_noiseL/255.)
            imgn_val = img_val + noise
            with torch.no_grad():
                img_val, imgn_val = Variable(img_val.cuda()), Variable(imgn_val.cuda())
                # out_val = torch.clamp(imgn_val-model(imgn_val), 0., 1.)
                out_val = torch.clamp(model(imgn_val), 0., 1.)
            psnr_val += batch_PSNR(out_val, img_val, 1.)
        psnr_val /= len(dataset_val)
        print("[epoch %d][%d/%d] loss: %.4f PSNR_val: %.4f" %
              (epoch+1, i+1, len(loader_train), loss.item(), psnr_val))
        writer.add_scalar('PSNR on validation data', psnr_val, epoch)
        # log the images
        out_train = torch.clamp(model(imgn_train), 0., 1.)
        Img = utils.make_grid(img_train.data, nrow=8, normalize=True, scale_each=True)
        Imgn = utils.make_grid(imgn_train.data, nrow=8, normalize=True, scale_each=True)
        Irecon = utils.make_grid(out_train.data, nrow=8, normalize=True, scale_each=True)
        writer.add_image('clean image', Img, epoch)
        writer.add_image('noisy image', Imgn, epoch)
        writer.add_image('reconstructed image', Irecon, epoch)
        # save model
        torch.save(model.state_dict(), os.path.join(opt.outf, 'net_' + str(round(psnr_val, 4)) + '.pth'))
        '''


if __name__ == "__main__":
    if opt.preprocess:
        if opt.mode == 'S':
            # prepare_data(data_path='data', patch_size=40, stride=10, aug_times=1)
            prepare_data(data_path='data', patch_size=48, stride=48, aug_times=1)
        if opt.mode == 'B':
            prepare_data(data_path='data', patch_size=50, stride=10, aug_times=2)
    main()