resume training

2025-06-30 14:30:21 +02:00 · 2025-06-30 14:30:21 +02:00 · 8058d81f26
commit 8058d81f26
parent 0cbd7fcc46
1 changed files with 26 additions and 3 deletions
--- a/sCOCA_ML/train/train_gravpot.py
+++ b/sCOCA_ML/train/train_gravpot.py
@ -13,7 +13,8 @@ def train_model(model,
                print_timers=False,
                save_model_path=None,
                scheduler=None,
-                target_crop:int = None):
+                target_crop:int = None,
                epoch_start:int = 0):
    """
    Train a model with the given dataloader and optimizer.
@ -33,7 +34,7 @@ def train_model(model,
    - val_loss_log: List of validation losses for each epoch."""
    if optimizer is None:
-        optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
+        optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
    if scheduler is None:
        scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min', patience=num_epochs//5)
    model.to(device)
@ -41,7 +42,7 @@ def train_model(model,
    train_loss_log = []
    val_loss_log = []
-    for epoch in range(num_epochs):
+    for epoch in range(epoch_start,num_epochs):
        model.train()
        progress_bar = tqdm(dataloader['train'], desc=f"Epoch {epoch+1}/{num_epochs}", unit='batch')
        io_time = 0.0
@ -158,6 +159,28 @@ def validate(model, val_loader, loss_fn, device='cuda', target_crop:int = None):
    return losses.mean(), bin_means, bins
 def resume_training(train_loss_log, val_loss_log, **kwargs):
    """
    Resume training from the last epoch, updating the training and validation loss logs.
    Parameters:
    - train_loss_log: List of training losses from previous epochs.
    - val_loss_log: List of validation losses from previous epochs.
    - kwargs: Additional parameters to pass to the training function.
    Returns:
    - Updated train_loss_log and val_loss_log."""
    if "epoch_start" not in kwargs:
        kwargs["epoch_start"] = len(val_loss_log)
    train_loss_log2, val_loss_log2 = train_model(**kwargs)
    train_loss_log.extend(train_loss_log2)
    val_loss_log.extend(val_loss_log2)
    return train_loss_log, val_loss_log
 def train_models(models,
                 dataloader,