Splitting datasets

The DatasetManager class is responsible for partitioning the dataset into subsets such as training, validation, and test sets.

As an example, let’s partition the dataset generated by random displacements into training data (80% of the total) and validation data (the remaining 20%).

from carcara.core.dataset_manager import DatasetManager

dataset = DatasetManager(filename="data/raw/noise_samples.xyz", seed=876)
dataset.split(ratios={"train": 0.8, "valid": 0.2})
dataset.write_datasets(directory="data/splits")