Placing Tensor_normalize_dataset and Tensor_shuffle_dataset into utils.c from basic.c

Advaitgaur004 · Advaitgaur004 · commit ac1deb455aab · 2025-05-14T13:16:34.000+05:30
- Follows the principle of "separation of concerns" by keeping the core tensor operations separate from dataset preprocessing utilities. - https://en.wikipedia.org/wiki/Separation_of_concerns
diff --git a/include/cten.h b/include/cten.h
@@ -44,8 +44,6 @@ Tensor Tensor_transpose(Tensor self);
 
 float Tensor_get(Tensor self, int i, int j, int k, int l);
 void Tensor_set(Tensor self, int i, int j, int k, int l, float value);
-void Tensor_normalize_dataset(const float (*X)[4], float (*X_norm)[4], int n_samples, int n_train_samples, int n_features);Tensor Tensor_detach(Tensor self);
-void Tensor_shuffle_dataset(const float (*X)[4], const int *y,float (*X_shuffled)[4], int *y_shuffled, int n_samples, int n_features);
 void Tensor_backward(Tensor self, Tensor grad);
 int Tensor_backward_apply(Tensor self, void (*f)(Tensor, void*), void* ctx);
 
@@ -114,6 +112,9 @@ void cten_begin_eval();
 bool cten_is_eval();
 void cten_end_eval();
 
+/* Utils */
+void Tensor_normalize_dataset(const float (*X)[4], float (*X_norm)[4], int n_samples, int n_train_samples, int n_features);Tensor Tensor_detach(Tensor self);
+void Tensor_shuffle_dataset(const float (*X)[4], const int *y,float (*X_shuffled)[4], int *y_shuffled, int n_samples, int n_features);
 void cten_assert(bool cond, const char* fmt, ...);
 void cten_assert_shape(const char* title, TensorShape a, TensorShape b);
 void cten_assert_dim(const char* title, int a, int b);
diff --git a/src/basic.c b/src/basic.c
@@ -8,62 +8,6 @@
 #include <math.h>
 #include <time.h>
 
-void Tensor_normalize_dataset(const float (*X)[4], float (*X_norm)[4], int n_samples, int n_train_samples, int n_features) {
-    float mean[4] = {0}, std[4] = {0};
-    
-    for (int i = 0; i < n_train_samples; i++) {
-        for (int j = 0; j < n_features; j++) {
-            mean[j] += X[i][j];
-        }
-    }
-    for (int j = 0; j < n_features; j++) {
-        mean[j] /= n_train_samples;
-    }
-    
-    for (int i = 0; i < n_train_samples; i++) {
-        for (int j = 0; j < n_features; j++) {
-            std[j] += (X[i][j] - mean[j]) * (X[i][j] - mean[j]);
-        }
-    }
-    for (int j = 0; j < n_features; j++) {
-        std[j] = sqrtf(std[j] / n_train_samples);
-        // Avoid division by zero
-        if (std[j] == 0) std[j] = 1.0f;
-    }
-
-    for (int i = 0; i < n_samples; i++) {
-        for (int j = 0; j < n_features; j++) {
-            X_norm[i][j] = (X[i][j] - mean[j]) / std[j];
-        }
-    }
-}
-
-void Tensor_shuffle_dataset(const float (*X)[4], const int *y,float (*X_shuffled)[4], int *y_shuffled, int n_samples, int n_features) {
-    int* indices = malloc(n_samples * sizeof(int));
-    for (int i = 0; i < n_samples; i++) {
-        indices[i] = i;
-    }
-    
-    // Fisher-Yates shuffle
-    srand((unsigned)time(NULL));
-    for (int i = n_samples - 1; i > 0; i--) {
-        int j = rand() % (i + 1);
-        int tmp = indices[i];
-        indices[i] = indices[j];
-        indices[j] = tmp;
-    }
-
-    for (int i = 0; i < n_samples; i++) {
-        int idx = indices[i];
-        for (int j = 0; j < n_features; j++) {
-            X_shuffled[i][j] = X[idx][j];
-        }
-        y_shuffled[i] = y[idx];
-    }
-    
-    free(indices);
-}
-
 int TensorShape_numel(TensorShape shape) {
     int numel = 1;
     for(int i = 0; i < sizeof(TensorShape) / sizeof(shape[0]); i++) {
diff --git a/src/utils.c b/src/utils.c
@@ -99,3 +99,59 @@ bool cten_elemwise_broadcast(Tensor* a, Tensor* b) {
     }
     return true;
 }
+
+void Tensor_normalize_dataset(const float (*X)[4], float (*X_norm)[4], int n_samples, int n_train_samples, int n_features) {
+    float mean[4] = {0}, std[4] = {0};
+    
+    for (int i = 0; i < n_train_samples; i++) {
+        for (int j = 0; j < n_features; j++) {
+            mean[j] += X[i][j];
+        }
+    }
+    for (int j = 0; j < n_features; j++) {
+        mean[j] /= n_train_samples;
+    }
+    
+    for (int i = 0; i < n_train_samples; i++) {
+        for (int j = 0; j < n_features; j++) {
+            std[j] += (X[i][j] - mean[j]) * (X[i][j] - mean[j]);
+        }
+    }
+    for (int j = 0; j < n_features; j++) {
+        std[j] = sqrtf(std[j] / n_train_samples);
+        // Avoid division by zero
+        if (std[j] == 0) std[j] = 1.0f;
+    }
+
+    for (int i = 0; i < n_samples; i++) {
+        for (int j = 0; j < n_features; j++) {
+            X_norm[i][j] = (X[i][j] - mean[j]) / std[j];
+        }
+    }
+}
+
+void Tensor_shuffle_dataset(const float (*X)[4], const int *y,float (*X_shuffled)[4], int *y_shuffled, int n_samples, int n_features) {
+    int* indices = malloc(n_samples * sizeof(int));
+    for (int i = 0; i < n_samples; i++) {
+        indices[i] = i;
+    }
+    
+    // Fisher-Yates shuffle
+    srand((unsigned)time(NULL));
+    for (int i = n_samples - 1; i > 0; i--) {
+        int j = rand() % (i + 1);
+        int tmp = indices[i];
+        indices[i] = indices[j];
+        indices[j] = tmp;
+    }
+
+    for (int i = 0; i < n_samples; i++) {
+        int idx = indices[i];
+        for (int j = 0; j < n_features; j++) {
+            X_shuffled[i][j] = X[idx][j];
+        }
+        y_shuffled[i] = y[idx];
+    }
+    
+    free(indices);
+}