move trim logic to TimeResampler.factorize

Giacomo Caria · Giacomo Caria · commit 33a4d41b1e89 · 2025-10-18T18:57:36.000-03:00
diff --git a/xarray/core/common.py b/xarray/core/common.py
@@ -1129,38 +1129,6 @@ def _resample(
                 offset=offset,
                 boundaries=boundaries,
             )
-
-            # Apply trim logic at the resample level if needed
-            if boundaries == "trim":
-                # First, get the resampling periods to identify incomplete ones
-                from xarray.core.groupby import ResolvedGrouper
-
-                temp_grouper = ResolvedGrouper(grouper, group, self)
-                temp_encoded = temp_grouper.encoded
-
-                # Count data points in each period
-                codes = temp_encoded.codes
-                counts = np.bincount(codes.values)
-
-                if len(counts) > 0:
-                    # Find the most common count (expected points per period)
-                    unique_counts, count_frequencies = np.unique(
-                        counts, return_counts=True
-                    )
-                    most_common_count = unique_counts[np.argmax(count_frequencies)]
-
-                    # Identify incomplete periods
-                    incomplete_periods = counts < most_common_count
-
-                    if np.any(incomplete_periods):
-                        # Find which data points belong to incomplete periods
-                        incomplete_codes = np.where(incomplete_periods)[0]
-                        valid_mask = ~np.isin(codes.values, incomplete_codes)
-
-                        # Filter the data to exclude incomplete periods
-                        group = group.isel({group.dims[0]: valid_mask})
-                        # Also update the object to match the filtered group
-                        self = self.isel({group.dims[0]: valid_mask})
         elif isinstance(freq, Resampler):
             grouper = freq
         else:
diff --git a/xarray/groupers.py b/xarray/groupers.py
@@ -574,7 +574,7 @@ def factorize(self, group: T_Group) -> EncodedGroups:
         full_index, first_items, codes_ = self._get_index_and_items()
         sbins = first_items.values.astype(np.int64)
 
-        # Handle boundaries parameter for exact checking
+        # Handle boundaries parameter for exact checking and trim logic
         if self.boundaries == "exact":
             # Check if data evenly fits the resampling frequency
             counts = np.bincount(codes_)
@@ -588,6 +588,23 @@ def factorize(self, group: T_Group) -> EncodedGroups:
                     f"{counts[incomplete_periods]} points. Use boundaries='trim' "
                     f"to handle incomplete periods."
                 )
+        elif self.boundaries == "trim":
+            # Apply trim logic: set codes to -1 for incomplete periods
+            counts = np.bincount(codes_)
+
+            if len(counts) > 0:
+                # Find the most common count (expected points per period)
+                unique_counts, count_frequencies = np.unique(counts, return_counts=True)
+                most_common_count = unique_counts[np.argmax(count_frequencies)]
+
+                # Identify incomplete periods
+                incomplete_periods = counts < most_common_count
+
+                if np.any(incomplete_periods):
+                    # Find which data points belong to incomplete periods
+                    incomplete_codes = np.where(incomplete_periods)[0]
+                    # Set codes to -1 for points in incomplete periods
+                    codes_[np.isin(codes_, incomplete_codes)] = -1
 
         group_indices: GroupIndices = tuple(
             list(itertools.starmap(slice, pairwise(sbins))) + [slice(sbins[-1], None)]