Fix order of start/end values in audinterface.Segment (#136)

hagenw · web-flow · commit b88b3d9fc2d2 · 2023-07-28T11:22:31.000+02:00
* Add failing tests

* Fix segment for file given

* Add more test ideas

* Update tests

* Fix process_file()

* First part of fixing process_files()

* Fix process_index()

* Fix process_signal with start argument

* Add test for process_signal_from_index

* Extend tests

* Add test for process_folder()

* Fix empty line

* Base file length on given end values
diff --git a/audinterface/core/segment.py b/audinterface/core/segment.py
@@ -272,8 +272,8 @@ def process_file(
         ).values[0]
         return audformat.segmented_index(
             files=[file] * len(index),
-            starts=index.levels[0] + start,
-            ends=index.levels[1] + start,
+            starts=index.get_level_values('start') + start,
+            ends=index.get_level_values('end') + start,
         )
 
     def process_files(
@@ -324,8 +324,8 @@ def process_files(
         ends = []
         for (file, start, _), index in y.items():
             files.extend([file] * len(index))
-            starts.extend(index.levels[0] + start)
-            ends.extend(index.levels[1] + start)
+            starts.extend(index.get_level_values('start') + start)
+            ends.extend(index.get_level_values('end') + start)
 
         return audformat.segmented_index(files, starts, ends)
 
@@ -416,8 +416,8 @@ def process_index(
         ends = []
         for (file, start, _), index in y.items():
             files.extend([file] * len(index))
-            starts.extend(index.levels[0] + start)
-            ends.extend(index.levels[1] + start)
+            starts.extend(index.get_level_values('start') + start)
+            ends.extend(index.get_level_values('end') + start)
 
         return audformat.segmented_index(files, starts, ends)
 
@@ -466,6 +466,12 @@ def process_signal(
         ).values[0]
         utils.assert_index(index)
         if start is not None:
+            start = utils.to_timedelta(start)
+            # Here we change directly the levels,
+            # so we need to use
+            # `index.levels[0]`
+            # instead of
+            # `index.get_level_values('start')`
             index = index.set_levels(
                 [
                     index.levels[0] + start,
@@ -476,9 +482,10 @@ def process_signal(
         if file is not None:
             index = audformat.segmented_index(
                 files=[file] * len(index),
-                starts=index.levels[0],
-                ends=index.levels[1],
+                starts=index.get_level_values('start'),
+                ends=index.get_level_values('end'),
             )
+
         return index
 
     def process_signal_from_index(
diff --git a/tests/test_process.py b/tests/test_process.py
@@ -8,6 +8,7 @@
 import audformat
 import audiofile
 import audiofile as af
+import audmath
 import audobject
 
 import audinterface
@@ -1521,102 +1522,146 @@ def process_func(signal, sampling_rate, idx, file, root):
 
 
 @pytest.mark.parametrize(
-    'segment',
+    # `starts` and `ends`
+    # are used to create a segment object
+    # using audinterface.utils.signal_index()
+    'starts, ends',
     [
-        audinterface.Segment(
-            process_func=lambda x, sr: audinterface.utils.signal_index()
-        ),
-        audinterface.Segment(
-            process_func=lambda x, sr:
-                audinterface.utils.signal_index(
-                    pd.to_timedelta(0),
-                    pd.to_timedelta(x.shape[1] / sr, unit='s') / 2,
-                )
-        ),
-        audinterface.Segment(
-            process_func=lambda x, sr:
-            audinterface.utils.signal_index(
-                pd.to_timedelta(x.shape[1] / sr, unit='s') / 2,
-                pd.to_timedelta(x.shape[1] / sr, unit='s'),
-            )
-        ),
-        audinterface.Segment(
-            process_func=lambda x, sr:
-                audinterface.utils.signal_index(
-                    [
-                        pd.to_timedelta(0),
-                        pd.to_timedelta(x.shape[1] / sr, unit='s') / 2,
-                    ],
-                    [
-                        pd.to_timedelta(x.shape[1] / sr, unit='s') / 2,
-                        pd.to_timedelta(x.shape[1] / sr),
-                    ],
-                )
-        )
+        (None, None),
+        (0, 1.5),
+        (1.5, 3),
+        ([0, 1.5], [1.5, 3]),
+        # Blocked by https://github.com/audeering/audinterface/issues/134
+        # or a similar issue
+        # ([0, 1.5], [1, 2.000000003]),
+        ([0, 2], [1, 3]),
+        ([0, 1], [2, 2]),
+        # https://github.com/audeering/audinterface/issues/135
+        ([0, 1], [3, 2]),
     ]
 )
-def test_process_with_segment(tmpdir, segment):
+def test_process_with_segment(tmpdir, starts, ends):
 
-    process = audinterface.Process()
-    process_with_segment = audinterface.Process(
-        segment=segment,
+    # Segment and process objects
+    segment = audinterface.Segment(
+        process_func=lambda x, sr:
+        audinterface.utils.signal_index(starts, ends)
     )
+    process = audinterface.Process()
+    process_with_segment = audinterface.Process(segment=segment)
 
-    # create signal and file
+    # Create signal and file
     sampling_rate = 8000
-    signal = np.zeros((1, sampling_rate))
+    if ends is None:
+        duration = 1
+    else:
+        duration = audmath.duration_in_seconds(
+            max(audeer.to_list(ends))
+        )
+    signal = np.zeros((1, audmath.samples(duration, sampling_rate)))
     root = tmpdir
     file = 'file.wav'
     path = os.path.join(root, file)
     audiofile.write(path, signal, sampling_rate)
 
+    # Expected index
+    if starts is None:
+        files = None
+        files_abs = None
+    else:
+        files = [file] * len(audeer.to_list(starts))
+        files_abs = [audeer.path(root, file) for file in files]
+    expected = audformat.segmented_index(files, starts, ends)
+    expected_folder_index = audformat.segmented_index(files_abs, starts, ends)
+    expected_signal_index = audinterface.utils.signal_index(starts, ends)
+
     # process signal
-    index = segment.process_signal(
+    index = segment.process_signal(signal, sampling_rate)
+    pd.testing.assert_index_equal(index, expected_signal_index)
+
+    # process signal with start argument
+    index = segment.process_signal(signal, sampling_rate, start=0)
+    pd.testing.assert_index_equal(index, expected_signal_index)
+
+    # process signal with file argument
+    index = segment.process_signal(signal, sampling_rate, file=file)
+    pd.testing.assert_index_equal(index, expected)
+
+    pd.testing.assert_series_equal(
+        process.process_index(index, root=root, preserve_index=True),
+        process_with_segment.process_signal(signal, sampling_rate, file=file)
+    )
+
+    # process signal from index
+    index = segment.process_signal_from_index(
         signal,
         sampling_rate,
-        file=file,
+        audinterface.utils.signal_index(0, duration),
     )
-    pd.testing.assert_series_equal(
-        process.process_index(index, root=root),
-        process_with_segment.process_signal(
-            signal,
-            sampling_rate,
-            file=file,
-        )
+    pd.testing.assert_index_equal(index, expected_signal_index)
+    index = segment.process_signal_from_index(
+        signal,
+        sampling_rate,
+        audformat.segmented_index(file, 0, duration),
     )
+    pd.testing.assert_index_equal(index, expected)
     index = segment.process_signal_from_index(
         signal,
         sampling_rate,
         audformat.filewise_index(file),
     )
+    pd.testing.assert_index_equal(index, expected)
+
     pd.testing.assert_series_equal(
-        process.process_index(index, root=root),
+        process.process_index(index, root=root, preserve_index=True),
         process_with_segment.process_signal_from_index(
             signal,
             sampling_rate,
             audformat.filewise_index(file),
-        )
+        ),
     )
 
     # process file
     index = segment.process_file(file, root=root)
+    pd.testing.assert_index_equal(index, expected)
+
     pd.testing.assert_series_equal(
-        process.process_index(index, root=root),
-        process_with_segment.process_file(file, root=root)
-    )
-    index = segment.process_index(
-        audformat.filewise_index(file),
-        root=root,
+        process.process_index(index, root=root, preserve_index=True),
+        process_with_segment.process_file(file, root=root),
     )
+
+    # process files
+    index = segment.process_files([file], root=root)
+    pd.testing.assert_index_equal(index, expected)
+
+    # https://github.com/audeering/audinterface/issues/138
+    # pd.testing.assert_series_equal(
+    #     process.process_index(index, root=root, preserve_index=True),
+    #     process_with_segment.process_files([file], root=root)
+    # )
+
+    # process folder
+    index = segment.process_folder(root)
+    pd.testing.assert_index_equal(index, expected_folder_index)
+
+    # https://github.com/audeering/audinterface/issues/139
+    # pd.testing.assert_series_equal(
+    #     process.process_index(index, root=root, preserve_index=True),
+    #     process_with_segment.process_folder(root),
+    # )
+
+    # process index
+    index = segment.process_index(audformat.filewise_index(file), root=root)
+    pd.testing.assert_index_equal(index, expected)
+
     pd.testing.assert_series_equal(
-        process.process_index(index, root=root),
+        process.process_index(index, root=root, preserve_index=True),
         process_with_segment.process_index(
             audformat.filewise_index(file),
             root=root,
-        )
+        ),
     )
 
-
 def test_read_audio(tmpdir):
     sampling_rate = 8000
     signal = np.ones((1, 8000))