lambdaclass
diff --git a/‎.github/workflows/tests.yaml
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/tests.yaml
Lines changed: 1 addition & 1 deletion
diff --git a/‎Cargo.toml
Lines changed: 6 additions & 1 deletion b/‎Cargo.toml
Lines changed: 6 additions & 1 deletion
diff --git a/‎gpu/Cargo.toml
Lines changed: 21 additions & 0 deletions b/‎gpu/Cargo.toml
Lines changed: 21 additions & 0 deletions
diff --git a/‎gpu/benches/all_benchmarks.rs
Lines changed: 11 additions & 0 deletions b/‎gpu/benches/all_benchmarks.rs
Lines changed: 11 additions & 0 deletions
diff --git a/‎gpu/benches/benchmarks/metal.rs
Lines changed: 82 additions & 0 deletions b/‎gpu/benches/benchmarks/metal.rs
Lines changed: 82 additions & 0 deletions
diff --git a/‎gpu/benches/benchmarks/mod.rs
Lines changed: 1 addition & 0 deletions b/‎gpu/benches/benchmarks/mod.rs
Lines changed: 1 addition & 0 deletions
diff --git a/‎gpu/benches/metal_benchmarks.rs
Lines changed: 11 additions & 0 deletions b/‎gpu/benches/metal_benchmarks.rs
Lines changed: 11 additions & 0 deletions
@@ -30,7 +30,7 @@ jobs:
           command: check
 
   coverage:
-    runs-on: ubuntu-latest
+    runs-on: macos-latest
     env:
       CARGO_TERM_COLOR: always
     steps:
 
@@ -1,7 +1,12 @@
 [workspace]
-
+default-members = [
+    "math", 
+    "crypto",
+    "proving_system/stark"
+]
 members = [
     "math",
     "crypto",
     "proving_system/stark",
+    "gpu",
 ]
@@ -0,0 +1,21 @@
+[package]
+name = "lambdaworks-gpu"
+version = "0.1.0"
+edition = "2021"
+
+# See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html
+
+[dependencies]
+lambdaworks-math = { path = "../math" }
+lambdaworks-crypto = { path = "../crypto"}
+rand = "0.8.5"
+metal = "0.24.0"
+
+[dev-dependencies]
+proptest = "1.1.0"
+criterion = "0.4.0"
+objc = "0.2.7"
+
+[[bench]]
+name = "metal_benchmarks"
+harness = false
@@ -0,0 +1,11 @@
+use criterion::{criterion_group, criterion_main, Criterion};
+
+mod benchmarks;
+
+fn run_all_benchmarks(c: &mut Criterion) {
+    benchmarks::metal::metal_fft_twiddles_benchmarks(c);
+    benchmarks::metal::metal_fft_benchmarks(c);
+}
+
+criterion_group!(benches, run_all_benchmarks);
+criterion_main!(benches);
@@ -0,0 +1,82 @@
+use criterion::Criterion;
+use lambdaworks_gpu::fft::fft_metal::*;
+use lambdaworks_math::{
+    fft::bit_reversing::in_place_bit_reverse_permute,
+    field::{element::FieldElement, traits::IsTwoAdicField},
+    field::{test_fields::u32_test_field::U32TestField, traits::RootsConfig},
+};
+use rand::random;
+
+type F = U32TestField;
+type FE = FieldElement<F>;
+
+fn gen_coeffs(pow: usize) -> Vec<FE> {
+    let mut result = Vec::with_capacity(1 << pow);
+    for _ in 0..result.capacity() {
+        result.push(FE::new(random()));
+    }
+    result
+}
+
+pub fn metal_fft_benchmarks(c: &mut Criterion) {
+    let mut group = c.benchmark_group("metal_fft");
+
+    for order in 20..=24 {
+        let coeffs = gen_coeffs(order);
+        group.throughput(criterion::Throughput::Elements(1 << order)); // info for criterion
+
+        // the objective is to bench ordered FFT, including twiddles generation and Metal setup
+        group.bench_with_input(
+            format!("parallel_nr_2radix_2^{order}_coeffs"),
+            &coeffs,
+            |bench, coeffs| {
+                bench.iter(|| {
+                    // TODO: autoreleaspool hurts perf. by 2-3%. Search for an alternative
+                    objc::rc::autoreleasepool(|| {
+                        let coeffs = coeffs.clone();
+                        let twiddles =
+                            F::get_twiddles(order as u64, RootsConfig::BitReverse).unwrap();
+                        let fft_metal = FFTMetalState::new(None).unwrap();
+                        let command_buff_encoder = fft_metal
+                            .setup_fft("radix2_dit_butterfly", &twiddles)
+                            .unwrap();
+
+                        let mut result = fft_metal
+                            .execute_fft(&coeffs, command_buff_encoder)
+                            .unwrap();
+
+                        in_place_bit_reverse_permute(&mut result);
+                    });
+                });
+            },
+        );
+    }
+
+    group.finish();
+}
+
+pub fn metal_fft_twiddles_benchmarks(c: &mut Criterion) {
+    let mut group = c.benchmark_group("metal_fft");
+    group.sample_size(10); // it becomes too slow with the default of 100
+
+    for order in 2..=4 {
+        group.throughput(criterion::Throughput::Elements(1 << order)); // info for criterion
+
+        // the objective is to bench ordered FFT, including twiddles generation and Metal setup
+        group.bench_with_input(
+            format!("parallel_twiddle_factors_2^({order}-1)_elems"),
+            &order,
+            |bench, order| {
+                bench.iter(|| {
+                    // TODO: autoreleaspool hurts perf. by 2-3%. Search for an alternative
+                    objc::rc::autoreleasepool(|| {
+                        let metal_state = FFTMetalState::new(None).unwrap();
+                        let _gpu_twiddles = metal_state.gen_twiddles::<F>(*order).unwrap();
+                    });
+                });
+            },
+        );
+    }
+
+    group.finish();
+}
@@ -0,0 +1 @@
+pub mod metal;
@@ -0,0 +1,11 @@
+use criterion::{criterion_group, criterion_main, Criterion};
+
+mod benchmarks;
+
+fn run_metal_benchmarks(c: &mut Criterion) {
+    benchmarks::metal::metal_fft_twiddles_benchmarks(c);
+    benchmarks::metal::metal_fft_benchmarks(c);
+}
+
+criterion_group!(benches, run_metal_benchmarks);
+criterion_main!(benches);