corasan · corasan · Apr 23, 2026 · Apr 23, 2026 · Apr 23, 2026 · Apr 23, 2026
diff --git a/example/app/(tabs)/stt.tsx b/example/app/(tabs)/stt.tsx
@@ -12,7 +12,7 @@ import {
 import { MLXModel, STT } from 'react-native-nitro-mlx'
 import { SafeAreaView } from 'react-native-safe-area-context'
 
-const MODEL_ID = MLXModel.GLM_ASR_Nano_4bit
+const MODEL_ID = MLXModel.Qwen3_ASR_0_6B_4bit
 
 type Status = 'idle' | 'loading' | 'ready' | 'listening' | 'transcribing'
 
@@ -68,11 +68,11 @@ export default function STTScreen() {
     try {
       const text = await STT.transcribeBuffer()
       if (text) {
-        streamingRef.current = text
-        setStreamingText(text)
+        streamingRef.current = `${streamingRef.current} ${text}`.trim()
+        setStreamingText(streamingRef.current)
       }
-    } catch {
-      // buffer too small or not listening, skip
+    } catch (error) {
+      console.warn('STT transcribeBuffer error:', error)
     } finally {
       isTranscribingChunk.current = false
     }
@@ -84,18 +84,16 @@ export default function STTScreen() {
 
   const handleToggleListening = useCallback(async () => {
     if (status === 'listening') {
+      stopPolling()
       try {
-        stopPolling()
-        setStatus('transcribing')
-        const finalText = await STT.stopListening()
-        setTranscript(finalText || streamingRef.current)
-        setStreamingText('')
-        streamingRef.current = ''
-        setStatus('ready')
+        STT.stop()
       } catch (error) {
-        console.error('STT stopListening error:', error)
-        setStatus('ready')
+        console.error('STT stop error:', error)
       }
+      setTranscript(streamingRef.current)
+      setStreamingText('')
+      streamingRef.current = ''
+      setStatus('ready')
     } else if (status === 'ready') {
       setTranscript('')
       setStreamingText('')

diff --git a/package/ios/Sources/AudioCaptureManager.swift b/package/ios/Sources/AudioCaptureManager.swift
@@ -84,14 +84,38 @@ class AudioCaptureManager {
     bufferLock.unlock()
 
     guard samples.count >= 8000 else { return nil }
+
+    // Silence gate: skip chunks whose peak amplitude is near the noise
+    // floor so the ASR model doesn't hallucinate ("The.", "...") on
+    // silence. Peak-based because measurement-mode capture disables AGC,
+    // making RMS of quiet speech close to ambient noise.
+    var peak: Float = 0
+    for s in samples {
+      let a = s < 0 ? -s : s
+      if a > peak { peak = a }
+    }
+    guard peak >= 0.005 else { return nil }
+
     return MLXArray(samples)
   }
 
   func snapshot() -> MLXArray? {
+    // Take exclusive ownership of the accumulated buffer so the audio tap
+    // gets fresh empty storage to append into; the expensive MLXArray copy
+    // then happens off the audio path. Samples are merged back afterward
+    // so the buffer keeps accumulating across calls.
     bufferLock.lock()
-    let samples = audioBuffer
+    var samples = audioBuffer
+    audioBuffer.removeAll()
     bufferLock.unlock()
 
+    defer {
+      bufferLock.lock()
+      samples.append(contentsOf: audioBuffer)
+      audioBuffer = samples
+      bufferLock.unlock()
+    }
+
     guard samples.count >= 16000 else { return nil }
     return MLXArray(samples)
   }

diff --git a/package/ios/Sources/HybridSTT.swift b/package/ios/Sources/HybridSTT.swift
@@ -11,7 +11,7 @@ enum STTError: Error {
 }
 
 class HybridSTT: HybridSTTSpec {
-  private var model: GLMASRModel?
+  private var model: Qwen3ASRModel?
   private var activeTask: Task<String, Error>?
   private var loadTask: Task<Void, Error>?
   private var captureManager: AudioCaptureManager?
@@ -39,7 +39,7 @@ class HybridSTT: HybridSTTSpec {
         self.model = nil
         MLX.Memory.clearCache()
 
-        let loadedModel = try await GLMASRModel.fromPretrained(modelId)
+        let loadedModel = try await Qwen3ASRModel.fromPretrained(modelId)
 
         try Task.checkCancellation()
 
@@ -62,7 +62,7 @@ class HybridSTT: HybridSTTSpec {
     return Promise.async { [self] in
       let task = Task<String, Error> {
         let mlxAudio = self.arrayBufferToMLXArray(audio)
-        let output = model.generate(audio: mlxAudio)
+        let output = model.generate(audio: mlxAudio, language: "English")
         return output.text
       }
 
@@ -84,7 +84,7 @@ class HybridSTT: HybridSTTSpec {
     return Promise.async { [self] in
       let task = Task<String, Error> {
         let mlxAudio = self.arrayBufferToMLXArray(audio)
-        let stream = model.generateStream(audio: mlxAudio)
+        let stream = model.generateStream(audio: mlxAudio, language: "English")
         var finalText = ""
 
         for try await event in stream {
@@ -132,13 +132,13 @@ class HybridSTT: HybridSTTSpec {
     guard let manager = captureManager, manager.isCapturing else {
       throw STTError.notListening
     }
-    guard let audio = manager.snapshot() else {
+    guard let audio = manager.snapshotAndClear() else {
       return Promise.resolved(withResult: "")
     }
 
     return Promise.async { [self] in
       let task = Task<String, Error> {
-        let output = model.generate(audio: audio)
+        let output = model.generate(audio: audio, language: "English")
         return output.text
       }
 
@@ -164,7 +164,7 @@ class HybridSTT: HybridSTTSpec {
 
     return Promise.async { [self] in
       let task = Task<String, Error> {
-        let output = model.generate(audio: audio)
+        let output = model.generate(audio: audio, language: "English")
         return output.text
       }
 

diff --git a/package/src/models.ts b/package/src/models.ts
@@ -7,6 +7,7 @@ export enum ModelFamily {
   OpenELM = 'OpenELM',
   PocketTTS = 'PocketTTS',
   GLMASR = 'GLMASR',
+  Qwen3ASR = 'Qwen3ASR',
 }
 
 export enum ModelProvider {
@@ -86,6 +87,9 @@ export enum MLXModel {
 
   // GLM-ASR (GLMASR) - Speech-to-Text
   GLM_ASR_Nano_4bit = 'mlx-community/GLM-ASR-Nano-2512-4bit',
+
+  // Qwen3-ASR (Alibaba) - Speech-to-Text
+  Qwen3_ASR_0_6B_4bit = 'mlx-community/Qwen3-ASR-0.6B-4bit',
 }
 
 export const MLXModels: ModelInfo[] = [
@@ -389,4 +393,14 @@ export const MLXModels: ModelInfo[] = [
     downloadSize: 600000000,
     type: 'stt',
   },
+  {
+    id: MLXModel.Qwen3_ASR_0_6B_4bit,
+    family: ModelFamily.Qwen3ASR,
+    provider: ModelProvider.Alibaba,
+    parameters: '0.6B',
+    quantization: '4bit',
+    displayName: 'Qwen3 ASR 0.6B (4-bit)',
+    downloadSize: 712781278,
+    type: 'stt',
+  },
 ]