fix

2026-03-17 19:19:39 +01:00 · 2026-03-17 19:19:39 +01:00 · ebaaf77942
commit ebaaf77942
parent 7f5f31db30
2 changed files with 327 additions and 0 deletions
--- a/concepts/Commcoach-Voice-Recording-Streaming-Konzept.md
+++ b/concepts/Commcoach-Voice-Recording-Streaming-Konzept.md
@ -332,3 +332,330 @@ Ersetzt wird:
 Der Umbau ist vollständig in der eigenen Plattform machbar und löst das Mobile-5-Sekunden-Problem an der Wurzel.
 Für Wartbarkeit und konsistentes Verhalten ist ein **genereller Umbau (Variante B)** sinnvoll.
 Ein stufenweiser Rollout mit Feature-Flag minimiert Risiko.
 ---
 ## Implementierungsfreigabe (Ready for Build)
 Dieser Abschnitt ist die verbindliche Umsetzungsvorlage.
 ### Verbindliche Entscheidungen
 1. **Scope**
   - Umsetzung als **Variante B** (ein Stack fuer Mobile + Desktop).
 2. **Transport**
   - STT-Eingang erfolgt ueber **WebSocket**.
   - Text-/Assistant-Antworten bleiben vorerst auf bestehendem **SSE**-Pfad.
 3. **STT-Engine**
   - Self-hosted Whisper-Pfad (`faster-whisper`) wird als neue Connector-Linie eingefuehrt.
   - Bestehender Google-One-Shot-Pfad bleibt nur als Legacy fuer `audio/stream`.
 4. **Fehlerbehandlung**
   - Keine stillen Fallbacks.
   - Bei aktivem `streamedStt` wird ein STT-Fehler sichtbar ins UI gemeldet.
 5. **Feature Flag**
   - `commcoachVoiceProvider = browserSpeech | streamedStt`.
   - Default initial: `browserSpeech`, Pilot: `streamedStt`.
 ### Verbindliche API Spezifikation
 #### WS Endpoint
 - `GET ws /api/commcoach/{instanceId}/sessions/{sessionId}/stt/stream`
 #### Client -> Server Nachrichten
 1. `open`
 ```json
 {
  "type": "open",
  "sessionId": "string",
  "language": "de-DE",
  "codec": "pcm16",
  "sampleRate": 16000,
  "channels": 1
 }
 ```
 2. `audio`
 ```json
 {
  "type": "audio",
  "seq": 1,
  "chunk": "base64-encoded-audio-bytes",
  "durationMs": 200
 }
 ```
 3. `commit`
 ```json
 {
  "type": "commit",
  "reason": "silence"
 }
 ```
 4. `close`
 ```json
 {
  "type": "close"
 }
 ```
 #### Server -> Client Nachrichten
 1. `status`
 ```json
 {
  "type": "status",
  "label": "Sprache wird erkannt..."
 }
 ```
 2. `ack`
 ```json
 {
  "type": "ack",
  "seq": 1
 }
 ```
 3. `interim`
 ```json
 {
  "type": "interim",
  "segmentId": "seg-uuid",
  "text": "teiltranskript"
 }
 ```
 4. `final`
 ```json
 {
  "type": "final",
  "segmentId": "seg-uuid",
  "text": "finales segment",
  "confidence": 0.91
 }
 ```
 5. `error`
 ```json
 {
  "type": "error",
  "code": "stt_failed",
  "message": "Transkription fehlgeschlagen"
 }
 ```
 6. `closed`
 ```json
 {
  "type": "closed",
  "reason": "server"
 }
 ```
 ### Orchestrierungsregeln (verbindlich)
 1. `useVoiceController` bleibt Owner der Zustandsmaschine.
 2. `streamedStt` liefert nur Transkript-Ereignisse, steuert keine State-Transitions direkt.
 3. Nur `final` Texte duerfen `onMessage(...)` triggern.
 4. `interim` aktualisiert nur `liveTranscript`.
 5. Bei `ttsPlaying` wird STT-Stream pausiert/geschlossen.
 6. Bei `ttsEnded` wird STT-Stream wieder geoeffnet.
 7. `muted=true` blockiert Senden von `audio` Chunks.
 ### Konkrete Datei- und Funktionsaenderungen
 #### Frontend `frontend_nyla`
 1. `src/api/commcoachApi.ts`
   - Neue Funktion `openSttStreamApi(instanceId, sessionId, handlers, options)`.
   - Rueckgabeobjekt mit `sendAudioChunk`, `sendCommit`, `close`.
 2. `src/hooks/useAudioStreamTranscription.ts` (neu)
   - Intern:
     - `_startMicCapture()`
     - `_stopMicCapture()`
     - `_encodePcm16Chunk()`
     - `_pushChunkToWs()`
   - Extern:
     - `startStream()`
     - `stopStream()`
     - `commitSegment(reason)`
 3. `src/pages/views/commcoach/useVoiceController.ts`
   - Provider-Layer einfuegen:
     - `browserSpeechProvider`
     - `streamedSttProvider`
   - `streamedSttProvider` auf neues Hook mappen.
   - Bestehende State-Transitionen unveraendert lassen.
 4. `src/pages/views/commcoach/CommcoachDossierView.tsx`
   - Debugpanel um STT-WS Events erweitern (`STT-OPEN`, `STT-INTERIM`, `STT-FINAL`, `STT-ERR`, `STT-CLOSE`).
 #### Gateway `gateway`
 1. `modules/features/commcoach/routeFeatureCommcoach.py`
   - Neue WS-Route `.../stt/stream`.
   - Auth/Ownership-Pruefung identisch zu bestehenden Session-Endpunkten.
 2. `modules/features/commcoach/serviceCommcoachSttStream.py` (neu)
   - Session-Stream-Manager:
     - `_openSessionStream()`
     - `_handleAudioChunk()`
     - `_flushSegment()`
     - `_closeSessionStream()`
   - Final-Segmente an `CommcoachService.processMessage(...)` uebergeben.
 3. `modules/interfaces/interfaceVoiceObjects.py`
   - Streaming API erweitern:
     - `startSttStream(...)`
     - `pushSttAudioChunk(...)`
     - `finalizeSttSegment(...)`
     - `stopSttStream(...)`
 4. `modules/connectors/connectorVoiceWhisper.py` (neu)
   - Whisper-basierte Implementierung fuer Streaming-Segmente.
   - Config fuer Modellgroesse, Sprache, VAD.
 ### Reihenfolge fuer die Umsetzung
 1. Gateway WS Route + Dummy-Events (ohne echte STT).
 2. Frontend WS Client + Mikrofondaten senden.
 3. Connector/Whisper Integration im Gateway.
 4. Segmentierung und `final -> processMessage`.
 5. Feature-Flag Integration und Pilot-Rollout.
 6. Legacy-Bereinigung.
 ### Abnahmekriterien (Definition of Done)
 1. **Mobile Stabilitaet**
   - 60 Sekunden durchgehendes Sprechen ohne erzwungenen 5-Sekunden-Reset.
 2. **Textintegritaet**
   - Keine abgeschnittenen Saetze zwischen Segmenten.
   - Keine Duplikate bei finalen Segmenten.
 3. **State Machine Integritaet**
   - Keine User-Transkripte waehrend `botSpeaking`.
   - `muted` blockiert Audio-Chunks sofort.
 4. **Fehlertransparenz**
   - STT- oder WS-Fehler werden im UI sichtbar angezeigt.
   - Kein stiller Fallback auf Browser-STT im `streamedStt` Modus.
 5. **Performance**
   - Time to first interim <= 1200 ms (WLAN Referenz).
   - Time to first final <= 2500 ms fuer kurze Saetze.
 ### Testplan (verbindlich)
 1. Unit Tests
   - Segment-Assembler und Seq-Handling.
   - State Transition Tests fuer `ttsPlaying`, `ttsEnded`, `muted`.
 2. Integration Tests
   - WS Open -> Audio -> Interim -> Final -> Close.
   - Reconnect nach Netzunterbruch.
 3. Manuelle Geraetetests
   - iOS Safari (aktuell + 1 Vorversion).
   - Android Chrome (aktuell + 1 Vorversion).
   - Desktop Chrome/Edge.
 4. Regression
   - Bestehende Text-SSE Flows unveraendert funktionsfaehig.
   - TTS Wiedergabe und Stop/Resume weiterhin stabil.
 ### Rollout und Backout
 1. Rollout
   - Feature-Flag pilotweise pro Instanz aktivieren.
   - Metriken mindestens 3 Tage beobachten.
 2. Backout
   - Bei kritischen Fehlern Flag auf `browserSpeech` zuruecksetzen.
   - Keine DB-Migrationen erforderlich.
 ### Aufwandsschaetzung
 - Gateway WS + Stream Service: 2-3 Tage
 - Whisper Connector + Tuning: 2-4 Tage
 - Frontend Hook + Provider Refactor: 2-3 Tage
 - Tests + Pilot-Hardening: 2-3 Tage
 Gesamt: **8-13 Arbeitstage** fuer produktionsreife Erstversion.
 ## Reuse Snippet (AI Workspace und weitere Views)
 Der Hook `useSpeechAudioCapture` ist generisch und kann ausserhalb von CommCoach wiederverwendet werden.
 Er kapselt Mikrofonzugriff, VAD, Segmentierung und Chunk-Emission.
 Beispielintegration in einer anderen View:
 ```tsx
 import React, { useState } from 'react';
 import { useSpeechAudioCapture } from '../../hooks/useSpeechAudioCapture';
 export default function WorkspaceVoiceInput() {
  const [isMicActive, setIsMicActive] = useState(false);
  const [isMuted, setIsMuted] = useState(false);
  const speech = useSpeechAudioCapture(
    {
      // Controller-Bedingung: nur aufnehmen wenn aktiv und nicht stumm
      isCaptureAllowed: () => isMicActive && !isMuted,
      // Laufende Audio-Chunks an den eigenen Stream senden
      onChunk: async (audioChunk) => {
        await wsSendChunk(audioChunk); // eigene WS/API Implementierung
      },
      // Segmentabschluss bei Stille oder manuellem Stop
      onSegment: async ({ reason }) => {
        wsSendCommit(reason); // z. B. 'silence' oder 'manual'
      },
      // Optionales Debugging
      onDebug: (tag, info) => console.log(tag, info),
      onError: (error) => console.error('Speech capture error', error),
    },
    {
      silenceTimeoutMs: 1200,
      vadRmsThreshold: 0.03,
      vadIntervalMs: 120,
      minSegmentDurationMs: 450,
      recordingChunkMs: 250,
    },
  );
  const startMic = async () => {
    setIsMicActive(true);
    await speech.startCapture();
  };
  const stopMic = () => {
    setIsMicActive(false);
    speech.stopCapture('manual', true);
  };
  return (
    <div>
      <button onClick={startMic}>Mic Start</button>
      <button onClick={stopMic}>Mic Stop</button>
      <button onClick={() => setIsMuted(v => !v)}>{isMuted ? 'Unmute' : 'Mute'}</button>
      <div>{speech.liveTranscript || 'Mikrofon bereit'}</div>
    </div>
  );
 }
 ```
 Minimalanforderungen fuer Reuse:
 - `isCaptureAllowed` muss den lokalen UI-State korrekt abbilden.
 - `onChunk` und `onSegment` muessen auf den Ziel-Transport (WS/SSE/API) gemappt werden.
 - `stopCapture(..., true)` soll bei View-Wechsel oder Unmount aufgerufen werden, um Mic sauber freizugeben.
--- a/deployment/poweron_sec.kdbx
+++ b/deployment/poweron_sec.kdbx