feat: add speaker-hint debug flag and improve TTS diagnostics

Made-with: Cursor
2026-02-26 09:26:59 +01:00 · 2026-02-26 09:26:59 +01:00 · 02002f3576
commit 02002f3576
parent 0cd8e9ebfa
1 changed files with 44 additions and 19 deletions
--- a/modules/features/teamsbot/service.py
+++ b/modules/features/teamsbot/service.py
@ -444,13 +444,14 @@ class TeamsbotService:
                    logger.info(f"[AudioChunk] STT result: {text[:80]}...")
                    await self._processTranscript(
                        sessionId=sessionId,
-                        speaker=resolvedSpeaker,
+                        speaker=resolvedSpeaker["speaker"],
                        text=text,
                        isFinal=True,
                        interface=interface,
                        voiceInterface=voiceInterface,
                        websocket=websocket,
                        source="audioCapture",
                        speakerResolvedFromHint=resolvedSpeaker["speakerResolvedFromHint"],
                    )
        except Exception as e:
            logger.error(f"[AudioChunk] STT error for session {sessionId}: {type(e).__name__}: {e}")
@ -473,19 +474,22 @@ class TeamsbotService:
        if len(self._recentSpeakerHints) > 20:
            self._recentSpeakerHints = self._recentSpeakerHints[-20:]
-    def _resolveSpeakerForAudioCapture(self) -> str:
+    def _resolveSpeakerForAudioCapture(self) -> Dict[str, Any]:
        """Best-effort speaker name for audio chunks using recent caption hints."""
        if not self._recentSpeakerHints:
-            return "Meeting Audio"
+            return {"speaker": "Meeting Audio", "speakerResolvedFromHint": False}
        nowTs = time.time()
        # Prefer very recent hints to reduce wrong attribution
        for hint in reversed(self._recentSpeakerHints):
            hintAge = nowTs - hint.get("timestamp", 0)
            if hintAge <= 15:
-                return hint.get("speaker", "Meeting Audio")
+                return {
                    "speaker": hint.get("speaker", "Meeting Audio"),
                    "speakerResolvedFromHint": True,
                }
-        return "Meeting Audio"
+        return {"speaker": "Meeting Audio", "speakerResolvedFromHint": False}
    async def _processTranscript(
        self,
@ -497,6 +501,7 @@ class TeamsbotService:
        voiceInterface,
        websocket: WebSocket,
        source: str = "caption",
        speakerResolvedFromHint: Optional[bool] = None,
    ):
        """Process a transcript segment from captions or chat messages.
@ -601,6 +606,12 @@ class TeamsbotService:
            "confidence": 1.0,
            "timestamp": getIsoTimestamp(),
            "isContinuation": isContinuation,
            "source": source,
            "speakerResolvedFromHint": (
                speakerResolvedFromHint
                if speakerResolvedFromHint is not None
                else False
            ),
        })
        # Check if AI analysis should be triggered (only for final transcripts)
@ -837,25 +848,39 @@ class TeamsbotService:
                # 4a: Voice response (TTS -> Audio to bot)
                if sendVoice:
                    try:
                        logger.info(
                            f"Session {sessionId}: TTS requested (websocket_available={websocket is not None})"
                        )
                        ttsResult = await voiceInterface.textToSpeech(
                            text=speechResult.responseText,
                            languageCode=self.config.language,
                            voiceName=self.config.voiceId
                        )
-                        
+
-                        if ttsResult and isinstance(ttsResult, dict):
+                        if not ttsResult or not isinstance(ttsResult, dict):
-                            audioContent = ttsResult.get("audioContent")
+                            raise RuntimeError("TTS returned invalid result payload")
-                            if audioContent and websocket:
+
-                                await websocket.send_text(json.dumps({
+                        if ttsResult.get("success") is False:
-                                    "type": "playAudio",
+                            raise RuntimeError(f"TTS backend error: {ttsResult.get('error', 'unknown')}")
-                                    "sessionId": sessionId,
+
-                                    "audio": {
+                        audioContent = ttsResult.get("audioContent")
-                                        "data": base64.b64encode(audioContent if isinstance(audioContent, bytes) else audioContent.encode()).decode(),
+                        if not audioContent:
-                                        "format": "mp3",
+                            raise RuntimeError("TTS returned no audioContent")
-                                    },
+
-                                }))
+                        if websocket:
-                            elif audioContent and not websocket:
+                            await websocket.send_text(json.dumps({
-                                logger.info(f"TTS audio generated for session {sessionId} (HTTP mode - no WebSocket for playback)")
+                                "type": "playAudio",
                                "sessionId": sessionId,
                                "audio": {
                                    "data": base64.b64encode(audioContent if isinstance(audioContent, bytes) else audioContent.encode()).decode(),
                                    "format": "mp3",
                                },
                            }))
                            logger.info(f"Session {sessionId}: TTS audio dispatched to bot")
                        else:
                            logger.warning(
                                f"Session {sessionId}: TTS audio generated but cannot be played (bot websocket unavailable, likely fallback mode)"
                            )
                    except Exception as ttsErr:
                        logger.warning(f"TTS failed for session {sessionId}: {ttsErr}")
                        if not sendChat: