feat: map audio STT to recent caption speaker hints

Made-with: Cursor
2026-02-26 09:05:21 +01:00 · 2026-02-26 09:05:21 +01:00 · 43e310a41d
commit 43e310a41d
parent 5684a4d769
2 changed files with 46 additions and 1 deletions
--- a/modules/features/teamsbot/routeFeatureTeamsbot.py
+++ b/modules/features/teamsbot/routeFeatureTeamsbot.py
@ -1073,6 +1073,7 @@ async def postTranscript(
    speaker = transcript.get("speaker", "Unknown")
    text = transcript.get("text", "")
    isFinal = transcript.get("isFinal", True)
    source = transcript.get("source", "caption")
    if not text.strip():
        return {"success": True, "message": "Empty transcript ignored"}
@ -1110,6 +1111,7 @@ async def postTranscript(
            interface=interface,
            voiceInterface=voiceInterface,
            websocket=None,  # No WebSocket in HTTP mode
            source=source,
        )
        logger.info(f"HTTP transcript received: session={sessionId}, speaker={speaker}, text={text[:50]}...")
--- a/modules/features/teamsbot/service.py
+++ b/modules/features/teamsbot/service.py
@ -87,6 +87,7 @@ class TeamsbotService:
        self._lastTranscriptSpeaker: Optional[str] = None
        self._lastTranscriptText: Optional[str] = None
        self._lastTranscriptId: Optional[str] = None
        self._recentSpeakerHints: List[Dict[str, Any]] = []
    # =========================================================================
    # Session Lifecycle
@ -267,6 +268,7 @@ class TeamsbotService:
                if msgType == "transcript":
                    transcript = message.get("transcript", {})
                    source = transcript.get("source", "caption")
                    logger.info(f"[WS] Transcript: speaker={transcript.get('speaker')}, text={transcript.get('text', '')[:60]}...")
                    await self._processTranscript(
                        sessionId=sessionId,
@ -276,6 +278,7 @@ class TeamsbotService:
                        interface=interface,
                        voiceInterface=voiceInterface,
                        websocket=websocket,
                        source=source,
                    )
                elif msgType == "chatMessage":
@ -437,10 +440,11 @@ class TeamsbotService:
            if sttResult and sttResult.get("success") and sttResult.get("text"):
                text = sttResult["text"].strip()
                if text:
                    resolvedSpeaker = self._resolveSpeakerForAudioCapture()
                    logger.info(f"[AudioChunk] STT result: {text[:80]}...")
                    await self._processTranscript(
                        sessionId=sessionId,
-                        speaker="Meeting Audio",
+                        speaker=resolvedSpeaker,
                        text=text,
                        isFinal=True,
                        interface=interface,
@ -451,6 +455,38 @@ class TeamsbotService:
        except Exception as e:
            logger.error(f"[AudioChunk] STT error for session {sessionId}: {type(e).__name__}: {e}")
    def _registerSpeakerHint(self, speaker: str, text: str):
        """Store recent speaker hints from captions for audio-mode speaker attribution."""
        if not speaker:
            return
        normalizedSpeaker = speaker.strip()
        if not normalizedSpeaker or self._isBotSpeaker(normalizedSpeaker):
            return
        self._recentSpeakerHints.append({
            "speaker": normalizedSpeaker,
            "text": (text or "").strip(),
            "timestamp": time.time(),
        })
        # Keep only the latest 20 hints
        if len(self._recentSpeakerHints) > 20:
            self._recentSpeakerHints = self._recentSpeakerHints[-20:]
    def _resolveSpeakerForAudioCapture(self) -> str:
        """Best-effort speaker name for audio chunks using recent caption hints."""
        if not self._recentSpeakerHints:
            return "Meeting Audio"
        nowTs = time.time()
        # Prefer very recent hints to reduce wrong attribution
        for hint in reversed(self._recentSpeakerHints):
            hintAge = nowTs - hint.get("timestamp", 0)
            if hintAge <= 15:
                return hint.get("speaker", "Meeting Audio")
        return "Meeting Audio"
    async def _processTranscript(
        self,
        sessionId: str,
@ -475,6 +511,13 @@ class TeamsbotService:
        if not text:
            return
        # Speaker hints are lightweight caption-derived signals used only to
        # attribute audio-stream STT to likely speakers. They are not persisted.
        if source in ("caption", "speakerHint"):
            self._registerSpeakerHint(speaker, text)
        if source == "speakerHint":
            return
        # Filter out the bot's own speech entirely — captions of the bot's
        # own voice come back as garbled text (e.g. German TTS → English caption)
        # which pollutes the context buffer and confuses AI analysis.