← Journal
Technique·26 avr 2026

Construire une voix : parler, comprendre, répondre

Une onde sonore se transformant en flux de lumière structuré le long d'un parcours

Quand on parle à XNeuronal, tout paraît instantané. Derrière, trois étages distincts se relaient pour transformer ta voix en réponse — et un choix d'architecture que nous assumons pleinement.

Trois étages : entendre, penser, parler

Le trajet d'une phrase suit toujours le même chemin. D'abord la transcription (STT) : l'audio devient du texte. Ensuite le raisonnement : un modèle de langage comprend l'intention, range les neurones, décide quoi répondre. Enfin la synthèse (TTS) : le texte redevient une voix. Chaque étage est un service indépendant, remplaçable sans toucher aux autres. Cette modularité n'est pas un luxe : elle nous permet de changer de fournisseur quand un meilleur apparaît, sans réécrire le produit.

Toujours un filet

Un service externe peut être lent, saturé, ou tomber. Nous avons donc conçu chaque étage en cascade : si le moteur principal échoue, un moteur de secours prend le relais sans que l'utilisateur ne s'en aperçoive. La transcription bascule d'un fournisseur à l'autre, la synthèse retombe sur une voix de même genre. L'objectif est simple : une panne d'un prestataire ne doit jamais devenir une panne de l'assistant.

Deux chemins parallèles de lumière, l'un prenant le relais quand l'autre faiblit
Chaque étage a son moteur de secours, invisible à l'usage.

Pourquoi le push-to-talk, et pas l'interruption

Nous aurions pu viser d'emblée la conversation continue, où l'IA t'interrompt et répond avant la fin de ta phrase. Nous avons choisi l'inverse : un simple appui pour parler, un relâchement pour écouter. Ce n'est pas un manque d'ambition, c'est un calcul. Le marché de la voix temps réel bouge chaque mois ; pré-coder aujourd'hui le full-duplex pour un fournisseur, c'est écrire du code mort dans six mois. Mieux vaut une base sobre et solide, prête à accueillir ce choix au bon moment.

La latence qu'on accepte, celle qu'on refuse

Tout l'enjeu est là : quelle attente est tolérable. Une à deux secondes pour une réponse réfléchie, c'est acceptable — c'est même rassurant, ça signale que l'assistant pense. Ce que nous refusons, c'est l'attente subie : un échec silencieux, une voix qui ne vient jamais. La sobriété du pipeline est précisément ce qui nous laisse maîtriser cette frontière.

À lire ensuite
Le temps réel, sans rechargementD'où vient l'idée d'une mémoire qui range à ta place