NeuraScope embarque un système d'apprentissage à 4 couches qu'on appelle Wisdom. La conversation alimente la mémoire, le scoring pondère les recalls, les vérités validées s'auto-apprennent, le nudge reformule la question avant qu'elle n'atteigne le LLM. L'idée : que l'IA devienne plus pertinente avec le temps, pas seulement plus rapide.
Le système était fonctionnel depuis avril 2026. Mais "fonctionnel" ne veut pas dire "mesuré". On n'avait aucun chiffre publiable sur la qualité réelle du recall. Wisdom était une boîte noire.
Mesurer avant d'optimiser
On a implémenté un benchmark complet sur le dataset académique LongMemEval, publié à ICLR 2025 par des chercheurs de UCLA et Tencent AI Lab. C'est le benchmark de référence pour évaluer la mémoire long terme des assistants conversationnels. Le paper original montre que les meilleurs retrievers atteignent 72 à 76% de R@5 sur le variant M (500 sessions par utilisateur), et que même les LLM les plus performants (GPT-4o) subissent une chute de 30 à 60% de précision sur ce dataset.
Le benchmark télécharge le dataset public depuis HuggingFace, crée un environnement de test isolé (tenant dédié, collection vectorielle séparée, aucune pollution des données de production), ingère les sessions conversationnelles du dataset, puis interroge le système de mémoire sur 50 questions de test.
Trois métriques standard du retrieval sont mesurées :
Métrique | Ce qu'elle mesure |
|---|---|
R@5 | La bonne information est-elle dans les 5 premiers résultats retournés ? |
R@10 | La bonne information est-elle dans les 10 premiers résultats ? |
MRR | À quelle position arrive le premier résultat pertinent ? (1.0 = toujours en première position) |
Résultats en production
Le bench a été exécuté sur le serveur de production, sur plusieurs paliers progressifs pour mesurer comment le recall évolue quand le volume de mémoire augmente.
Sessions / utilisateur | R@5 | R@10 | MRR |
|---|---|---|---|
5 sessions | 100% | 100% | 0.990 |
10 sessions | 100% | 100% | 0.990 |
20 sessions | 100% | 100% | 0.984 |
50 sessions | 94% | 98% | 0.936 |
LongMemEval paper (ICLR 2025) | 72-76%* | - | - |
* Meilleurs retrievers (Contriever + fact expansion) sur le variant M (500 sessions), setup plus exigeant que le notre.
100% de recall sur toute la zone d'usage réelle, de 5 à 20 sessions par utilisateur. L'information pertinente est retrouvée dans les 5 premiers résultats à chaque fois, avec un MRR supérieur à 0.98. Même à 50 sessions par utilisateur, un cas théorique que l'architecture empêche en production, le recall reste à 94% en R@5 et 98% en R@10.
Ce que le benchmark a vraiment révélé
Les chiffres de recall sont bons. Mais le vrai apport du benchmark, c'est ce qu'il a découvert en chemin.
Le système Wisdom de NeuraScope a 4 couches : Memory (conversations brutes), Truth (règles validées par modération), Scoring (pondération par feedback utilisateur), Nudge (reformulation de la question). Chaque couche était codée et livrée. Aucune n'avait été mesurée en conditions réelles.
Le bench et l'audit du code ont mis en lumière 5 problèmes latents :
Problème | Impact |
|---|---|
Nudge lisait des champs inexistants | Le service de reformulation interrogeait la mémoire mais cherchait les résultats dans des champs qui n'existaient pas. Retour silencieusement vide. Le nudge fonctionnait sans contexte mémoire. |
Sessions jamais fermées | 199 conversations « actives » accumulées pour un seul utilisateur. Sidebar polluée, identifiants de mémoire obsolètes qui ralentissaient le recall. |
Auto-validation bloquée | Compteur de répétition bloqué à 1. L'auto-approbation après 3 occurrences ne pouvait mathématiquement pas se déclencher. La couche Truth ne s'enrichissait pas seule. |
Distillation désactivée | Code livré mais flag à false, aucun caller ne l'utilisait. La mémoire grossissait sans condensation. Pas de couche hiérarchique entre raw et distilled. |
Queue sans worker | Jobs de distillation qui s'empilaient sans être traités. Même activée, la distillation n'aurait rien produit. |
Cinq problèmes. Tous silencieux. Le système Wisdom avait l'air de fonctionner, mais ses couches travaillaient à une fraction de leur capacité. Sans mesure systématique, on ne l'aurait jamais su.
Ce qui a changé
Chaque bug a été corrigé. La distillation est active sur tous les tenants de production. Un nettoyage automatique des sessions inactives tourne chaque nuit. Le nudge lit les bons champs. La couche Truth peut enfin s'enrichir automatiquement. Un rerank LLM optionnel est disponible pour les cas où le recall cosinus pur ne suffirait plus.
Le bench est désormais reproductible : une seule commande mesure le R@5, R@10 et MRR sur n'importe quel palier. Chaque évolution future du système Wisdom sera mesurable. Plus de boîte noire.
Pourquoi le benchmark s'arrête à 20 sessions
L'architecture de NeuraScope isole chaque recall mémoire par trois dimensions cumulées : le tenant, l'utilisateur et le projet. Le scope effectif d'un recall reste mécaniquement dans la zone 5 à 30 conversations, quel que soit le nombre total d'utilisateurs ou de projets sur la plateforme.
Configuration | Scope effectif d'un recall |
|---|---|
1 utilisateur, 1 projet | 10 à 20 conversations actives |
1 utilisateur, 5 projets | 10 à 20 par projet (isolés) |
10 utilisateurs, 1 projet | 10 à 20 par utilisateur (isolés) |
50 utilisateurs, 10 projets | 10 à 20 par couple utilisateur-projet |
Un nettoyage automatique des sessions inactives au-delà de 14 jours garantit que cette zone reste saine. Benchmarker 200 sessions par utilisateur reviendrait à mesurer un cas que l'architecture, l'interface et le nettoyage automatique empêchent de se produire.
Avant et après
Avant : un système d'IA qui apprend de vos conversations. Peut-être.
Après : un système d'IA qui apprend de vos conversations. Et on a les chiffres pour le prouver.
Le benchmark n'a pas prouvé que Wisdom est parfait. Il a prouvé qu'on peut désormais savoir si Wisdom marche, et que chaque évolution future sera mesurable.