Actualités produit

Wisdom, le système d'apprentissage de NeuraScope : comment un benchmark a révélé ce qu'on ne voyait pas

Georges Garnier
Auteur
06 May 2026
5 min de lecture
6 vues
Wisdom, le système d'apprentissage de NeuraScope : comment un benchmark a révélé ce qu'on ne voyait pas

NeuraScope embarque un système d'apprentissage à 4 couches qu'on appelle Wisdom. La conversation alimente la mémoire, le scoring pondère les recalls, les vérités validées s'auto-apprennent, le nudge reformule la question avant qu'elle n'atteigne le LLM. L'idée : que l'IA devienne plus pertinente avec le temps, pas seulement plus rapide.

Le système était fonctionnel depuis avril 2026. Mais "fonctionnel" ne veut pas dire "mesuré". On n'avait aucun chiffre publiable sur la qualité réelle du recall. Wisdom était une boîte noire.

Mesurer avant d'optimiser

On a implémenté un benchmark complet sur le dataset académique LongMemEval, publié à ICLR 2025 par des chercheurs de UCLA et Tencent AI Lab. C'est le benchmark de référence pour évaluer la mémoire long terme des assistants conversationnels. Le paper original montre que les meilleurs retrievers atteignent 72 à 76% de R@5 sur le variant M (500 sessions par utilisateur), et que même les LLM les plus performants (GPT-4o) subissent une chute de 30 à 60% de précision sur ce dataset.

Le benchmark télécharge le dataset public depuis HuggingFace, crée un environnement de test isolé (tenant dédié, collection vectorielle séparée, aucune pollution des données de production), ingère les sessions conversationnelles du dataset, puis interroge le système de mémoire sur 50 questions de test.

Trois métriques standard du retrieval sont mesurées :

Métrique

Ce qu'elle mesure

R@5

La bonne information est-elle dans les 5 premiers résultats retournés ?

R@10

La bonne information est-elle dans les 10 premiers résultats ?

MRR

À quelle position arrive le premier résultat pertinent ? (1.0 = toujours en première position)

Résultats en production

Le bench a été exécuté sur le serveur de production, sur plusieurs paliers progressifs pour mesurer comment le recall évolue quand le volume de mémoire augmente.

Sessions / utilisateur

R@5

R@10

MRR

5 sessions

100%

100%

0.990

10 sessions

100%

100%

0.990

20 sessions

100%

100%

0.984

50 sessions

94%

98%

0.936

LongMemEval paper (ICLR 2025)

72-76%*

-

-

* Meilleurs retrievers (Contriever + fact expansion) sur le variant M (500 sessions), setup plus exigeant que le notre.

100% de recall sur toute la zone d'usage réelle, de 5 à 20 sessions par utilisateur. L'information pertinente est retrouvée dans les 5 premiers résultats à chaque fois, avec un MRR supérieur à 0.98. Même à 50 sessions par utilisateur, un cas théorique que l'architecture empêche en production, le recall reste à 94% en R@5 et 98% en R@10.

Ce que le benchmark a vraiment révélé

Les chiffres de recall sont bons. Mais le vrai apport du benchmark, c'est ce qu'il a découvert en chemin.

Le système Wisdom de NeuraScope a 4 couches : Memory (conversations brutes), Truth (règles validées par modération), Scoring (pondération par feedback utilisateur), Nudge (reformulation de la question). Chaque couche était codée et livrée. Aucune n'avait été mesurée en conditions réelles.

Le bench et l'audit du code ont mis en lumière 5 problèmes latents :

Problème

Impact

Nudge lisait des champs inexistants

Le service de reformulation interrogeait la mémoire mais cherchait les résultats dans des champs qui n'existaient pas. Retour silencieusement vide. Le nudge fonctionnait sans contexte mémoire.

Sessions jamais fermées

199 conversations « actives » accumulées pour un seul utilisateur. Sidebar polluée, identifiants de mémoire obsolètes qui ralentissaient le recall.

Auto-validation bloquée

Compteur de répétition bloqué à 1. L'auto-approbation après 3 occurrences ne pouvait mathématiquement pas se déclencher. La couche Truth ne s'enrichissait pas seule.

Distillation désactivée

Code livré mais flag à false, aucun caller ne l'utilisait. La mémoire grossissait sans condensation. Pas de couche hiérarchique entre raw et distilled.

Queue sans worker

Jobs de distillation qui s'empilaient sans être traités. Même activée, la distillation n'aurait rien produit.

Cinq problèmes. Tous silencieux. Le système Wisdom avait l'air de fonctionner, mais ses couches travaillaient à une fraction de leur capacité. Sans mesure systématique, on ne l'aurait jamais su.

Ce qui a changé

Chaque bug a été corrigé. La distillation est active sur tous les tenants de production. Un nettoyage automatique des sessions inactives tourne chaque nuit. Le nudge lit les bons champs. La couche Truth peut enfin s'enrichir automatiquement. Un rerank LLM optionnel est disponible pour les cas où le recall cosinus pur ne suffirait plus.

Le bench est désormais reproductible : une seule commande mesure le R@5, R@10 et MRR sur n'importe quel palier. Chaque évolution future du système Wisdom sera mesurable. Plus de boîte noire.

Pourquoi le benchmark s'arrête à 20 sessions

L'architecture de NeuraScope isole chaque recall mémoire par trois dimensions cumulées : le tenant, l'utilisateur et le projet. Le scope effectif d'un recall reste mécaniquement dans la zone 5 à 30 conversations, quel que soit le nombre total d'utilisateurs ou de projets sur la plateforme.

Configuration

Scope effectif d'un recall

1 utilisateur, 1 projet

10 à 20 conversations actives

1 utilisateur, 5 projets

10 à 20 par projet (isolés)

10 utilisateurs, 1 projet

10 à 20 par utilisateur (isolés)

50 utilisateurs, 10 projets

10 à 20 par couple utilisateur-projet

Un nettoyage automatique des sessions inactives au-delà de 14 jours garantit que cette zone reste saine. Benchmarker 200 sessions par utilisateur reviendrait à mesurer un cas que l'architecture, l'interface et le nettoyage automatique empêchent de se produire.

Avant et après

Avant : un système d'IA qui apprend de vos conversations. Peut-être.

Après : un système d'IA qui apprend de vos conversations. Et on a les chiffres pour le prouver.

Le benchmark n'a pas prouvé que Wisdom est parfait. Il a prouvé qu'on peut désormais savoir si Wisdom marche, et que chaque évolution future sera mesurable.

Restez informé sur l'IA souveraine

Recevez nos analyses, guides pratiques et actualités IA directement dans votre boîte mail.

Pas de spam. Désinscription en un clic.