Qu'est-ce que NEURASCOPE ?

NEURASCOPE est une plateforme SaaS d'intelligence artificielle souveraine qui permet d'orchestrer des workflows IA, d'utiliser des multi-agents collaboratifs, et d'intégrer des LLM français comme Mistral.

Les données sont-elles hébergées en France ?

Oui, toutes les données sont hébergées en France sur des serveurs souverains. Nous sommes 100% RGPD compliant.

Quels modèles IA sont disponibles ?

NEURASCOPE inclut Mistral par défaut (modèle français). Vous pouvez également connecter OpenAI, Anthropic Claude, ou vos propres modèles MLX locaux.

NEURASCOPE est-il conforme au RGPD ?

Oui. NEURASCOPE est 100% conforme RGPD. Toutes les données sont hébergées en France sur des serveurs souverains. Aucune donnée ne transite par des serveurs américains. Les données sont chiffrées au repos et en transit.

Quelle est la différence entre NEURASCOPE et ChatGPT ?

NEURASCOPE est une plateforme IA souveraine hébergée en France, conçue pour les entreprises. Contrairement à ChatGPT, vos données restent en France, vous bénéficiez de workflows automatisés, de multi-agents collaboratifs, d'une mémoire persistante par projet, et d'un RAG connecté à vos documents internes.

NEURASCOPE peut-il se connecter à mes documents internes ?

Oui, grâce au module NeuraRAG. Vous pouvez importer vos documents (PDF, Word, Excel, etc.) dans une base de connaissances vectorielle. L'IA interroge ensuite vos documents pour fournir des réponses sourcées et contextualisées.

Combien coûte NEURASCOPE ?

NEURASCOPE propose un plan Starter gratuit pour découvrir la plateforme. Les plans payants (Pro, Business, Enterprise) sont disponibles avec engagement mensuel ou annuel. Consultez la page Tarifs pour le détail des offres et fonctionnalités incluses.

Peut-on utiliser ses propres modèles IA avec NEURASCOPE ?

Oui. NEURASCOPE supporte Mistral (modèle français par défaut), mais aussi OpenAI GPT, Anthropic Claude, et vos propres modèles MLX déployés localement. Vous gardez le contrôle total sur le choix du modèle.

Qu'est-ce qu'un workflow IA dans NEURASCOPE ?

Un workflow IA est une chaîne d'actions automatisées construite visuellement (no-code) dans le module NeuraFlow. Vous pouvez enchaîner des étapes : analyse de document, génération de contenu, envoi d'email, appel API externe, etc. Le tout orchestré par l'IA.

NEURASCOPE est-il adapté aux PME ?

Oui, NEURASCOPE a été conçu spécifiquement pour les PME et ETI françaises qui veulent intégrer l'IA sans dépendre des GAFAM. Le plan Starter gratuit et l'interface no-code permettent un démarrage rapide sans compétences techniques.

Wisdom : benchmark mémoire IA sur LongMemEval (ICLR 2025)

NeuraScope embarque un système d'apprentissage à 4 couches qu'on appelle Wisdom. La conversation alimente la mémoire, le scoring pondère les recalls, les vérités validées s'auto-apprennent, le nudge reformule la question avant qu'elle n'atteigne le LLM. L'idée : que l'IA devienne plus pertinente avec le temps, pas seulement plus rapide.

Le système était fonctionnel depuis avril 2026. Mais "fonctionnel" ne veut pas dire "mesuré". On n'avait aucun chiffre publiable sur la qualité réelle du recall. Wisdom était une boîte noire.

Mesurer avant d'optimiser

On a implémenté un benchmark complet sur le dataset académique LongMemEval, publié à ICLR 2025 par des chercheurs de UCLA et Tencent AI Lab. C'est le benchmark de référence pour évaluer la mémoire long terme des assistants conversationnels. Le paper original montre que les meilleurs retrievers atteignent 72 à 76% de R@5 sur le variant M (500 sessions par utilisateur), et que même les LLM les plus performants (GPT-4o) subissent une chute de 30 à 60% de précision sur ce dataset.

Le benchmark télécharge le dataset public depuis HuggingFace, crée un environnement de test isolé (tenant dédié, collection vectorielle séparée, aucune pollution des données de production), ingère les sessions conversationnelles du dataset, puis interroge le système de mémoire sur 50 questions de test.

Trois métriques standard du retrieval sont mesurées :

Métrique	Ce qu'elle mesure
R@5	La bonne information est-elle dans les 5 premiers résultats retournés ?
R@10	La bonne information est-elle dans les 10 premiers résultats ?
MRR	À quelle position arrive le premier résultat pertinent ? (1.0 = toujours en première position)

Résultats en production

Le bench a été exécuté sur le serveur de production, sur plusieurs paliers progressifs pour mesurer comment le recall évolue quand le volume de mémoire augmente.

Sessions / utilisateur	R@5	R@10	MRR
5 sessions	100%	100%	0.990
10 sessions	100%	100%	0.990
20 sessions	100%	100%	0.984
50 sessions	94%	98%	0.936
LongMemEval paper (ICLR 2025)	72-76%*	-	-

* Meilleurs retrievers (Contriever + fact expansion) sur le variant M (500 sessions), setup plus exigeant que le notre.

100% de recall sur toute la zone d'usage réelle, de 5 à 20 sessions par utilisateur. L'information pertinente est retrouvée dans les 5 premiers résultats à chaque fois, avec un MRR supérieur à 0.98. Même à 50 sessions par utilisateur, un cas théorique que l'architecture empêche en production, le recall reste à 94% en R@5 et 98% en R@10.

Ce que le benchmark a vraiment révélé

Les chiffres de recall sont bons. Mais le vrai apport du benchmark, c'est ce qu'il a découvert en chemin.

Le système Wisdom de NeuraScope a 4 couches : Memory (conversations brutes), Truth (règles validées par modération), Scoring (pondération par feedback utilisateur), Nudge (reformulation de la question). Chaque couche était codée et livrée. Aucune n'avait été mesurée en conditions réelles.

Le bench et l'audit du code ont mis en lumière 5 problèmes latents :

Problème	Impact
Nudge lisait des champs inexistants	Le service de reformulation interrogeait la mémoire mais cherchait les résultats dans des champs qui n'existaient pas. Retour silencieusement vide. Le nudge fonctionnait sans contexte mémoire.
Sessions jamais fermées	199 conversations « actives » accumulées pour un seul utilisateur. Sidebar polluée, identifiants de mémoire obsolètes qui ralentissaient le recall.
Auto-validation bloquée	Compteur de répétition bloqué à 1. L'auto-approbation après 3 occurrences ne pouvait mathématiquement pas se déclencher. La couche Truth ne s'enrichissait pas seule.
Distillation désactivée	Code livré mais flag à false, aucun caller ne l'utilisait. La mémoire grossissait sans condensation. Pas de couche hiérarchique entre raw et distilled.
Queue sans worker	Jobs de distillation qui s'empilaient sans être traités. Même activée, la distillation n'aurait rien produit.

Cinq problèmes. Tous silencieux. Le système Wisdom avait l'air de fonctionner, mais ses couches travaillaient à une fraction de leur capacité. Sans mesure systématique, on ne l'aurait jamais su.

Ce qui a changé

Chaque bug a été corrigé. La distillation est active sur tous les tenants de production. Un nettoyage automatique des sessions inactives tourne chaque nuit. Le nudge lit les bons champs. La couche Truth peut enfin s'enrichir automatiquement. Un rerank LLM optionnel est disponible pour les cas où le recall cosinus pur ne suffirait plus.

Le bench est désormais reproductible : une seule commande mesure le R@5, R@10 et MRR sur n'importe quel palier. Chaque évolution future du système Wisdom sera mesurable. Plus de boîte noire.

Pourquoi le benchmark s'arrête à 20 sessions

L'architecture de NeuraScope isole chaque recall mémoire par trois dimensions cumulées : le tenant, l'utilisateur et le projet. Le scope effectif d'un recall reste mécaniquement dans la zone 5 à 30 conversations, quel que soit le nombre total d'utilisateurs ou de projets sur la plateforme.

Configuration	Scope effectif d'un recall
1 utilisateur, 1 projet	10 à 20 conversations actives
1 utilisateur, 5 projets	10 à 20 par projet (isolés)
10 utilisateurs, 1 projet	10 à 20 par utilisateur (isolés)
50 utilisateurs, 10 projets	10 à 20 par couple utilisateur-projet

Un nettoyage automatique des sessions inactives au-delà de 14 jours garantit que cette zone reste saine. Benchmarker 200 sessions par utilisateur reviendrait à mesurer un cas que l'architecture, l'interface et le nettoyage automatique empêchent de se produire.

Avant et après

Avant : un système d'IA qui apprend de vos conversations. Peut-être.

Après : un système d'IA qui apprend de vos conversations. Et on a les chiffres pour le prouver.

Le benchmark n'a pas prouvé que Wisdom est parfait. Il a prouvé qu'on peut désormais savoir si Wisdom marche, et que chaque évolution future sera mesurable.

Wisdom, le système d'apprentissage de NeuraScope : comment un benchmark a révélé ce qu'on ne voyait pas

Mesurer avant d'optimiser

Résultats en production

Ce que le benchmark a vraiment révélé

Ce qui a changé

Pourquoi le benchmark s'arrête à 20 sessions

Avant et après

Restez informé sur l'IA souveraine

Articles similaires

Des widgets interactifs dans l'espace conversationnel : quand l'IA affiche des interfaces métier en temps réel

31 000 bannissements automatiques : comment NeuraScope intègre CrowdSec pour protéger une plateforme IA dès le premier jour

NeuraScope On Premise : une architecture IA souveraine déployable dans votre infrastructure

Restez informé

Wisdom, le système d'apprentissage de NeuraScope : comment un benchmark a révélé ce qu'on ne voyait pas

Mesurer avant d'optimiser

Résultats en production

Ce que le benchmark a vraiment révélé

Ce qui a changé

Pourquoi le benchmark s'arrête à 20 sessions

Avant et après

Restez informé sur l'IA souveraine

Articles similaires

Des widgets interactifs dans l'espace conversationnel : quand l'IA affiche des interfaces métier en temps réel

31 000 bannissements automatiques : comment NeuraScope intègre CrowdSec pour protéger une plateforme IA dès le premier jour

NeuraScope On Premise : une architecture IA souveraine déployable dans votre infrastructure

Restez informé

Nous utilisons des cookies

Gestion des cookies