Patrimoine Numérique · Pipeline de Données · Recherche

INTELLIV — Patrimoine Littéraire Roumain

Une plateforme numérique intelligente offrant un accès structuré aux collections de référence académiques du patrimoine littéraire roumain — construite à partir d'exports bruts InDesign jusqu'à la découverte alimentée par Elasticsearch sur de multiples corpus.

Le Défi

Des siècles d'érudition littéraire enfermés dans l'imprimé.

Le Problème

Les ouvrages de référence académiques en études littéraires roumaines n'existaient qu'en publications imprimées et fichiers InDesign — sans accès numérique unifié, sans workflow éditorial, sans moyen de rechercher ou mettre à jour de manière collaborative. Du contenu riche incluant texte formaté, images et bibliographies nécessitait une préservation.

Notre Solution

Un pipeline de données complet : scraper les exports HTML InDesign, extraire les champs sémantiques via le mappage de classes CSS, sérialiser en JSONL, indexer en masse dans Elasticsearch, et servir via un backend FastAPI avec frontend admin React — supportant l'édition collaborative, le journal d'audit et la recherche multi-corpus.

Fonctionnalités Clés

Du HTML brut à l'érudition.

◈

Pipeline d'Extraction de Données

Scraper BeautifulSoup4 mappant les classes CSS aux champs sémantiques, reconstruisant le texte hiérarchique à partir de HTML plat et extrayant les références d'images.

⟨/⟩

Recherche Multi-Corpus

Recherche plein texte Elasticsearch sur plus de 5 corpus (ELIV, CLRV, HLRV, TLVR, DCLR) avec gestion des diacritiques roumains et navigation alphabétique.

◲

Édition de Texte Enrichi

CKEditor5 et React-Quill pour l'édition collaborative d'entrées académiques avec gestion d'images, légendes et préservation du formatage.

⬡

Navigation Chronologique

Navigation basée sur la chronologie pour les corpus historiques (DCLR), navigation alphabétique A-Z incluant les lettres spécifiques roumaines (Ă, Â, Î, Ș, Ț).

☁

Journal d'Audit

Piste d'audit complète de toutes les modifications — qui a changé quoi, quand, depuis quelle IP — maintenant l'intégrité académique dans les workflows collaboratifs.

⟲

Support Bilingue

Interface en roumain et anglais avec permissions basées sur les rôles garantissant que seuls les chercheurs autorisés peuvent modifier les entrées.

INTELLIV — Patrimoine Littéraire Roumain

Des siècles d'érudition littéraire enfermés dans l'imprimé.

Le Problème

Notre Solution

Du HTML brut à l'érudition.

Pipeline d'Extraction de Données

Recherche Multi-Corpus

Édition de Texte Enrichi

Navigation Chronologique

Journal d'Audit

Support Bilingue

Du pipeline à la plateforme.

Pipeline de Données

Recherche

Backend

Frontend

Vous avez un défi similaire ?