Simone Cansella

← Tutti i lavori

Fides et Ratio: recupero e pubblicazione di un corpus di 6000 documenti

Cliente:
fides-et-ratio.it (corpus prof. Francesco Lamendola)
Settore:
Editoria, archivio digitale, terzo settore culturale
Intervento:
Recupero corpus, pulizia, classificazione assistita da LLM, pubblicazione web
Anno:
2023
Stack: Python (pulizia e conversione) · Markdown (formato canonico) · LLM (classificazione) · WordPress (pubblicazione)

Contesto

Il prof. Francesco Lamendola ha prodotto in venticinque anni un corpus di circa seimila documenti, conservati come file Word. Stratificazioni di formattazione diverse, intestazioni inconsistenti, metadati assenti o irregolari, nessuna tassonomia condivisa. Il rischio era quello di perdere un corpus organico in un archivio inutilizzabile.

Il problema reale

Salvaguardare il corpus, renderlo navigabile per chi lo cerca, e farlo entro un budget contenuto pensato per un progetto del terzo settore culturale. Tre problemi distinti che andavano trattati nello stesso passaggio: pulizia, classificazione, pubblicazione.

La scelta

Pipeline in tre stadi.

Primo stadio, pulizia. Estrazione del testo dai documenti Word, normalizzazione di formattazione e codifica caratteri, riconoscimento e separazione dei metadati ricorrenti (titolo, data, eventuale fonte) dal corpo del testo, conversione in Markdown come formato canonico portabile.

Secondo stadio, classificazione. Definizione di una tassonomia di categorie e tag coerente con la struttura tematica del corpus, applicata massivamente con l’aiuto degli LLM. È stato un uso degli LLM precoce per il 2023, quando l’integrazione di questi modelli in pipeline di classificazione documentale era ancora poco diffusa, e ha reso possibile in giorni un lavoro che a mano avrebbe richiesto mesi.

Terzo stadio, pubblicazione. Sito web su WordPress, dimensionato sul budget reale del progetto, con import del corpus completo come archivio navigabile per categoria e tag.

Risultato

Il corpus è online, integro, ricercabile, classificato. È a disposizione dei lettori interessati e protetto da una pubblicazione che ne garantisce la persistenza al di là del file system locale di provenienza. Il sito è visibile su fides-et-ratio.it.