Un approccio GraphRAG per la consultazione della letteratura su cambiamento climatico e patrimonio artistico‑culturale
by
Sala Venturi
CNAF
Il progetto svolto presso CNAF-INFN (Bologna) ha mirato a sviluppare un prototipo di sistema GraphRAG per supportare la consultazione di articoli scientifici sull’impatto del cambiamento climatico sul patrimonio artistico-culturale. È stato costruito un dataset mediante scraping e interrogazione delle API di Scopus e Web of Science, selezionando i contributi più pertinenti secondo protocollo PRISMA. Gli abstract sono stati pre-processati (pulizia e normalizzazione del testo, tokenizzazione, rimozione di stopword e lemmatizzazione) e analizzati con diversi approcci di topic modeling, valutati tramite metriche di coerenza e tempi di addestramento; la soluzione adottata è stata LDA con $k = 5$ topic. Sulla base delle distribuzioni topic-documento è stato costruito un grafo di similarità tra articoli (cosine similarity $> 0.85$) e sono state individuate comunità mediante HDBSCAN, rappresentate tramite il proprio medoide (nodo che più si avvicina al centroide teorico). La struttura ottenuta consente di selezionare la comunità più pertinente rispetto a una query ed eseguire retrieval locale nel sottografo, integrando query expansion via LLM ed embedding (all-mpnet-base-v2) per generare risposte contestualizzate e supportate dai documenti recuperati.