Classificare per i cittadini. Il motore di ricerca a faccette della Pubblica Amministrazione piemontese.


Maria Elisabetta LAI1, David MANFRIN2


1 CSI-Piemonte (Torino, Italia), mariaelisabetta.lai@csi.it

2 CSI-Piemonte (Torino, Italia), david.manfrin@csi.it



Abstract

La realizzazione del motore di ricerca della PA piemontese risponde alla necessità di aumentare la reperibilità delle informazioni e dei servizi presenti in rete allo scopo di agevolarne e incrementarne la fruizione da parte di cittadini e imprese.

Il motore intende offrire una soluzione innovativa attraverso l’adozione della classificazione a faccette nell’impianto tassonomico e l’utilizzo di classificatori automatici per l’attribuzione dei contenuti web alla tassonomia individuata.

La progettazione, fondata sul metodo dello User Centered Design, ha coinvolto campioni di utenti fin dalle prime fasi.


Keywords: motore di ricerca, classificazione a faccette, servizi della pubblica amministrazione, reperibilità dell’informazione, progettazione utente – centrica, classificatori semantici.


Introduzione

I cittadini e le imprese che scelgono la Rete per interagire con la Pubblica Amministrazione in modo pratico e veloce hanno bisogno di strumenti per la ricerca che, oltre all’efficienza dei risultati, garantiscano un elevato grado di usabilità e agevolino il reperimento di servizi telematici e contenuti informativi all’interno di un’offerta, quella del web pubblico, in cui può risultare problematico orientarsi.


Il panorama del web istituzionale piemontese, anche per effetto dell’incessante pubblicazione di servizi on line incentivati dal piano di e-gov regionale (REGIONE PIEMONTE 2001), è “difficile da conoscere” perché in continua evoluzione e perché parcellizzato in una miriade di siti che costringono gli utenti a ricordare decine di indirizzi web diversi.

Nel 2004 il CSI-Piemonte1, nell’ambito dell’evoluzione del portale territoriale Sistema Piemonte2, ha avviato la realizzazione di un motore di ricerca specializzato in argomenti inerenti la Pubblica Amministrazione con l’intento di proporre una soluzione innovativa alla questione della “reperibilità” di informazioni e servizi pubblicati in rete dagli Enti pubblici piemontesi.


Il motore si basa su una tassonomia a faccette e sull’utilizzo di classificatori semantici automatici capaci di ricondurre i contenuti on line alla tassonomia individuata.

La classificazione a faccette è stata adottata innanzitutto per superare i limiti delle tassonomie tradizionalmente utilizzate sui siti degli Enti pubblici e per proporre, attraverso un approccio multidimensionale, molteplici chiavi di accesso alle informazioni nel rispetto delle esigenze e delle aspettative degli utenti.

L’introduzione del classificatore automatico è resa necessaria dall’ampiezza dei domini da analizzare e dall’impossibilità di tenere sotto controllo gli aggiornamenti in tempo reale da parte della redazione.

Il motore prevede differenti modalità di ricerca per consentire agli utenti di adottare le strategie più consone alle abitudini e al grado di conoscenza degli argomenti.

Accanto alla tradizionale ricerca per parole chiave, infatti, grazie ai risultati delle classificazione multidimensionale a faccette fornita dal classificatore automatico, è possibile effettuare ricerche direttamente sulla tassonomia, seguendo un percorso di navigazione a discesa sull’albero delle faccette.

La ricerca attraverso l’esplorazione della tassonomia ha lo scopo di agevolare quegli utenti che si accostano al contenuto informativo di un sito senza avere un’idea chiara di ciò che vogliono o possono trovarvi, e che quindi - in una prospettiva esplorativa - gradiscono poter “dare uno sguardo” a ciò che è disponibile.DA SPOSTAREDA SPOSTARE


Inoltre il motore si avvale del vocabolario controllato, che ha lo scopo di allargare il dominio di ricerca e di introdurre un livello interpretativo.


La tassonomia

Gli spunti per la tassonomia sono venuti da più fronti.


Dal punto di vista teorico è stato fondamentale l’apporto dell’ambito biblioteconomico (Gnoli 2003; Rosati 2003; MArino 2004) che ha recuperato la metodologia della classificazione a faccette proponendola come strumento efficace negli ambienti digitali.

Dal punto di vista pratico ha influito l’analisi di siti e motori di ricerca3 che sfruttano un approccio multidimensionale.


Infine dal punto di vista normativo, hanno influito le indicazioni del CNIPA (CNIPA 2005) in merito alla opportunità di classificare, oltre che per area tematica, anche per tipologia.


Il modello di riferimento è rappresentato dalle categorie standard per la classificazione a faccette stabilite dal CRG (Vickery 1960), rispetto al quale sono state individuate otto faccette adatte alla classificazione dei servizi di comunità, elencate di seguito:


Corrisponde alla faccetta “Oggetti” del CRG. Individua i servizi e i documenti offerti dalla PA piemontese sul web.


Corrisponde alla faccetta “Tipologie” del CRG.

Riprende in maniera piuttosto puntuale il modello degli “eventi della vita” utilizzato sul portale nazionale4 di e-gov; benché ambigua e non esaustiva se adottata in modo esclusivo, è stata integrata nell’ambito della tassonomia perché intuitiva per gli utenti e utile a fornire un ulteriore approccio alla ricerca.


Corrisponde alla faccetta “Proprietà” del CRG. Indica il grado di interattività dei servizi;


Corrisponde alla faccetta “Pazienti” del CRG. Individua i beneficiari dei servizi.


Corrisponde alla faccetta “Agenti” del CRG. Individua il soggetto istituzionale che pubblica i servizi.

Corrisponde alla faccetta “Spazio” del CRG. Indica l’ambito territoriale nel quale il servizio si colloca.


Corrisponde alla faccetta “Tempo” del CRG. Indica l’ambito temporale nel quale il servizio ha validità.


L’analisi di un corpus di oggetti estratti da documenti ufficiali relativi all’e-government o da siti locali ha permesso di stilare un primo elenco di classi relative ad ogni faccetta (foci).

L’attività, svolta da un gruppo di lavoro cui hanno preso parte un architetto dell’informazione (Luca Rosati) e un biblioteconomo (Claudio Gnoli), ha previsto:










Il vocabolario controllato

L’attività di ricerca sulla terminologia ha permesso di abbozzare la struttura del vocabolario controllato, lo strumento utile per colmare il divario lessicale fra utente e classificatore e superare così le difficoltà di comprensione legate all’uso di terminologie specialistiche.


I termini inseriti sono stati selezionati in base a:

Tra le parole inserite dagli utenti e i termini utilizzati per indicare gli elementi della tassonomia è stata stabilita una relazione di equivalenza: in caso di ricerca per parola chiave, a ciascuna espressione inserita corrisponde una ricerca sui termini del vocabolario controllato associati ai foci. I documenti così estratti sono ritenuti altamente significativi e quindi presentati in cima alla lista dei risultati.


Il vocabolario controllato permette inoltre di interpretare espressioni specialistiche.

Ad esempio, “estate ragazzi” viene riconosciuta come una locuzione autonoma che rinvia al focus relativo ai soggiorni estivi: in questo modo non vengono presentati fra i risultati i documenti che contengono la parola “estate” e la parola “ragazzi” senza che fra queste esista una correlazione semantica.



La progettazione dell’interfaccia

La progettazione dell'interfaccia e dell'interazione è stata condotta secondo la metodologia dello UCD (Norman 1986) e ha previsto momenti di studio e di incontro con gli utenti per definire un modello d'uso vicino alle aspettative e ai bisogni degli utilizzatori finali.


Raccolta di documentazione e classificazione dei casi di studio

Durante la fase preliminare sono state effettuate ricerche sulle best practices presenti on line. L'analisi dell'interfaccia e dell'interazione è stata effettuata sui servizi con funzionalità paragonabili a quelle del motore in esame8 e sul progetto Flamenco (FLAMENCO 2004). È stato anche valutato e, in certi casi, predisposto l’utilizzo degli stessi servizi in fase di test con gli utenti.


Interviste strutturate con gli utenti

Il primo momento di interazione con gli utenti è servito a delineare quali sono gli approcci più frequenti di ricerca degli utenti, quali gli strumenti più conosciuti e utilizzati e quali le difficoltà ricorrenti in una ricerca on line.

Le interviste, condotte su un campione di utenti selezionati fra persone che per motivi di lavoro interagiscono con la PA (sia liberi professionisti, sia dipendenti di enti pubblici) hanno indagato le strategie di ricerca preferite dagli utenti e ne hanno verificato le risposte attraverso l’esecuzione di semplici task.


Test con utenti attraverso prototipi interattivi e cartacei

Durante le interviste sono stati proposti prototipi interattivi su cui gli utenti hanno eseguito task utili a verificare le prime scelte progettuali e impostare la struttura dell'interfaccia; per ottenere valutazioni su elementi specifici dell'interfaccia sono stati utilizzati anche prototipi cartacei.


Le risposte, il racconto di episodi tipici di ricerca e la prova pratica sui task proposti hanno prodotto indicazioni generali circa le necessità e le aspettative che gli utenti hanno di fronte a un motore di ricerca.

Le linee guida

L’analisi dei risultati delle interviste con gli utenti ha fornito spunti per l’individuazione di linee guida utili per la progettazione, elencate di seguito:









Le caratteristiche dell’interfaccia

A partire dalla linee guida sono stati elaborati il modello della home page e della pagina dei risultati.


La home page dà evidenza alle principali funzioni di ricerca: il campo per l’inserimento delle parole chiave e il menu di navigazione a faccette.


Occupano una posizione meno rilevante le funzionalità accessorie, quali ad esempio l’indicazione delle ricerche più frequenti nell’arco della settimana (top choice) e i suggerimenti di ricerca sugli argomenti del momento (popular now).

Dalla home page è possibile consultare la guida e accedere all’area per la segnalazione di nuovi servizi alla redazione.


La pagina dei risultati pone al centro l’elenco dei documenti estratti per agevolarne la leggibilità.

La struttura e il look’n’feel prevedono, analogamente alla maggioranza dei motori di ricerca:



Nella colonna di sinistra, per ciascuna faccetta è riportato l’elenco dei foci inerenti all'insieme di risultati; a sua volta ogni focus si presenta come link attivo per consentire ulteriori raffinamenti della ricerca.

È presente anche la funzione per la ricerca fra i risultati.


La soluzione tecnologica

Il sistema prevede la componente di front end dedicata alle funzionalità di ricerca e la componente di back end per il reperimento dei contenuti, la loro classificazione e la costruzione dell’indice.


Il Back End

Esegue le seguenti operazioni:


In relazione alla proprietà semantica delle faccette, si utilizzano classificatori diversi, statistici o simbolici (questi ultimi richiedono la configurazione ad hoc di regole di sintassi e semantica da parte di un linguista).


Il Front End

Attraverso la consultazione dell’indice del corpus documentale fornisce l’elenco dei risultati corrispondenti alla ricerca effettuata dall’utente.

Nel caso di ricerca per parola chiave, il termine inserito dall’utente subisce un processo di normalizzazione e all’analisi morfologica e semantica per l’eventuale associazione ai foci attraverso il vocabolario controllato.

Nel caso in cui la parola digitata non sia presente nel vocabolario, il sistema effettua una ricerca testuale (full text) sul corpus dei documenti.



Bibliografia

(CNIPA 2005) CNIPA – Centro Nazionale per l’Informatica della Pubblica Amministrazione. Monitoraggio dei progetti di e-government fase I – Terzo Rapporto di sintesi. Settembre 2005.


(FLAMENCO 2004) FLAMENCO GROUP. Flamenco technical details [risorsa elettronica]. <http://bailando.sims.berkeley.edu/flamenco-technical.html>, [2004]. [consultato: Giugno 2005].


(Gnoli 2003) Gnoli, Claudio. <<La classificazione come investimento nella qualità dell'informazione>> [risorsa elettronica]. AIB-WEB. Contributi. < http://www.aib.it/aib/contr/gnoli4.htm>. [consultato: Luglio 2004]


(MArino 2004) Marino, Vittorio. <<Classificazioni per il web: i vantaggi dell’adozione di schemi a faccette>> [risorsa elettronica]. AIB-WEB. Contributi. <http://www.aib.it/aib/contr/marino1.htm>. [consultato: Luglio 2004]


(Norman 1986) Norman, Donald A.; Draper, Stephen W. User centered system design: New perspective on human-computer interaction. Erlbaum Associates, 1986.


(REGIONE PIEMONTE 2001) <<Piano di e-government piemontese. Linee Guida >> Aprile 2001. [risorsa elettronica resource]. < http://www.ruparpiemonte.it/e-gov/dwd/egov_piem.pdf >. [consultato: Luglio 2004]


(Rosati 2003) Rosati, Luca. << Per un accesso multidimensionale all'informazione: o della classificazione a faccette >> [risorsa elettronica]. Information Architecture Institute.. < http://iainstitute.org/it/articoli/000204.html>. [consultato: Luglio 2004].


(Vickery 1960) Vickery, Brian C. Faceted classification: a guide to the construction and use of special schemes. London: Aslib, 1960.


Note

1 Il CSI-Piemonte è Consorzio per il Sistema Informativo fondato su iniziativa della Regione Piemonte, dell’Università e del Politecnico di Torino per promuovere l’innovazione della Pubblica Amministrazione locale realizzando servizi e sistemi informativi con l’impiego dei più moderni strumenti informatici e telematici.

2 www.sistemapiemonte.it

3 www.epinions.com, www.epicurious.com, www.wine.com

4 http://www.italia.gov.it/

5 www.comune.torino.it

6 www.sistemapiemonte.it

7 Dizionario italiano Sabatini-Coletti, Lessico di frequenza dell’italiano parlato edito da Tullio De Mauro

8 www.exalead.com, www.siderean.com/fooddemo.jsp

9 www.google.it, www.yahoo.it, www.tiscali.it, www.virgilio.it