Contributions dans différents domaines thématiques
M@gm@ vol.5 n.3 Juillet-Septembre 2007

SOFTWARE PER L’ANALISI QUALITATIVA DEI TESTI

Gevisa La Rocca

gevisa.larocca@futuribile.it
Dottore di ricerca in Sociologia, territorio e sviluppo rurale (Univ. di Palermo); Ha inoltre conseguito il D.E.A. (Diploma de Estudios Avanzados, presso l’Università dell’Extremadura, Spagna); Attualmente collabora con l’Istat all’Indagine Campionaria sulle professioni; All’interno del LabLav - laboratorio sul lavoro e l’impresa della facoltà di Scienze della Comunicazione (Univ. di Roma La Sapienza) si occupa dello studio e delle applicazioni delle tecniche e dei software per l’analisi qualitativa.

1. Metodi e tecniche di ricerca

L’espressione «Metodologia della ricerca» definisce l’insieme delle discipline che insegnano a condurre una buona ricerca empirica nel campo della scienze sociali [Ricolfi 1997]. La ricerca empirica si snoda lungo un suo particolare percorso che vede coinvolti a vario livello i modelli, i concetti, le teorie, le ipotesi, i metodi e le tecniche [Silverman 2000]. I modelli corrispondono, per grandi linee, ai paradigmi; ci dicono com’è la realtà, quali sono i suoi elementi di base e qual è la natura e lo stato della conoscenza. Al secondo livello di questo imbuto conoscitivo risiedono i concetti che derivano dai modelli stessi e sono identificabili come idee definite in modo chiaro. La nostra intuizione, celata dietro la ricerca di un modello, diventa sempre più chiara e operazionalizzabile man mano che attraversiamo i termini di base utilizzati nella ricerca. E’ alla teoria che spetta il compito di fare in modo che insiemi di concetti definiscano e spieghino dei fenomeni.

La teoria diviene il supporto per comprendere il mondo, separata dal mondo oggetto di ricerca ma al contempo su quel mondo stesso proiettata. In questo modo la teoria fornisce una struttura alla quale riferirsi per una comprensione critica del mondo e per organizzare quanto si vuole conoscere. Dalla teoria scaturiscono le ipotesi, che devono essere formulate secondo criteri che ne permettano la controllabilità e la falsificabilità [Popper 1970]. Il metodo definisce il modo secondo il quale si dovrebbe affrontare lo studio dei fenomeni, permettendo all’osservatore di rendere operativi i concetti in uno spazio di ricerca quantitativo o qualitativo.

Scelto il metodo, occorre definire la tecnica di analisi e/o di indagine. I sei livelli che sono stati qui indicati come essenziali nella strutturazione di qualsiasi ricerca empirica ben condotta non ci permettono di distinguere fra approcci e disegni di ricerca differenti, fra spazio della ricerca quantitativa versus spazio della ricerca qualitativa.

Secondo Ricolfi [1997] le ricerche afferenti allo spazio quantitativo si qualificano per almeno tre caratteristiche:
- l’impiego della matrice dati;
- la presenza di definizioni operative dei «modi» della matrice dati (perlopiù casi e variabili);
- l’impiego della statistica o dell’analisi dei dati.

In una costruzione dell’identità per differenza le caratteristiche ascrivibili alla ricerca qualitativa consistono:
- nell’assenza della matrice dati;
- nella non ispezionabilità della base empirica;
- nel carattere informale delle procedure di analisi dei dati.

Privilegiando i percorsi di ricerca qualitativa ed esaminando i tre tratti ad essa attribuiti si nota come il primo e il terzo di questi elementi siano facilmente riscontrabili tanto negli studi etnografici che privilegiano l’osservazione partecipante quanto negli studi di comunità. In ciascuna di queste tradizioni la non ispezionabilità della base empirica discende dalle caratteristiche proprie della ricerca sul campo, per cui fare ricerca sul campo significa mixare osservazione e partecipazione, bilanciare e trovare un punto di equilibrio fra «osservazione partecipante» e «partecipazione osservante» [Ricolfi 1997].

E’ questa una cultura del visivo, in cui il ricercatore deve vedere quanto accade, ma tanto nello spazio culturale quanto nella dimensione qualitativa di analisi esiste un terzium datur. McLuhan [1962] sostiene che l’interiorizzazione dell’alfabeto fonetico traduce l’uomo dal mondo magico dell’orecchio al mondo neutro della vista, il passaggio a una prevalenza di esperienze audio-tattili caratterizza l’occidente a partire dalla rivoluzione prodotta dall’entrata nel nostro emisfero della Galassia Gutenberg.

A partire da questa innovazione tecnologica si produce una differenza sostanziale nella visione del mondo propria di un bambino occidentale da quella di un bambino africano. In un esempio presentato dallo stesso McLuhan, la tecnologia che circonda un bambino occidentale è descritta come essenzialmente visiva, astratta ed esplicita, dove le cose accadano in un tempo e in uno spazio continui e uniformi secondo un’ordinata successione. All’inverso, il bambino africano vive nel mondo magico e implicito della parola risonante [1962, p. 41]. E tuttavia, quando la tecnologia estende uno dei nostri sensi, una nuova traduzione della cultura si verifica con la stessa rapidità con cui la nuova tecnologia viene interiorizzata [ivi, p. 70].

L’entrata nella nostra orbita della Galassia Internet [Castells 2001] produce una fusione tra uditivo e visivo, restituendo il calore dell’eternità di un testo scritto per nulla scevro dalle caratteristiche dell’oralità. Si può ora distinguere nel mondo della ricerca qualitativa, che per Ricolfi [1997] è definito non dall’assenza della statistica ma dal carattere informale delle procedure di analisi, fra ricerche con base empirica non ispezionabile quale la ricerca etnografica - per noi riconducibile ad uno spazio esclusivamente visivo - da una ricerca con base empirica ispezionabile quale la ricerca su base testuale.

Al riparo dalle avversità climatiche prodotte dalla comunità scientifica, sotto l’ombrello di ricerca qualitativa riposano diversi metodi di analisi e tuttavia essi stessi costituiscono l’ossatura dell’ombrello.

Gli assi che qui si considerano sono prevalentemente:
- la Grounded Theory;
- la Content Analysis;
- l’analisi quantitativa del lessico.

Esse sono per noi methodology nell’accezione che Silverman attribuisce ai metodi: «un metodo definisce come si dovrebbe affrontare lo studio dei fenomeni [2000, p. 126]»; ciascuna di esse implica l’uso di specifiche tecniche come strumenti di ricerca.

2. Software e parole

Al di là dell’Amore folle fra analisi del contenuto e computer [Rositi, 1989] la possibilità che la computer aided analysis ci offre macinando una stringa dopo l’altra, individuando, conteggiando, elaborando [ivi, p.107] è di poter trattare, sintetizzare e interpretare testi altrimenti non maneggiabili. I vantaggi che derivano dall’uso dall’analisi dei dati qualitativi mediante computer si possono riassumere in:
- maggiore velocità di manipolazione di una grande quantità di dati;
- miglioramento del rigore scientifico;
- agevolazione della ricerca di gruppo, favorendo un condiviso sviluppo di schemi di classificazione coerenti;
- aiuto nelle decisioni di campionamento [Seale 2000].

Il trattamento automatico dei dati testuali laddove sia stato preceduto da una formulazione di ipotesi e da una ricognizione di un quadro teorico di riferimento ci consente di operare una lettura descrittiva ed interpretativa dei dati, che dà luogo ad una «ermeneutica quantitativa» dei testi [Giuliano 2004].

Esistono diverse tecniche di data analysis. Una delle prime tecniche utilizzabili può essere rappresentata dall’estrazione delle key word in context (KWIC), che mostra quali parole si trovano nel testo e il loro contesto d’uso. Si producono quindi elenchi di parole, e relative concordanze, restituendo un’informazione completa sulla variabilità e la coerenza nel significato e nell’utilizzazione delle parole; inoltre si determina il significato delle parole legandole al contesto o all’idioma utilizzato: questa è un’informazione strutturale sul testo. Attraverso la lista di frequenze di parole si possono invece esaminare le parole di maggior uso. Si possono, anche, creare delle categorie di significato all’interno delle quali classificare le parole contenute nel testo analizzandone la frequenza e quindi la copertura/presenza nel testo da parte della categoria creata [Weber 1990].

Con testi di dimensioni sufficientemente ampie si può passare a una tecnica di analisi fattoriale o multidimensionale, in questo caso si utilizzeranno delle procedure matematiche che riassumono la variazione di molte variabili osservate o misurate traducendole in un numero minore di variabili sottostanti o latenti, chiamate fattori. I software dedicati all’ottenimento di tali output sono diversi e proporne un elenco risulterebbe riduttivo.

Per una ricognizione di quelli più accreditati si consiglia di visitare questi due portali:
- The Content Analysis Guidebook Online, sviluppato dalla Cleveland State University e dalla Sage Pubblications. Il sito propone software per la content analysis, per l’analisi qualitativa, per l’analisi dei video, altri tipi di software e consente l’accesso a risorse bibliografiche e documentarie ;
- Text Analysis info page, sviluppato da Harald Klein Social Science Consulting in Germania. Anche qui è possibile trovare numerose risorse documentarie e informatiche.

I software per l’analisi dei dati qualitativi si possono classificare utilizzando diversi criteri. Per esempio, si può distinguere fra quelli che racchiudono un orientamento alla strumentazione o alla rappresentazione del testo attraverso una classificazione semantica per tematiche, o per network tematici [Popping 1997]. L’opera di definizione delle strumentazioni informatiche utilizzate e utilizzabili è quindi vasta e varia, qui si vuole focalizzare l’attenzione sul legame fra i metodi di analisi qualitativa e le tecniche che da esse discendono. Un software quindi traduce in procedure informatiche un orientamento di analisi sviluppato in un determinato contesto teorico. Il tentativo che si vuole fare è di ricollegare la tecnica racchiusa nelle specifiche operative di un software alla sua architettura logica ancorata a un metodo specifico. L’ancoraggio che si propone è sintetizzato nella figura seguente, dove a un metodo è ricondotta una tecnica.

Fig. 1. – Schema sintetico dei metodi e delle tecniche qualitativi proposti

Nello specifico, dall’analisi ermeneutica si fanno derivare i software che propongono una tecnica definita «classifica e recupera»: l’analista recupera dal testo le informazioni a lui necessarie e le classifica secondo unità di significato da lui create. «Classifica e analizza forme grafiche» sono le operazioni proprie di quei software dedicati alla content analysis in cui il ricercatore compie un’operazione semantica di categorizzazione a partire «anche» dalle forme grafiche e, in ogni caso, in modo non automatico. L’analisi quantitativa del lessico si avvale, invece, di strumenti che consentono «un’analisi lessico testuale» nella quale si utilizza una forte base statistica e si pone attenzione all’aspetto semantico. Infatti, l’analisi automatica dei dati testuali classifica, ma lo fa esclusivamente sulla base delle forme tenendo presente il contesto e, quindi, anche la semantica.

3. Un software per ogni obiettivo di ricerca

L’applicazione di una tecnica piuttosto che un’altra produce, ovviamente, percorsi di ricerca e risultati differenti. Occorre precisare che ciascuna di esse risponde a obiettivi di analisi differenti e richiede testi con caratteristiche diverse. Al fine di illustrare le principali differenze fra gli approcci si presentano brevemente le tre principali tecniche di analisi qualitative: Gruonded Theory, Content Analysis, analysis quantitativa del lessico, considerando l’approccio teorico dal quale discendono, le tecniche di analisi applicabili, i software e gli output che questi producono.

3.1 L’approccio dal basso

Approccio teorico

La Grounded Theory è una teoria sociologica che nasce dai dati sistematicamente ottenuti da una ricerca [Glaser, Strauss 1967; p. 21]. Questa iniziale definizione apre il testo The Discovery of Grounded Theory: Strategies for Qualitative Research, nel quale si legge che per produrre questo «tipo di teoria» non è necessario ricorrere né all’elaborazione statistica di dati o di informazioni raccolte nel corso dell’indagine, né ad un’analisi delle interviste o delle osservazioni usufruendo di un qualsiasi supporto che sia di tipo statistico-matematico [Strati 1997]. La Grounded Theory è infatti tale perché è una teoria che emerge dal basso, dal «suolo» ed è intenzione dichiarata di Glaser e Strauss sottolineare in questo modo – ovvero con la scelta del participio passato del verbo to ground – la sostanziale differenza e lontananza della loro teoria dalla grand theory, con la quale i due studiosi intendono il «grandioso» approccio sviluppato in seno al metodo ipotetico-deduttivo.

La creazione di una teoria generale fondata sulla stratificazione di teorie speciali costituisce l’obiettivo della Grounded Theory. Nella Grounded Theory si trovano due tipi di teorie: «teorie evidenti o reali» (substantive) e «teorie ufficiali o formali» (formal); entrambe possono essere definite come teorie di medio raggio.

Alcune caratteristiche di queste teorie vogliono che:
- emergano entrambe dai dati;
- si trovino ad un livello distinguibile di generalizzazione;
- differiscano fra di loro in termini di gradi di generalizzazione;
- le teorie evidenti o di primo livello costituiscano il link che permette di generare dai dati le teorie ufficiali o di secondo livello [Glaser, Strauss 1967].

Gli elementi di cui si costituiscono le teorie sono le categorie concettuali e le proprietà concettuali delle categorie stesse. Come la categoria è un elemento concettuale proprio di una teoria, così le proprietà sono, a loro volta, aspetti concettuali delle categorie.

Tecnica

La generazione di teorie avviene, soprattutto, avvalendosi del metodo comparativo, il quale può essere applicato su unità di analisi – fenomeni sociali – di diverse dimensioni. La procedura di codifica dei dati consiste - nella sua prima fase - nell’analisi line-by-line di segmenti, parole, paragrafi, porzioni di testo. Questo tipo di micro analisi è necessaria all’inizio dello studio per poter attivare il processo di concettualizzazione e generazione delle categorie e delle loro proprietà. L’analisi «riga per riga» dei dati richiede un dispendio di energie non indifferente ma produce un dettaglio di studio maggiore rispetto a qualsiasi altro tipo di indagine condotta sui dati qualitativi. Secondariamente, i dati qualitativi sono codificati secondo tre modalità distinte:
- la codifica aperta;
- la codifica assiale;
- la codifica selettiva.

La codifica aperta è il processo analitico attraverso il quale i concetti vengono identificati e le loro dimensioni emergono dai dati [Strauss, Corbin 1996; p. 101]. Il cuore della codifica aperta è rappresentato dai concetti; del resto – come sostengono Anselm Strauss e Juliet Corbin – non esiste scienza senza concetti. Open Coding vuol dire quindi «aprire» un testo e far emergere da esso le idee, le forme comunicative che contiene. In questo senso il primo passo di questo approccio è la «concettualizzazione»: un concetto è un fenomeno etichettato (labeled phenomenon) [Strauss, Corbin 1996; p. 103].

Nel processo di concettualizzazione c’è molto dell’astrazione: i dati vengono spezzati in frazioni di avvenimenti, separati gli uni dagli altri e analizzati nella loro unicità. Nell’etichettare il fenomeno il ricercatore può attribuire un proprio nome, una propria etichetta a quanto l’intervistato dice o a quanto emerge da un testo oppure può utilizzare le parole stesse del soggetto; quest’ultimo processo di codifica è spesso definito come «in vivo codes». L’Axial Coding è il processo che collega le categorie alle sub-categorie, collegando le categorie alle proprie proprietà e dimensioni [Strauss, Corbin 1996; p. 123].

Nella codifica aperta si lavora sui concetti che emergono dal testo, nella codifica assiale si lavora sulle relazioni fra categorie e loro dimensioni. Collegare le categorie alle proprie dimensioni è nella pratica molto più semplice di quanto possa sembrare. Strauss e Corbin sottolineano come questa attività sia già in nuce nella codifica aperta. L’ultimo processo di codifica è rappresentato dalla codifica selettiva, che è il processo di integrazione e rifinitura della teoria. La Selective Coding è il momento in cui si individua una categoria principale e si decide di far ruotare attorno a essa l’interpretazione che dei dati si vuole fornire. Anche in questo momento della Grounded Theory è necessario, una volta individuata la categoria, attenersi alla comparazione costante tra questa categoria centrale e le altre o ulteriori elementi che possano emergere dai dati qualitativi.

Centrale in questa fase è l’individuazione della categoria principale, del focus attorno al quale far ruotare la narrazione di quanto trovato. La categoria centrale è quella che appare più di frequente nei dati; ha più connessioni con le altre categorie e la spiegazione/interpretazione che essa fornisce ai dati appare logicamente dagli stessi, non mediante una forzatura. Inoltre, la frase o le parole utilizzate dal ricercatore per indicare questa categoria, quindi il concetto attraverso il quale la si designa, deve porsi a un livello di astrazione tale da poter essere attribuito, senza subire cambiamenti alcuni, sia alla teoria evidente che alla teoria formale. In questo modo si accresce il potere esplicativo della teoria fondata. Attraverso un processo di astrazione e utilizzando i memo che il ricercatore ha man mano prodotto e astraendo l’evento analizzato si individua come categoria principale il «rituale di passaggio».

Software

Si può scegliere di far emergere il significato del testo usufruendo di diversi software. Atlas.ti, reperibile all’indirizzo https://www.atlasti.com/de/, è uno di questi.

Nell’elaborazione del testo le prime operazioni da effettuare consistono:
- nella creazione di un’unità ermeneutica di analisi;
- nell’assegnazione del primary document all’unità;
- nell’apertura del file;
- nella prima codifica del testo.

La prima codifica operabile sul testo è, quindi, la codifica aperta. L’open coding avviene selezionando col cursore del mouse una parte di testo e attribuendo a questo un’etichetta. Cliccando sul tasto destro del mouse è possibile scegliere se creare un open coding, ovvero una nuova categoria, utilizzare la porzione di testo evidenziata come categoria, quindi realizzare un in vivo codes o scegliere da una lista di categorie già create dal ricercatore. Quest’ultima opzione è attiva dopo che si è iniziato a codificare il testo. Si sta, quindi, effettuando una prima lettura del documento e si assiste all’emergere delle categorie. Da questa prima lettura emergono dal testo con forza, oltre alle categorie, gli spunti di riflessione e le suggestioni che possono essere raccolte attraverso il memo; inoltre, la funzione edit comment permette di annotare i commenti, le perplessità, i dubbi sull’attribuzione di alcune porzioni di testo a una o a un’altra categoria. In questa prima fase le categorie che emergono possono essere numerose e a volte i confini fra l’una e l’altra un po’ sfumati.

Per stabilire i legami tra i nodi Atlas.ti ha a disposizione sei differenti tipi di relazioni:
- simmetrica: si stabilisce utilizzando il segno =, cioè «è associato a»;
- transitiva: si stabilisce utilizzando il segno =>, cioè «è causa di», che segnala legami causali e processi;
- transitive: si stabilisce utilizzando il segno [ ], cioè «è parte di» ma anche ricorrendo a isa che sta per «è un», entrambe queste funzioni indicano l’appartenenza di oggetti a diverso livello di astrazione e di legami fra concetti specifici;
- legami contradditori: indicati dal segno <>, definiscono proprietà asimmetriche;
- un elemento di un network è proprietà di un altro referente: indicato dal segno x} [Sofia 2004, p. 127].

Stabiliti i legami tra i nodi occorre decidere che tipo di relazione semantica si vuole istituire tra i codici. Atlas.ti permette di scegliere fra due opzioni:
- un network topologico, che permette di creare una lista di nodi interni al network, dove i nodi sono disposti secondo una relazione di dipendenza semantica, la cui visualizzazione permette di pianificare il progetto delle connessioni tra i nodi;
- un network semantico, che permette di posizionare i nodi nel piano utilizzando l’algoritmo semantico, il quale rende possibile la collocazione dei nodi in una posizione ottimale. Infatti, tale algoritmo consente di allocare i nodi nello spazio secondo la più alta connettività rispetto alle posizioni centrali.

E’ possibile, quindi, operare secondo due criteri diversi: visualizzare le direzioni tra i codici usufruendo del layout topologico – che permette di analizzare la dipendenza semantica tra i codici -, oppure rappresentare le relazioni strutturate mediante il layout topologico ricorrendo al layout semantico.

Fig. 2 - Output di Atlas.ti

3.2 La Content Analysis

Approccio teorico

Il termine Content Analysis è apparso per la prima volta – stando a quanto riferisce Klaus Krippendorff nella sua trattazione della Content Analysis [1980, 2004] – nel 1961 nel Webster’s Dictionary of the English Language. Se per il termine esiste una datazione ufficiale più difficile è capire cosa debba realmente riferirsi sotto la dizione Content Analysis, poiché per «analisi del contenuto» – oggi – comunemente si intendono tutti quegli approcci che, per un verso o per un altro, lavorano sul contenuto di un documento scritto e sull’estrazione di significato da questo. Con i moderni software si potrebbe arrivare a includere sotto quest’ombrello anche il text mining.

Appare chiaro che adottando questa estensione tutti e tre i metodi qui trattati potrebbero riferirsi a questo approccio. Un primo utilizzo della Content Analysis per lo studio dei testi è rappresentato dall’analisi di una raccolta di novanta inni religiosi - i Canti di Sion - voluta dal clero della Chiesa svedese nel XVIII secolo, per evidenziare i contenuti eterodossi della raccolta in oggetto rispetto ai canti ufficiali proposti dalla Chiesa [Krippendorff 1980; Losito 1993; Tuzzi 2003; Sofia 2004].

Nell’approccio allo studio dei testi si identifica anche la modalità di analisi delle lettere dei contadini polacchi condotta da Thomas e Znaniecki [1920] come un metodo di analisi del contenuto. Ma è a partire dagli Anni Venti, con l’opera condotta da Laswell [1927] sull’analisi della propaganda politica attraverso la stampa, che si avvia una sistematizzazione della Content Analysis. A parere di Laswell le ricerche del tempo erano deboli da un punto di vista metodologico perché non esplicitavano le procedure di campionamento, di selezione del materiale, di costruzione degli indicatori; invece, un’analisi quantitativa ben gestita avrebbe potuto rassicurare da un punto di vista della certezza dei risultati [Tuzzi 2003]. Già Holsti [1968] aveva definito la Content Analysis come l’analisi di qualsiasi tipo di comunicazione, sia essa un giornale, un diario o una novella, ma con Laswell [1979] si ha un’estensione della definizione di Content Analysis a metodologia basata sulla «semantica quantitativa» da applicare a qualsiasi tipo di ricerca che si proponga di studiare i contenuti di un messaggio.

E’ nell’opera dei padri di questo approccio, quali Laswell, Berelson e Krippendorff, che è vivo l’intento di una sua sistematizzazione metodologica e di una sua esaustiva definizione; per Berelson essa «(…) è una tecnica di ricerca capace di descrivere in modo obiettivo, sistematico e quantitativo il contenuto manifesto della comunicazione [Berelson 1952, p. 18]». Difficile risulta però riuscire a distinguere cosa sia il contenuto manifesto e il contenuto latente di una comunicazione. Il primo è definito da Berelson come il «comune terreno d’incontro» per chi comunica, per chi riceve la comunicazione e per l’analista (rispetto al legame proposto da Holsti fra Content Analysis e paradigma della comunicazione, qui si inserisce un osservatore esterno: il ricercatore); l’analista, in questo caso, assume che i «significati» che egli ascrive al contenuto, riducendolo all’interno di certe categorie da lui create, corrispondano ai «significati» intesi da chi comunica (l’emittente) e da chi poi li riceve [Berelson 1952]. Si assiste ad un’opera di continuità nel «viaggio» del contenuto del messaggio dall’emittente, al ricevente, all’analista.

Tecnica

Esistono diversi tipi di declinazioni di Content Analysis:
- l’analisi del contenuto quantitativa;
- l’analisi del contenuto come inchiesta;
- l’analisi del discorso o proposizionale [Losito 1993, Sofia 2004].

Tuttavia qui si sceglie di presentare una forma di Content Analysis vicina alla «semantica quantitativa» e basata:
- sulla creazione di categorie;
- sull’uso del computer;
- su una rappresentazione multidimensionale delle categorie in uno spazio cartesiano.

Per comodità si sceglie quindi di definire quest’approccio «Content Analysis categoriale»; la creazione di categorie è un elemento già fondante della Content Analysis. La scelta di utilizzare l’aggettivo «categoriale» per qualificarla è da attribuirsi alla possibilità di ottenere e privilegiare una rappresentazione multidimensionale e di sintesi delle categorie sugli assi (MDS) e non delle parole (ACL).

Software

Il software scelto per l’analisi è Hamlet® - rinvenibile all’indirizzo https://www.apb.cwc.net/homepage.htm - che permette di realizzare una rappresentazione grafica multidimensionale delle categorie create e delle parole in esse contenute. Una delle prime procedure di analisi consiste nell’immettere nel software il testo da analizzare e la lista delle categorie e dei termini ad esse correlate. La procedura di creazione delle liste va ripetuta per tutte e quattro le categorie individuate; il file così predisposto viene salvato automaticamente e va poi richiamato e inserito nello spazio indicato dal nome vocabulary file name; in questo modo si introduce il vocabolario con cui si andrà a confrontare il corpus a sua volta inserito nella stringa text file mane.

Negli applicativi del software, dopo aver contato le parole, le rispettive frequenze e la distribuzione all’interno del testo, si procede con un’analisi di tipo cluster. L’analisi dei gruppi o cluster consiste in un insieme di tecniche atte a «ridurre» il numero dei dati, unendo vari dati in un solo gruppo (cluster) in base a qualche «somiglianza» o «vicinanza». Come si evince dal Minissa Scaling realizzato, la categoria «Adattività [1]» occupa una posizione quasi centrale; a lei prossima sono le categorie «Direzionalità» e «Identità» che si pongono sul lato sinistro; al margine destro si trova invece la categoria «Integrazione».

Fig. 3 - Output di Hamlet

3.3 La statistica linguistica

Approccio teorico

L’analisi quantitativa del lessico o statistica dei dati testuali [Bolasco 2004] si configura come il prodotto dell’incontro di due diverse discipline: la linguistica e la statistica linguistica. La storia di questa fusione è stata ricostruita in Italia – principalmente – da Sergio Bolasco [2004] in un intervento dal titolo L’analisi statistica dei dati testuali: intrecci problematici e prospettive.

La Statistica testuale – che noi oggi conosciamo – è il risultato di un’evoluzione che ha visto l’interesse degli studiosi spostarsi progressivamente da un piano linguistico quantitativo - si pensi alla legge di Zipf, alle fasce di frequenza e ai principi d’economia della lingua - a uno lessicale, fino ad arrivare ad un approccio lessico-testuale in cui allo studio degli aspetti testuali di un corpus si accompagna l’estrazione di informazioni linguistiche e si garantisce la possibilità di effettuare interventi sul testo stesso; fra questi la normalizzazione, la lemmatizzazione e la lessicalizzazione [Bolasco 1999].

Tecnica

La statistica linguistica ci offre molte possibilità di analisi sul testo; si può lavorare tanto in ambito lessicale quanto in ambito testuale. Nell’analisi quantitativa del lessico si lavora con i corpus. Il corpus: definisce l’insieme dei testi oggetto di studio (fra loro confrontabili sotto qualche punto di interesse) [Bolasco 1999, p. 182]. Solitamente lo studio dei corpora è volto ad un’analisi del contenuto o ad un’analisi del lessico. Tali testi possono essere letti secondo diversi punti di interesse: in funzione degli obiettivi prefissati [Tuzzi 2003]. Quando il corpus è costituito da un gran numero di testi, quando cioè è fortemente differenziato, è difficile operare con un’unica norma [Bolasco 1995, 1999].

Nei casi di corpora di grandi dimensioni, sono necessarie delle operazioni di pre processing, quali:
- la disambiguazione di forme significative;
- la lemmatizzazione parsimoniosa del testo, per costruire delle variabili testuali [Bolasco 1995].

Nell’esplorazione del testo si può cominciare con l’estrazione delle concordanze: che è lo studio dei contesti locali di una parola. Con il termine «contesto locale» ci si riferisce ad un determinato insieme di parole poste a un termine prefissato - per esempio tra le 5 e le 10 parole prima e le 5 e le 10 parole dopo il termine selezionato - che funge da polo (pivot) [Bolasco 1999, p. 184].

L’analisi delle concordanze si effettua su una forma grafica ritenuta determinante per l’analisi del testo su cui si lavora; l’importanza della forma selezionata si ricava dall’indice gerarchico ottenuto dal corpus (hierarchical index of corpus) [Lebart et al. 1998]. Ovvero, stabilito attraverso la creazione del vocabolario quali sono i termini che appaiono nel testo più di frequente, si può selezionare il frammento di testo all’interno del quale la forma prescelta appare, per poterne ricostruire l’uso o, anche, delineare una mappa concettuale della parola così per come viene utilizzata nel testo scelto. In questo modo è possibile esaminare le relazioni concettuali che sussistono nei vari contesti in cui appare la forma.

La tabella 2 visualizza il risultato delle analisi delle concordanze con Lexico3; questo software non permette l’espletamento di procedure di pre-trattamento, come accade invece con Taltac.

Tab. 2 - Analisi delle concordanze con Lexico3

porta qui la bottiglia che proviamo l'abbinamento tortelli di erbetta porta qui la bottiglia

porta qui la bottiglia che proviamo l'abbinamento nador . . . . io pensavo una tagliatella

questo . . . ho difficoltà a trovare un abbinamento, se ci fosse Aramis da queste parti potrebbe

porta qui la bottiglia che proviamo l'abbinamento tortelli di erbetta porta qui la bottiglia

porta qui la bottiglia che proviamo l'abbinamento nador . . . . Annata ? Ris 2002 . . per

questo . . . ho difficoltà a trovare un abbinamento, se ci fosse Aramis da queste parti potrebbe

tagliolini scalogno e castelmagno bell'abbinamento, attenzione solo a non sparare troppo pepe

sentori selvatici. aggiungerei che l'abbinamento migliore per me è uno chardonnay, magari

Si può lavorare anche sul piano linguistico, per esempio estraendo mediante Taltac il linguaggio peculiare o il linguaggio caratteristico. Il linguaggio peculiare si ottiene confrontando una lista di forme estratto del corpus su cui si sta lavorando e confrontandolo con una risorsa esterna, quindi con un’altra lista di riferimento.

L’individuazione del linguaggio peculiare avviene in termini di scarto. E’ così possibile estrarre le forme peculiari: parole che risultano avere un forte sovra/sotto uso rispetto ad un modello di riferimento. La peculiarità si calcola in termini di specificità intrinseca – che può essere sia positiva che negativa - attraverso uno scarto standardizzato della frequenza relativa. Così, mediante il calcolo di tale indice, si procede alla bipartizione delle forme grafiche del vocabolario in parole chiave – sovra/sotto utilizzate - e parole banali, che presentano cioè uno scarto vicino a zero, e sono quindi utilizzate con la stessa frequenza tanto nel corpo del testo che nel modello di riferimento. Si considerano parole banali quelle aventi uno scarto compreso/uguale a + o – 0.9.

Si considerano parole sotto-rappresentate quelle aventi uno scarto con valore inferiore a –0.9.

Si considerano parole sovra-rappresentate quelle aventi uno scarto con valore superiore a +0.9.

Con l’analisi delle specificità, nell’idea che P. Lafon [1980] ne ebbe sul finire degli anni Settanta - ovvero di applicare una distribuzione ipergeometrica alla questione della ripartizione delle forme di un corpus - si realizza, invece, una misurazione del testo nel vero senso della parola. Il corpus viene frammentato e confrontato nelle sue sub-parti, quindi con una risorsa interna e non esterna, contrariamente a quanto avviene con l’estrazione del linguaggio peculiare. Qualora sia possibile suddividere il corpus a disposizione in ulteriori sub-parti, ciò permette di calcolare la «specificità» di una forma grafica, lessicale o di qualsiasi altra unità si sia scelta come parametro di analisi. In questo caso si utilizzano dei parametri di natura probabilistica che prendono il nome di unità di analisi caratteristiche o specificità (characteristics elements or characteristics textual units) [Lebart et al. 1998].

Il coefficiente di specificità indica il livello di significatività dello scarto rilevato tra la frequenza della forma nella parte selezionata e le frequenza della stessa forma nelle altre sub-parti; insomma le specificità permettono di fornire una descrizione del gruppo di testo selezionato attraverso unità testuali che, rispetto all’intero corpus, si segnalano o molto più presenti o meno presenti in un dato gruppo piuttosto che in un altro [Lebart et al. 1998; Tuzzi 2003].

Tab. 6 Esempi di estrazione di analisi delle specificità

4. Riflessioni conclusive

La prima apparizione dei software per l’analisi qualitativa si è avuta all’inizio degli anni Sessanta, ma è stato soltanto intorno alla metà del 1980 che questi strumenti hanno preso piede e si sono affermati nelle comunità scientifiche. Di lì a poco, il rapido diffondersi delle nuove tecnologie e la comparsa dei personal computer ne avrebbe garantito una capillare diffusione ed un uso sempre maggiore all’interno delle comunità accademiche e non [Kelle 2002, pp. 282-283]. L’utilizzo crescente di questi supporti d’analisi ha consentito una loro specializzazione a seconda delle finalità o a seconda della matrice, e quindi dell’approccio metodologico di ispirazione.

E’ proprio dei software sviluppati all’interno della Grounded Theory:
1) garantire un’interpretazione dei testi, siano essi interviste o documenti, e ricondurli a specifici significati;
2) costruire categorie mediante l’estrapolazione dei significati in essi contenuti e stabilire attraverso il loro studio le associazioni e le relazioni tra i significati ivi rinvenuti, in modo da pervenire alla costruzione di teorie generali e particolari.

Per utilizzare i supporti informatici prodotti in seno alla Content Analysis è necessario sviluppare e definire unità di analisi: le categorie, che garantiscano, partendo dalle forme grafiche, un’esplorazione del testo e la descrizione delle sue dimensioni di senso prevalente. Nonostante questo approccio ci restituisca «la dimensione prevalente nel testo» risulta difficile, però, quantificare le osservazioni.

L’analisi quantitativa del lessico consente di valutare l’aspetto morfologico e sintattico del testo, nonché di produrre un’analisi semantica. Pacchetti come Lexico3 e TaltaC2 consentono: l’analisi del vocabolario (entrambi), il calcolo di indicatori di ricchezza lessicale (entrambi), il confronto con risorse linguistiche esterne (TaltaC2), il calcolo e l’estrazione dei segmenti ripetuti (TaltaC2), il calcolo delle parole caratteristiche (entrambi), l’analisi delle concordanze (entrambi). Tuttavia, passando da un software all’altro (da Lexico3 a TaltaC2) ci si accorge di come la componente statistica aumenti, facendo venir meno le caratteristiche che secondo Ricolfi [1997] distinguono l’analisi qualitativa da quella quantitativa, con la prevalenza in quest’ultima l’impiego della matrice dati, la presenza di definizioni operative dei «modi» della matrice dati e l’impiego della statistica o dell’analisi dei dati. In TaltaC2 l’analisi qualitativa ha queste caratteristiche; si può affermare, a ragione, di essere giunti alla statistica dei dati testuali.

I pacchetti presentati si distinguono per:
- tipo: si intende il contributo che il software dà all’analisi e può essere a supporto qualora non sia determinante e a sostegno quando dall’output dipende l’intera interpretazione;
- dimensioni del testo: quando l’uso del software è limitato dalla misura del corpus di analisi, si distingue in irrilevante e determinante;
- trattamento: questa variabile distingue il software utilizzato in base alla componente manuale, semi-manuale o automatica in esso utilizzata. Per esempio, lavorando con software come Atlas.ti ci si accorge di farne un uso semi-manuale, in quanto il software serve quasi da block notes, ma allo stesso tempo ci aiuta a stabilire relazioni fra categorie; nel caso di Hamlet il software in base alle nostre istruzione restituisce un risultato. E’ importante notare che nei casi testé citati il margine d’azione della «mano» del ricercatore è prevalente rispetto alla «forza» del software, cosa che non accade con Lexico3 e TaltaC2, che sono definiti automatici;
obiettivi: infine, l’uso dell’uno o dell’altro pacchetto informatico dipende, oltre che dal testo con cui si lavora, anche dagli obiettivi da cui muove l’analisi. Per esempio, è obiettivo dichiarato della Grounded Theory costruire teorie.

Nel rapporto con l’analisi di un testo la Content Analysis mira a individuare dimensioni e categorie – precedentemente create – prevalenti nel testo. Più complesso è stabilire l’obiettivo dell’analisi quantitativa del lessico e della statistica testuale, perché le modalità di analisi le permettono di essere ipotetico-deduttiva. Tuttavia, anche quando si pone degli obiettivi esplorativi (come di fatto è sempre l’analisi di tipo fattoriale che cerca di individuare delle dimensioni latenti) questa è comunque più rispettosa della controllabilità e della replicabilità dell’analisi.

Una precisazione che ancora occorre addurre è tra la verificazione/falsificazione di ipotesi e il rapporto di queste con la Content Analysis, al fine di cogliere la differenza fra quest’ultimo approccio e l’analisi quantitativa del lessico. Verificare/falsificare ipotesi sembrerebbe peculiarità dell’analisi quantitativa del lessico perché per gli output ottenuti da questo approccio occorre produrre un’interpretazione causale, ovvero un valore numerico trovato attraverso un’operazione condotta con TaltaC2 non avrebbe motivo di essere se non fosse accompagnato da una sua interpretazione teorica che lo spieghi e ne dia conto, appunto. Contrariamente, l’output di Hamlet può semplicemente essere descritto, non occorre una sua interpretazione, perché essa risiede nella motivazione sottostante la creazione della categoria che l’output rappresenta.

Se si guarda a quanto qui esposto in termini epistemologici, la Grounded Theory ci mostra un orientamento più verso il contesto della scoperta piuttosto che della giustificazione.

Il rapporto si capovolge se si guarda all’approccio della statistica testuale e/o analisi quantitativa del lessico. In questo ideale continuum alla Content Analysis si potrebbe lasciare un posto intermedio, anche se più propensa alla formulazione di ipotesi, poiché altrimenti non potrebbe predisporre le categorie di analisi a priori. A questo punto sembrerebbe chiaro che il primo approccio, contrariamente al secondo, rientra nella sfera induttiva, quindi, orientato più al contesto della scoperta che della giustificazione; viceversa per il secondo.

Muovendoci all’interno della cultura del visivo, la vicinanza delle due figure e la direzione discendente/ascendente delle due frecce fornisce un’idea, quasi un «pregiudizio», tra il primeggiare dell’uno o dell’altro approccio. Oggi è convinzione comune sostenere che nessun software sia autosufficiente a sé bastante e se i software sono espressione di un determinato approccio teorico, di cui consentono l’applicazione della tecnica di analisi, ciò ci conduce come in un sillogismo ad una sorta di sintesi superiore in cui si accetta la circolarità del passaggio dalla teoria al dato e dal dato alla teoria.

BIBLIOGRAFIA [2]

Berelson B. (1952), Content Analysis in Communication Research, The Free Press, New York.
- (1971), Content Analysis in Communication Research, Hafner Publishing Company, New York.
Bolasco S. (1980), «Analyse des données en tant que antrologie ou science des subdivision», in Actes des Journées de travail sur Analyses des Donées, Rencontres franco-italiens, Università di Napoli, INRIA, pp. 179-193.
- (1994), «L’individuazione di forme testuali per lo studio statistico dei testi con tecniche di analisi multidimensionali», in Atti della XXXVII Riunione Scientifica della SIS, CISU, Roma, II, pp. 95-103.
- (1995), «Criteri di lemmatizzazione per l’individuazione di coordinate semantiche», in Cipriani R., Bolasco S., (a cura di), Ricerca qualitativa e computer, Franco Angeli, Milano.
- (1999), Analisi multidimensionale dei dati, Carocci, Roma.
- (2004), «L’analisi statistica dei dati testuali: intrecci problematici e prospettive», in Aureli Cutillo E., Bolasco S., Applicazioni di analisi statistica dei dati testuali, Casa Editrice Universitaria, La Sapienza, Roma, pp. 9-19.
Castells M. (1996-2000), The Information Age: Economy, Society and Culture, voll. I, II, III, Basil Blakwell, Oxford.
- (2001), Internet Galaxy, Oxford University Press, Oxford (tr. it. Galassia Internet, Feltrinelli, Milano, 2002).
Giuliano L. (2004), L’analisi automatica dei dati testuali. Software e istruzioni per l’uso, Led, Milano.
Glaser B.G. (1978), Theoretical Sensitivy, Sociology Press, Mill Valley.
Glaser B.G., Strass A.L. (1964), «The Social Loss of Dying», in American Journal of Nursing, n. 64, pp. 119-121.
- (1967), The Discovery of Grounded Theory: Strategies for Qualitative Research, Aldine, Chicago.
- (1968), Time for Dying, Aldine, Chicago.
Holsti O.R. (1963), «Computer Content Analysis», in North R.C., Holsti O.R., Zaninovich M.G., Zinnes D.A., Content Analysis: A Handbook with Application for the Study of International Crisis, Northwestern University Press, Evanston.
- (1969), Content Analysis for the Social Sciences and Humanities, Addison-Wesley, London.
Kelle U. (2002), «Computer-Aided Analysis: Coding and Indexing», in Martin W. B., Gaskell G. (eds.), Qualitative Researching. With text, Image and Sound, Sage London, pp. 282-298.
Krippendorff K. (1980), Content Analysis. An Introduction to Its Methodology, Sage Publication, London (trad. it. L’analisi del contenuto, ERI, Torino, 1983).
- (2004), Content Analysis. An Introduction to Its Methodology, sec. edition, Sage Publication, London.
Lafon P. (1980), «Sur la variabilité de la fréquence des formes dans un corpus» in Mots, 1 octobre 1980, pp. 127-165.
Laswell H.D. (1927), Propaganda Tecnique in the World War, Alfred A. Knopf, New York.
Laswell H.D., Kaplan H.A. (1950), Power and Society. A Framework for Political Inquiry, Yale University Press, London (trad. it. Potere e società, Il Mulino, Bologna, 1997).
Laswell H.D., Leites N. et al. (1949), Language of Politics: Studies in Quantitative Semantics, George Stuart, New York (trad. it. Il linguaggio della politica: studi di semantica quantitativa, ERI, Torino, 1979).
Lebart L., Salem A., Berry L. (1998), Exploring Textual Data, Kluwer Academic Publishers, Dordrecht, The Netherlands.
Losito G. (1993), L’analisi del contenuto nella ricerca sociale, Franco Angeli, Milano.
McLuhan M. (1962), The Gutenberg Galaxy. The Making of Typografic Man, University of Toronto Press, Toronto, (tr. it. La Galassia Gutenberg. Nascita dell’uomo tipografico, Armando Editore, Roma, 1976).
- (1964), Understanding Media. The Extension of Man, Mc-Graw Ill, New York (trad. it. Gli strumenti del comunicare, Il Saggiatore, Milano, 1967).
McLuhan M., Powers B. (1992) Il villaggio globale. XXI secolo: la trasformazione nella vita e nei media, SugarCo, Milano.
Popper K.R. (1934), Logik der Forschung, Springer, Wien, (trad. it. Logica della scoperta scientifica, Einaudi, Torino, 1970).
- (1946), The Open Society and its Enemies, Routledge & Kegan Paul, London, (trad. it. La società aperta e i suoi nemici, Armando Editore, Roma, 2002).
- (1979), Die Beiden Grandprobleme der Erkenntnistheorie, J.C.B. Mohr, Tübingen, (trad. it. I due problemi fondamentali della teoria della conoscenza, Il Saggiatore, Milano, 1997).
Popping R. (1997), «Computer Programs For The Analysis of Texts And Transcription», in Roberts C.W. (eds.), Text Analysis for the Social Sciences. Methods for Drawing Statistical Inferences from Texts and Transcription, Lawrence Erlabaum Associates, Mahwah, New Jersey, pp. 209-211.
Ricolfi L. (a cura di) (1997), La ricerca qualitativa, Carocci, Roma.
Rositi F. (1989), «L’amore folle fra analisi del contenuto e computer», in Bellelli G. (a cura di), Il metodo del discorso. L’analisi delle produzioni discorsive in psicologia e in psicologia sociale, Liguori Editore, Napoli, pp. 107-114.
Seale C. (2000), «L’uso del computer nell’analisi dei dati qualitativi», in Silverman D. (2000), Doing Qualitative Research. A practical guide, Sage Publication, London (tr. it. Come fare ricerca qualitativa, Carocci, Roma, 2002, pp. 223-248).
Silverman D. (2000), Doing Qualitative Research. A practical guide, Sage Publication, London (tr. it. Come fare ricerca qualitativa, Carocci, Roma, 2002).
Sofia C. (2005), Analisi del contenuto, comunicazione, media. Franco Angeli, Milano.
Strati A. (1997), «La Grounded Theory», in Ricolfi L. (a cura di), La ricerca qualitativa, Carocci, Roma, pp. 125-163.
Thomas W.I., Znaniecki F. (1920), The Polish Peasant in Poland and America (trad. it. Il contadino polacco in Europa e in America, Edizioni Comunità, Milano, 1968).
Tuzzi A. (2003), L’analisi del contenuto. Introduzione ai metodi e alle tecniche di ricerca, Carocci, Roma.
Weber P.R. (1990), Basic Content Analysis, Sage Publication, London (trad. it. Fondamenti di analisi del contenuto, Sigma Edizioni, Palermo, 1995).
Zipf G.K. (1935), The Psychology of Language. An introduction to Dynamic Philology, Houghton-Mufflin, Boston.

NOTE

1] I nomi delle categorie date sono qui solo esemplificativi. Lo stesso dicasi per le parole utilizzate negli esempi successivi.
2] Nella bibliografia è sempre riportata l’edizione originale del testo ed eventualmente la relativa traduzione italiana. I riferimenti alle pagine sono da intendersi a quest’ultima, se esistente.