TecaLibri: Maurizio Lana: Il testo nel computer

| << | < | > | >> |

Indice

 11 Un percorso


    Parte prima   Cercare informazioni online


 21 1.     I motori di ricerca

    1.1.   Perché usare i motori di ricerca, 21
    1.2.   La distinzione tra cataloghi e motori di ricerca, 23
    1.2.1. I cataloghi, 25
    1.2.2. I motori di ricerca, 34
           CRITERI PER SCEGLIERE IL MOTORE DI RICERCA, 36
    1.3.   Conoscere gli strumenti impiegati, 40
    1.3.1. Funzionamento deterministico o probabilistico?, 41
    1.3.2. Richiamo, precisione, specificità, 43
    1.3.3. La lingua usata per l'interrogazione, 46
    1.3.4. Come definire una procedura standard di ricerca, 47
    1.4.   Effettuare ricerche con Google, 49
    1.4.1. Primi passi, 49
    1.4.2. Raffinamento della ricerca, 53
    1.4.3. Che cosa fare in caso di esiti insoddisfacenti, 55
           a) RIFORMULARE L'INTERROGAZIONE, 56
           b) RICORRERE A UN GATEWAY, 58
           C) ENTRARE NEL WEB PROFONDO, 60
    1.4.4. Il relevance ranking, 65
    1.4.5. Funzioni di ricerca avanzate in Google, 72
           a) RICERCA ALL'INTERNO DI UN DOMINIO O DI UN SITO
              SPECIFICO, 73
           b) RICERCA ALL'INTERNO DI DOCUMENTI IN FORMATI
              NON HTML, 76
    1.5.   I metamotori, 78
    1.5.1. Metacrawler, 79
    1.5.2. Metor, 80
    1.5.3. Copernic, 82
    1.6.   Le ricerche bibliografiche in Internet, 84
    1.6.1. Gli OPAC: cataloghi accessibili in Internet, 87
    1.6.2. Gli OPAC interrogabili via web, 90
           a) RICERCHE CON METAOPAC AZALAI ITALIANO, 93
           b) RICERCHE CON BOOKWHERE, 97

102 2.     La storia dell'ipertesto

    2.1.   La dimensione testuale di Internet e l'ipertesto
           web, 102
    2.2.   Vannevar Bush: il memex, 104
    2.2.1. Un computer analogico, 105
    2.2.2. Uno strumento per il lavoro intellettuale
           individuale, 110
    2.2.3. Inserimento dei collegamenti e indicizzazione
           associativa, 111
    2.3.   Douglas Engelbart: l'oNLine System, 114
    2.3.1. Come nacque l'oNLine System (NLS), 115
    2.3.2. I fondamenti teorici dell'oNLine System, 117
    2.3.3. Sviluppatori e utenti del sistema coincidono, 122
    2.3.4. Componenti ipertestuali dell'oNLine System, 126
    2.3.5. Elementi di NLS giunti fino a Microsoft Word, 131
    2.3.6. Le connessioni con Bush e il memex, 135
    2.3.7. L'ipertesto per il lavoro collaborativo, 136
    2.4.   Theodor Holm Nelson: Xanadu, 139
    2.4.1. Il progetto Xanadu, 141
    2.4.2. L'ipertesto e il docuverso Xanadu, 145
    2.4.3. Xanadu in dettaglio, 148
    2.4.4. L'ipertesto per il lavoro individuale, 156
    2.5.   Tim Berners-Lee: il web, 158
    2.5.1. La preistoria del web: Enquire, Tangle, RPC, 159
    2.5.2. La nascita del web, 161
    2.5.3. Le ragioni del successo .64
           a) UNO SPAZIO UNIVERSALE DI INFORMAZIONE, 164
           b) UNA STRUTTURA DECENTRALIZZATA, 167
           c) UNO SPAZIO DI LAVORO COMUNE APERTO A CHIUNQUE, 172
    2.5.4. Un tecnico attento alle implicazioni sociali
           della tecnologia, 176
    2.6.   Alcune questioni aperte, 178

184 3.     Creare un semplice ipertesto in Word

    3.1.   Il rapporto tra carta e ipertesto, 187
    3.1.1. L'autonomia delle lessie, 190
    3.2.   Costruzione di una struttura ipertestuale ad
           albero, 192
    3.2.1. La scrittura a blocchi, 192
    3.2.2. Un esempio pratico con Microsoft Word, 193
    3.3.   Inserimento nella struttura di collegamenti di
           riferimento e di contenuto, 200
    3.4.   Scrivere per il digitale e anche per la carta, 207


    Parte seconda   Cercare informazioni nei testi:
                    l'analisi testuale


211 4.     La ricerca di testo nei testi

    4.1.   Strumenti tradizionali per lo studio di testi, 211
    4.1.1. Indici, 212
    4.1.2. Concordanza, 214
    4.2.   Concetti di base per lo studio di testi per mezzo
           del computer, 218
    4.2.1. Parola, forma, lemma, 218
    4.2.2. Preedizione, 220
    4.3.   Tipi principali di ricerca, 221
    4.3.1. Conteggio di parole, 221
    4.3.2. Ricerca di forme e sequenze di forme, 222
    4.3.3. Analisi del contenuto, 222
    4.4.   Il testo in formato digitale, 223
    4.4.1. Come si acquisiscono i testi, 223
    4.4.2. I testi diventano basi di dati testuali, 224

226 5.     Text retrieval con MonoconcPro

    5.1.   Text retrieval e modalità tradizionale di lettura
           e analisi del testo, 226
    5.2.   Primi passi con MonoconcPro, 228
    5.2.1. Ricerca di forme, 231
    5.2.2. Ricerca di sequenze, 238
    5.3.   Come costruire un percorso di analisi, 239
    5.3.1. Ricerca concatenata, 239
    5.3.2. Ricerca di forme e cooccorrenze, 241
    5.4.   Da MonoconcPro alla stesura di una relazione con
           Microsoft Word, 246
    5.5.   Uso di MonoconcPro con testi greci classici, 249
    5.5.1. Visualizzare (e scrivere) il greco classico, 249
    5.5.2. Impostazioni generali, 251
    5.5.3. MonoconcPro e i programmi specifici per i Cd-Rom
           del TLG e del PHI, 255
    5.6.   Motori di ricerca e text retrieval, 256
    5.6.1. Text retrieval con WebCorp, 257
    5.6.2. Text retrieval e lettura ipertestuale, 26o


    Parte terza   Cercare informazioni nei testi:
                  l'analisi del contenuto


263 6.     Analisi del contenuto e metodologia «grounded theory»

    6.1.   Che cosa si intende per analisi del contenuto, 263
    6.2.   Che cos'è la metodologia grounded theory, 264
    6.3.   I passi principali dell'analisi nella metodologia
           grounded theory, 267
    6.4.   I criteri di scientificità, 270

272 7.     Analisi del contenuto con Atlas.ti

    7.1.   Primi passi con Atlas.ti, 272
    7.1.1. Creazione di un'unità ermeneutica, 272
    7.1.2. Codifica, 275
    7.1.3. Ricerche di testo e di codici, 282
    7.2.   Gli output forniti da Atlas.ti, 286
    7.2.1. I passi marcati con uno specifico codice, 286
    7.2.2. La tabella codici vs documenti, 288
    7.3.   Funzioni avanzate, 289
    7.3.1. Creazione di famiglie e uso di filtri, 289
    7.3.2. Scrittura di annotazioni (memo)


299 Appendice   Stesura di un relazione impiegando
                funzionalità ipertestuali

A1. Stesura della relazione e disponibilità della
    documentazione, 300
A2. Copia-incolla: più interessante di quanto sembra, 302
A3. Struttura ipertestuale, 306

311 Bibliografia
321 Indice delle cose notevoli

| << | < | > | >> |

Pagina 11

Un percorso

Nelle pagine che seguono si parlerà di testo, di testi. Si parlerà di alcune delle molteplici forme in cui i testi possono essere elaborati per mezzo di strumenti informatici. I temi principali vanno dalla ricerca di informazioni nel web (cap. 1) all'ipertesto (capp. 2 e 3), allo studio dei testi con strumenti di text retrieval (capp. 4 e 5), allo studio dei testi con strumenti per l'analisi qualitativa (capp. 6 e 7). In appendice alcune riflessioni sull'uso di forme ipertestuali per scrivere resoconti e relazioni.

Può essere utile scendere più in dettaglio. La ricerca di informazioni nel web è senza dubbio uno dei primi contatti importanti con le potenzialità autentiche dell'informazione in formato digitale. Normalmente si resta delusi: si sa (si presume di sapere) che là nel web c'è una quantità di informazioni, ma quel che si reperisce non ha la qualità desiderata; e magari questo conferma un sottinteso iniziale del tipo «è impossibile che nel web si possano trovare informazioni valide su... » (qui ognuno collochi il «suo» argomento). Si vedrà nei capitoli 1 e 2 che si può in realtà essere moderatamente ottimisti.

È interessante notare che tutto il procedimento implica

- un atteggiamento sperimentale verso la conoscenza: non si sa se le pagine web contenenti l'argomento cercato esistano, ma si ipotizza che esistano e che possano trattarlo utilizzando specifiche parole;

- una certa fiducia nei confronti dell'universalità della conoscenza e del sapere: si presuppone che chiunque abbia scritto delle pagine web sull'argomento a, quale che sia la sua appartenenza geografica, culturale, sociale, religiosa, ideologica, ne abbia scritto utilizzando termini che con buon grado di approssimazione corrispondono a quelli che userebbe chi fa la ricerca; oppure - se il caso precedente non si verifica - si presuppone di poter «entrare» nel modo di esprimersi di una persona che non si conosce, ma di cui si ipotizza l'esistenza;

- la capacità di pensare in più lingue gli argomenti principali oggetto di interesse (o almeno di conoscerne e utilizzarne il lessico specialistico in più lingue): l'argomento che interessa può essere esposto in pagine web scritte in italiano, francese, inglese, spagnolo, tedesco, cinese ecc. Poiché la ricerca si fa utilizzando parole, le parole utilizzate preselezionano la lingua delle pagine che verranno eventualmente reperite; cercare nell'intero web non significa quindi semplicemente utilizzare un motore di ricerca di portata universale, ma anche e soprattutto capacità di usare molteplici lingue perché molteplici sono le lingue nelle quali sono scritti i contenuti delle pagine web.

L'ipertesto è una forma di testualità che - per quanto preesistente al computer - solo con l'avvento del computer è stata descritta, definita, studiata, e si è diffusa fino a essere onnipresente, almeno in certi ambiti: tutto il web è un unico grande ipertesto e in tal modo per milioni di persone in tutto il mondo è oggi abituale usare l'ipertesto web, che ha dimensioni planetarie quanto a dislocazione dei computer che lo rendono funzionante e accessibile. Come si vedrà nei capitoli 2 e 3, da un lato la storia dell'ipertesto mostra chiaramente che esso fu pensato - in un periodo cruciale che va dagli anni trenta agli anni settanta del secolo scorso - come strumento per il potenziamento dell'intelletto umano, in stretta connessione con lo sviluppo del computer personale così come si delineò e si attuò al PARC della Xerox; dall'altro sono oggi disponibili dentro un normale programma di scrittura (word processing) molte delle funzionalità che in quegli anni pionieristici vennero concepite per dare corpo all'idea del computer come strumento personale per il potenziamento delle capacità intellettuali. Si potrà iniziare a comprendere che l'ipertesto è una costruzione sociale, derivata dall'interazione tra individui, e fra essi e la società del loro tempo (o parti di essa). La scelta di centrare l'attenzione sulla forma più semplice di struttura ipertestuale (quella ad albero) e su uno strumento software non specialistico ma alla portata di tutti (Microsoft Word) è dovuta al fatto che non si intende scrivere una guida alla creazione di ipertesti ma piuttosto inserire molteplici fenomeni e attività (dalle ricerche in Internet all'analisi dei testi, alla scrittura di relazioni con strumenti informatici) in un quadro unitario che dà senso alle singole parti: l'interazione tra strumenti digitali e testi.

Gli strumenti software per l'analisi del testo e per l'analisi del contenuto offrono a un livello di raffinatezza molto più alto le funzionalità offerte a livello elementare dai motori di ricerca (senza dimenticare peraltro strumenti online simili ai motori ricerca, ma molto differenti per la raffinatezza di operazioni di lettura del corpus testuale interrogato, come WebCorp) e permettono una lettura dei testi che mette almeno parzialmente in discussione il metodo, ancora oggi in uso, di lettura e interpretazione di un testo fondato sul prestigio e sull' auctoritas del grande studioso, del grande critico. Infatti è possibile leggere e studiare i testi interrogandoli in modo che essi stessi parlino in molto esauriente e documentato di se stessi, e di come sono costituiti sul piano lessicale.

Lo studio dei testi con strumenti di text retrieval, o analisi testuale, per certi aspetti non è altro che la trasposizione nell'ambito informatico di attività di studio del testo quali si sono espresse nel corso dei secoli nella produzione di lessici, indici, concordanze. Nei capitoli 4 e 5 si potrà vedere che le operazioni di ricerca sul testo che si possono compiere con strumenti di text retrieval non hanno nulla di concettualmente nuovo: ma la rapidità e la precisione con cui il computer opera costituiscono elemento di novità. Mentre in passato si produceva la concordanza solo di grandi opere perché un'opera di alto livello in qualche modo ripagava dell'enorme investimento di tempo richiesto, oggi la concordanza è un normale strumento di lavoro e di studio di qualsiasi testo: basti ricordare per esempio che i traduttori utilizzano la concordanza come strumento che da un lato permette di approfondire gli usi lessicali del testo di partenza, dall'altro permette di ottenere maggiore coerenza lessicale nel testo di arrivo. Si vedrà come MonoconcPro utilizzi strutture ipertestuali per dare accesso ai testo, mostrando così che la costruzione di ipertesti si realizza in forme molto varie e può avere una specifica valenza di studio; di lì si riconosce che la questione se la lettura di un ipertesto sia nonlineare o multilineare non è solo una teorizzazione astratta ma ha riscontri specifici nella pratica della lettura e studio del testo con strumenti di text retrieval.

Nell'analisi del testo con strumenti informatici si possono adottare anche altri approcci, per i quali non si può sostenere che costituiscano - come si è detto poche righe sopra - «la trasposizione nell'ambito informatico di attività di studio del testo quali si sono espresse nel corso dei secoli»: basti pensare a tutti i metodi di analisi che si basano su analisi statistiche e sulla rappresentazione grafica dei loro esiti. Essi non saranno trattati qui perché le conoscenze tecniche che entrano in gioco, soprattutto in ambito matematico-statistico, esigerebbero da sole un intero libro.

L'analisi del contenuto (content analysis, capp. 6 e 7), approccio che fa parte dell'area dell'analisi qualitativa, mira a lavorare sui testi non al livello delle parole effettivamente contenute ma al livello dei concetti e dei significati che le parole dei testi veicolano, o per essere più precisi dei concetti e dei significati che un lettore riconosce nelle parole dei testi. Chiunque abbia studiato un testo sottolineandone i punti salienti, annotando passi importanti per mezzo di parole a margine che evidenziano e chiariscono il significato del passo, scrivendo piccoli appunti su foglietti inseriti nelle pagine appropriate, ha effettuato operazioni di analisi del contenuto. I programmi per l'analisi del contenuto permettono di compiere questi stessi tipi di operazioni: ma permettono anche - per esempio - di estrarre e stampare tutti i passi annotati con un medesimo commento; permettono di associare una singola nota di commento a tre differenti passi di testo senza doverla scrivere tre volte; permettono di stampare non solo i passi glossati con un medesima parola, ma per ogni passo di testo così selezionato anche tutte le note di commento ad esso associate. Nulla di concettualmente diverso e da quel che si fa ordinariamente; ma la maggiore velocità nella rielaborazione e uso delle proprie annotazioni, e la maggiore precisione, rendono possibili operazioni che prima nessuno avrebbe compiuto.

Eppure, fra queste tre modalità di lavoro sul testo (ipertesto, analisi del testo, analisi del contenuto) non c'è separazione come forse potrebbe sembrare, ma c'è anzi una contiguità notevole. La contiguità è data dal fatto che - con varie operazioni, varie in relazione agli scopi e ai modi in cui si realizzano operativamente - in tutti i casi i testi vengono scomposti in parti, blocchi, segmenti, che vengono poi ricollegati fra loro in nuovi modi oppure in modi che portano all'evidenza connessioni che non apparivano in evidenza - alla mente o all'occhio - nel testo a stampa ma erano presenti - e insieme latenti - al livello lessicale, sintattico, semantico, o altro ancora.

Nelle prossime pagine si potrà seguire un percorso che affronterà i temi delle tre grandi aree descritte qui sopra, mostrandone le interconnessioni.

| << | < | > | >> |

Pagina 211

La ricerca di testo nei testi

Le operazioni di ricerca fatte sul materiale testuale online appartengono alla medesima categoria di operazioni di ricerca che si possono compiere su materiale testuale offline, cioè materiale testuale che si trova su un computer specifico, senza bisogno di connessione Internet per accedervi. Le operazioni di ricerca su testo vanno in generale sotto il nome di text retrieval, «reperimento di testo».

Lo studio di materiali testuali per mezzo del computer ha dato vita a, o è connesso con, un buon numero di iniziative di definizione di standard, linguaggi, di iniziative per la costituzione di corpora. Tra gli esempi più importanti e famosi si possono citare lo standard TEI di descrizione dei documenti, e i linguaggi SGML e XML. Di tutto ciò non si parlerà in queste pagine in quanto si tratta di un livello avanzato di lavoro sui materiali testuali, tale da richiedere significative competenze di tipo formale e informatico; chi desideri approfondire questi temi ha a disposizione varie pubblicazioni recenti, molto valide: Gigliozzi 2003, Fiormonte 2003, Numerico e Vespignani 2003. Il filo rosso che connette le varie di questo scritto è invece la presentazione di un percorso semplice, sostanzialmente praticabile da tutti.

4.1. Strumenti tradizionali per lo studio di testi

Le attività di studio che si servono di ricerche di testo nei testi non nascono oggi ma hanno una lunga storia alle spalle, che risale all'incirca a 2500 anni addietro, alla civiltà greco-latina. Il primo cambiamento importante si verifica con il passaggio dal rotolo al libro. Il libro è una evoluta e raffinata macchina per la lettura; una macchina che permette operazioni più numerose e più fini di quelle rese possibili dal rotolo. L'elemento chiave che differenzia il libro (già nella sua forma più antica, il codice) dal rotolo è la costruzione «a pagine», che rende possibile:

- tenere in evidenza più passi del testo contemporaneamente per mezzo dei segnalibri;

- individuare in modo preciso dove si trova una parola o un passo (la parola p si trova a pagina n); da questa possibilità derivano gli indici, di qualsiasi tipo. Un rotolo non poteva avere un indice così facile da usare, e dunque più del libro esigeva letture complete e continuative.

Quasi si potrebbe dire che è la macchina libro a porre le premesse per lo sviluppo dell'ipertesto: quando si apre un libro, e ne compare il sommario, e si sceglie nel sommario il punto del libro in cui andare a leggere, si sta operando in maniera ipertestuale su un materiale testuale su supporto cartaceo; e questo avviene da secoli ormai, mentre l'ipertesto ha una storia sua specifica che, come si è visto, inizia convenzionalmente nel 1945.

Le caratteristiche del libro come macchina per la lettura portarono alcuni secoli fa all'invenzione di uno strumento oggi tradizionale per lo studio dei testi: la concordanza (l'indice è una concordanza di tipo particolare). La più antica concordanza conosciuta risale al 1247: Si tratta di una concordanza della Vulgata realizzata nel convento domenicano di San Giacomo, a Parigi, probabilmente sotto la direzione di Ugo di San Caro; ne sopravvivono 22 manoscritti.