Questo articolo è stato valutato dai revisori del Journal of Electronic Publishing.
Tutte le lingue native americane parlate oggi sono scritte o in un alfabeto latino, aumentato con lettere “accentate”, o in un sillabario, un insieme di simboli sillabici indivisibili, ognuno dei quali rappresenta una sillaba. Le lingue Apache e Navaho sono tra le lingue native americane che usano un alfabeto latino, mentre Cherokee, Inuiktitut e Cree sono tra le lingue che usano sillabari moderni. I sillabari, comuni nelle scritture antiche, erano usati dai Maya e dal popolo Epi-Olmec del Mesoamerica.
Perché un sillabario è meno espressivo di una scrittura alfabetica, può essere trascritto in una scrittura alfabetica senza perdere significato. Gli studenti della lingua Cherokee imparano una trascrizione latina del sillabario per facilitare l’apprendimento del Cherokee. Le stesse caratteristiche che permettono al Cherokee di essere trascritto nell’alfabeto latino permettono la creazione di strumenti di composizione per i sillabari. Un moderno strumento di composizione progettato per gestire i sillabari dovrebbe permettere agli utenti di digitare i simboli o direttamente (ad esempio, usando un editor Unicode se la scrittura è supportata dallo standard Unicode, o da qualche editor che supporti un set di caratteri speciali), o usando qualche trascrizione latina standard. (Unicode fornisce un numero unico leggibile dal computer – chiamato punto di codice – per ogni carattere; questo numero funziona attraverso piattaforme, programmi e lingue.)
Questo articolo riguarda Omega, un moderno sistema di composizione basato su TeX, che per default accetta file di testo Unicode, ma è in grado di gestire qualsiasi codifica di input immaginabile. Inoltre, introduce una serie di caratteristiche che rendono la vita dei progettisti di strumenti abbastanza facile. Ho usato queste caratteristiche per sviluppare una serie di strumenti che facilitano la preparazione di documenti in lingua Cherokee e Inuktitut.
TeX e LaTeX
TeX è un leggendario programma per computer progettato da Donald E. Knuth, il famoso professore di informatica della Stanford University. È un motore di composizione digitale, un programma per computer che fa il lavoro di un tipografo, descrivendo l’aspetto della pagina stampata (Knuth, 1993). TeX elabora un file di input che contiene sia testo che comandi di composizione. Leslie Lamport ha progettato il LaTeX markup Language (Lamport, 1994) che si trova sopra il motore di composizione TeX per facilitare la creazione di file di input. Poiché molte persone hanno familiarità con LaTeX ma non conoscono la sua relazione con TeX, pensano erroneamente che LaTeX e TeX siano due programmi diversi. Eppure, TeX produce un file indipendente dal dispositivo (DVI) che descrive il testo e gli elementi grafici su una pagina che può essere ulteriormente elaborato per generare altri linguaggi di descrizione della pagina come l’output PostScript. Knuth ha anche progettato METAFONT, che implementa un diverso linguaggio di descrizione e generazione di font (Knuth, 1992).
Anche se lo sviluppo di TeX è stato congelato da quando Knuth ha deciso di non sviluppare ulteriormente TeX e METAFONT, nuovi motori di composizione che estendono le capacità di TeX stanno ancora emergendo. Le estensioni di TeX più notevoli sono: pdfTeX (Thanh et al., 1999), che può produrre direttamente file PDF; e-TeX (NTS Team e Beiettenlohner, 1998), che è un’estensione di TeX che aumenta la capacità e le capacità di TeX permettendo la composizione bidirezionale; e Omega che è l’estensione Unicode di TeX capace di prendere input Unicode e comporlo in molte direzioni di scrittura (Syropoulos et al., 2002). Inoltre, Omega può produrre contenuti XML e MathML. Si noti che MathML è un’applicazione XML che è principalmente destinata a facilitare l’uso e il riutilizzo di contenuti matematici e scientifici sul Web. Usando Omega, un tipografo può scrivere pre-processori che fanno da ponte tra Unicode e la composizione. (Si noti che Lambda è un soprannome per LaTeX quando viene usato con Omega.)
Cherokee
Il cherokee è una lingua iroquiana parlata da circa 20.000 persone, principalmente come seconda lingua. Ci sono solo due dialetti rimasti: Oklahoma (parlato da circa 17.000 persone) e North Carolina (parlato da altre 3.000 persone).
La scrittura Cherokee fu sviluppata nel XIX secolo da un Cherokee di nome Sequoya (che usava il nome George Guess o George Giss quando trattava con gli uomini bianchi). Alcuni pensano che Sequoya sia stata l’unica persona che abbia mai sviluppato una scrittura da sola, ma ce ne sono altri che lo hanno fatto. Per esempio: il greco San Clemente di Ohrid sviluppò la scrittura cirillica (Kirilitsa), in una forma vicina a quella ancora in uso oggi, basata sul precedente lavoro dei monaci greci San Cirillo; San Metodio sviluppò una scrittura slava chiamata Glagolitsa; il reverendo James Evans creò il sistema di scrittura della lingua Inuktitut basandosi sul precedente lavoro sulla lingua Cree, che, a sua volta, era basato sul lavoro sulla lingua Ojibway; e Afaka Atumisi inventò il sillabario Ndjuka.
Inuktitut
L’Inuktitut è la lingua degli Inuit (conosciuti anche come “eschimesi”, ma il termine è considerato offensivo dagli Inuit che vivono in Canada e Groenlandia). La lingua è parlata da circa 152.000 persone in Groenlandia, Canada, Alaska e nell’Okrug autonomo della Chukotka, che si trova nell’estrema regione nord-orientale della Federazione Russa. Il sillabico Inuktitut è usato dagli Inuit che vivono in Canada, specialmente nel nuovo territorio canadese di Nunavut. Questo sistema di scrittura fu inventato dal reverendo James Evans, un missionario wesleyano. La tabella qui sotto mostra i sillabici Inuktitut e la trascrizione latina dei simboli Inuktitut. (Si noti che la scrittura Inuktitut è supportata da Unicode ed è effettivamente parte della sezione Unified Canadian Aboriginal Syllabics dello standard Unicode.)
Attualmente, ci sono due ortografie Inuktitut (l’ortografia è l’arte o lo studio della corretta ortografia secondo l’uso stabilito): quella anglicana (usata principalmente nel Nunavut) e quella cattolica (usata principalmente in Quebec). Differiscono nel modo di scrivere le vocali “lunghe” – sillabe con due vocali identiche. L’ortografia anglicana mette un punto sopra una sillaba breve per renderla lunga; l’ortografia cattolica usa due simboli. Notate le diverse rappresentazioni della parola “ataata” (padre) qui sotto.
Sillabari tipografici con Lambda
Gli strumenti tipografici che ho progettato per il testo Cherokee e Inuktitut possono essere utilizzati con il sistema di composizione Omega, poiché si basano pesantemente sui processi di traduzione Omega (OmegaTP). Tecnicamente, un OmegaTP è un automa deterministico a stati finiti (una “macchina” astratta – una funzione matematica – utilizzata nello studio del calcolo e delle lingue) che viene utilizzato per trasformare un flusso di caratteri in ingresso. Per esempio, un OmegaTP può trasformare un flusso di caratteri ISO-Latin-1 in un flusso di caratteri UCS-2. Mentre possiamo ottenere esattamente lo stesso effetto se stiamo usando qualche preprocessore esterno e TeX, i preprocessori sono notevolmente difficili da usare. Così abbiamo costruito un sistema che non richiedesse un preprocessore.
Prima abbiamo dovuto identificare la codifica valida per il testo Cherokee o Inuktiut. Abbiamo determinato che, poiché entrambi i sillabari sono supportati dallo standard Unicode, avremmo permesso i file di input Unicode (sia UCS-2 che UTF-8). Poiché entrambi i sillabari hanno trascrizioni latine standard, abbiamo deciso di permettere anche quelle. Infine, ci sono stati diversi set di caratteri a otto bit per l’Inuktitut, così ne abbiamo scelto uno. Per lavorare con l’input Unicode, abbiamo usato font virtuali codificati in Unicode. Un font virtuale è un meccanismo con il quale creiamo un font che effettivamente disegna glifi da font esistenti. Per creare un nuovo font virtuale, abbiamo bisogno di costruire un file di elenco di proprietà virtuali, che descrive i glifi virtuali del font, che sono tratti da font reali, così come le loro dimensioni, coppie di crenatura e coppie di legature. Inoltre, i font virtuali sono usati per creare nuovi glifi come lettere accentate, glifi sottolineati, e così via.
Per il Cherokee, Omega usa una versione PostScript del font ufficiale Cherokee TrueType sviluppato da Tonia Williams dell’Oklahoma Cherokee Nation, che non contiene alcun glifo latino e non segue il sistema di numerazione di Sequoya. Per la lingua Inuktitut, usa una versione PostScript del font Nunacom TrueType sviluppato da Nortext, una società canadese che è stata pioniera nella composizione di font in lingua aborigena nei primi anni ’80. I font virtuali per la lingua Inuktitut attingono i glifi dal font Nunacom, dai caratteri standard di Computer Modern che accompagnano ogni installazione di TeX, e da un carattere che ho prodotto io, per integrare i font nella distribuzione standard di TeX.
Per la scrittura Cherokee abbiamo dovuto progettare solo un OmegaTP, poiché non esiste una codifica Cherokee a 8 bit per quanto ne sappiamo. La progettazione dell’OmegaTP è stata quasi semplice, tranne che per un semplice problema: la gestione della sillaba che si verifica quando una “s” non è seguita da una “a,” “e,” “i,” “o,” “u,” o “v.” OmegaTP “spinge indietro” il carattere che segue immediatamente la “s”. Altrimenti, generiamo semplicemente il simbolo corrispondente. Per esempio, se la testa del flusso di input è “se”, OmegaTP restituirà il carattere e così via. Per esempio, l’input “elohinodohiyigesesti” (pace sulla Terra) sarà composto come
Tipotare l’Inuktitut con Lambda è più complesso che comporre il Cherokee perché abbiamo effettivamente una trascrizione latina che può produrre output diversi, a seconda dell’ortografia che si assume, e una codifica valida a otto bit. Così, abbiamo dovuto codificare tre OmegaTP per gestire tutti i casi possibili. Inoltre, abbiamo dovuto offrire agli utenti la possibilità di scegliere il metodo di input in modo trasparente. Quindi, offriamo le opzioni: “nunavut”, “quebec” e “inscii”. Abbiamo avuto molti degli stessi problemi con l’Inuktitut che abbiamo avuto con il Cherokee, come i caratteri che possono stare da soli o iniziare una sillaba. La tabella qui sotto mostra la disposizione del set di caratteri ISCII che corrisponde agli implementazioni di OmegaTP.
Siccome Omega può eseguire la sillabazione delle parole se istruito, abbiamo codificato le regole di sillabazione della lingua Inuktitut in modo che gli strumenti siano completi.
Omega e le altre lingue dei nativi americani
Oltre alle lingue Cherokee e Inuktitut, il Piedi Neri, il Dene (Portatore), il Cree e il Naskapi usano una scrittura non latina. I loro script sono inclusi nel file PDF Unified Canadian Aboriginal Syllabics sezione dello standard Unicode. Pertanto, sulla base della nostra precedente esperienza, è un compito piuttosto semplice creare strumenti simili. Tuttavia, riteniamo che un’idea di gran lunga migliore sia quella di creare un insieme di strumenti che possano essere utilizzati per la composizione di qualsiasi lingua americana che non utilizza la scrittura latina. Questo può sembrare abbastanza restrittivo, ma gli strumenti che sono disponibili oggi sono abbastanza adeguati per gestire quelle lingue americane che usano la scrittura latina.
Ovviamente, ci sono alcune lingue che usano la scrittura latina, come lo Smalgyax e il Tlingit, che hanno alcune lettere speciali (per esempio, lettere sottolineate), e il linguaggio Apache, che ha alcune lettere che sono comuni in alcune lingue europee, ma il testo in queste lingue può essere elaborato con strumenti che sono già ampiamente disponibili. Per esempio, la frase Tlingit (diritti), la frase Smalgyax (diritti), e la parola Apache (pesce) e (mais), sono stati composti con questi metodi standard. Naturalmente, è possibile creare font speciali virtuali che contengono tutte queste lettere latine speciali (Syropoulous et al., 2002).
La situazione è piuttosto diversa quando si tratta della composizione di antiche scritture americane come le scritture Epi-Olmec e Maya. Prima di tutto, i simboli di queste scritture non sono definiti nello standard Unicode. Inoltre, la direzione di scrittura non è occidentale (cioè da sinistra a destra e dall’alto al basso della pagina), invece la loro direzione di scrittura è in realtà identica a quella della scrittura classica mongola Uighur (cioè dall’alto al basso e da sinistra a destra della pagina). Stiamo lavorando ad uno strumento che permetterà ai ricercatori di comporre i pochi testi Epi-Olmec disponibili. Un font Epi-Olmec è quasi pronto. Il font stesso è basato sulla descrizione della scrittura come presentata in Epi-Olmec Hieroglyphic Writing. Poiché la scrittura è approssimativamente un sillabario, abbiamo creato un semplice OmegaTP che può gestire un sottoinsieme del sillabario, ma abbiamo scoperto che i comandi che possono essere usati per impostare la direzione di scrittura non funzionano bene con il nostro font. Così abbiamo dovuto migliorare l’OmegaTP per produrre effettivamente un comando di composizione e non semplicemente una traduzione. Per vedere la differenza, considerate i seguenti esempi:
I simboli sulla sinistra sono stati composti facendo semplicemente affidamento sulle capacità di Omega; quelli sulla destra sono stati composti usando un OmegaTP migliorato. Naturalmente, c’è molto lavoro da fare e quindi non crediamo che gli strumenti saranno disponibili molto presto.
Conclusioni e lavoro futuro
Abbiamo presentato gli strumenti che abbiamo sviluppato per la composizione di testi Cherokee e Inuktitut. Gli strumenti sono liberamente disponibili dal Comprehensive TeX Archive Network (CTAN) all’indirizzo ftp://ftp.dante.de o ftp://ftp.tex.ac.uk o direttamente da me. C’è ancora molto lavoro da fare su questi strumenti – specialmente lo strumento Cherokee – ma possono essere usati come modello per creare nuovi strumenti per altre esigenze di composizione. Poiché le prossime versioni di Omega saranno in grado di comprendere i surrogati Unicode, sarà persino possibile applicare le idee qui presentate al problema della composizione di testi musicali bizantini e occidentali.
Apostolos Syropoulos, presidente e membro fondatore del Greek TeX Friends Group, ha scritto diversi pacchetti LaTeX per facilitare la composizione in lingua greca con LaTeX. È l’autore del primo libro su LaTeX in greco, LATEX. È coautore di TEX and Electronic Typesetting: 110 Questions and Answers, le FAQ greche per TeX, LaTeX, METAFONT e i font in generale. Ha una laurea in fisica, un master in informatica e un dottorato in informatica teorica. Attualmente sta lavorando a libri su LaTeX e la tipografia digitale e sulla programmazione con Perl. Ha scritto molti articoli sull’informatica in generale e sulla tipografia in particolare. I suoi interessi scientifici includono la teoria dei linguaggi di programmazione, la concorrenza, la logica (specialmente la logica lineare e fuzzy) e la composizione elettronica con TEX. Sa programmare in Pascal, FORTRAN, Perl, Modula-2, C/C++, LML, SML, Prolog e Java, e parla greco, inglese, un po’ di svedese e un po’ di russo. Il suo sito web è all’indirizzo http://obelix.ee.duth.gr/~apostolo/. Può essere raggiunto via e-mail a [email protected].
Knuth, D.E. (1992). Il libro Metafont. Volume C di Computers and Typesetting. Reading, MA: Addison-Wesley.
Knuth, D.E. (1993). Il libro TeX. Volume A di Computers and Typesetting. Reading, MA: Addison-Wesley.
Lamport, L. (1994). LaTeX: A Document Preparation System, 2nd ed. Addison-Wesley.
NTS Team e Beiettenlohner, P. (1998). Il manuale e-TeX, versione 2. MAPS, 20, 1998, 248-263.
Syropoulos, A., Tsolomitis, A., and Sofroniou, N. (2002). Tipografia digitale con LaTeX. New York: Springer-Verlag.
Thanh, H.T., Rahtz, S., and Hagen, H. (1999). Il manuale per gli utenti di pdfTeX. MAPS, 22, 1999, 94-114.
Links da questo articolo
Comprehensive TeX Archive Network (CTAN), http://www.ctan.org
Donald E. Knuth, http://www-cs-faculty.stanford.edu/~knuth
Scrittura geroglifica Epi-Olmeca, http://www.albany.edu/anthro/maldp/papers.htm
Nortext, http://www.nortext.com
Oklahoma Cherokee Nation, http://www.cherokee.org
Unicode Standard, http://www.unicode.org
Sillabiche canadesi unificate sezione aborigena dello standard Unicode, http://www.unicode.org/charts/PDF/U1400.pdf