Este artículo fue arbitrado por los revisores del Journal of Electronic Publishing.
Todas las lenguas nativas americanas que se hablan hoy en día se escriben en algún alfabeto latino, aumentado con letras «acentuadas», o en un silabario, un conjunto de símbolos silábicos indivisibles, cada uno de los cuales representa una sílaba. Las lenguas apache y navaho son algunas de las lenguas nativas americanas que utilizan el alfabeto latino, mientras que el cherokee, el inuiktitut y el cree son algunas de las lenguas que utilizan silabarios modernos. Los silabarios, comunes en las escrituras antiguas, fueron utilizados por los mayas y los epi-Olmecas de Mesoamérica.
Debido a que un silabario es menos expresivo que una escritura alfabética, puede ser transcrito en una escritura alfabética sin perder su significado. Los estudiantes de la lengua cherokee aprenden una transcripción latina del silabario para facilitar el aprendizaje del cherokee. Las mismas características que permiten transcribir el cheroqui al alfabeto latino permiten la creación de herramientas de composición tipográfica para los silabarios. Una herramienta de composición tipográfica moderna diseñada para manejar silabarios debería permitir a los usuarios escribir los símbolos directamente (por ejemplo, utilizando un editor Unicode si la escritura está soportada por el estándar Unicode, o por algún editor que soporte un conjunto de caracteres especiales), o utilizando alguna transcripción latina estándar. (Unicode proporciona un número único legible por ordenador -llamado punto de código- para cada carácter; este número funciona en todas las plataformas, programas e idiomas.)
Este artículo trata sobre Omega, un moderno sistema de composición tipográfica basado en TeX, que por defecto acepta archivos de texto Unicode, pero es capaz de manejar cualquier codificación de entrada imaginable. Además, introduce una serie de características que facilitan bastante la vida de los diseñadores de herramientas. He utilizado estas características para desarrollar una serie de herramientas que facilitan la preparación de documentos en lengua cherokee e inuktitut.
TeX y LaTeX
TeX es un legendario programa informático diseñado por Donald E. Knuth, el famoso profesor de informática de la Universidad de Stanford. Es un motor de composición digital, un programa informático que hace el trabajo de un tipógrafo, describiendo la apariencia de la página impresa (Knuth, 1993). TeX procesa un archivo de entrada que contiene tanto texto como comandos de composición. Leslie Lamport diseñó el lenguaje de marcas LaTeX (Lamport, 1994) que se asienta sobre el motor de composición tipográfica TeX para facilitar la creación de archivos de entrada. Como mucha gente está familiarizada con LaTeX pero no conoce su relación con TeX, piensa erróneamente que LaTeX y TeX son dos programas diferentes. Sin embargo, TeX produce un archivo independiente del dispositivo (DVI) que describe el texto y los elementos gráficos de una página y que puede ser procesado posteriormente para generar otros lenguajes de descripción de páginas, como la salida PostScript. Knuth también diseñó METAFONT, que implementa un lenguaje diferente de descripción y generación de fuentes (Knuth, 1992).
Aunque el desarrollo de TeX se ha congelado desde que Knuth decidió no seguir desarrollando TeX y METAFONT, siguen apareciendo nuevos motores de composición tipográfica que amplían las capacidades de TeX. Las extensiones de TeX más notables son: pdfTeX (Thanh et al., 1999), que puede producir directamente archivos PDF; e-TeX (NTS Team y Beiettenlohner, 1998), que es una extensión de TeX que aumenta la capacidad y las capacidades de TeX al permitir la composición tipográfica bidireccional; y Omega, que es la extensión Unicode de TeX capaz de tomar la entrada Unicode y componerla en muchas direcciones de escritura (Syropoulos et al., 2002). Además, Omega puede producir contenido XML y MathML. Obsérvese que MathML es una aplicación XML cuyo objetivo principal es facilitar el uso y la reutilización de contenidos matemáticos y científicos en la web. Utilizando Omega, un tipógrafo puede escribir preprocesadores que sirvan de puente entre Unicode y la composición tipográfica. (Tenga en cuenta que Lambda es un apodo para LaTeX cuando se utiliza con Omega.)
Cherokee
El cherokee es una lengua iroquesa hablada por unas 20.000 personas, principalmente como segunda lengua. Sólo quedan dos dialectos: Oklahoma (hablado por unas 17.000 personas) y Carolina del Norte (hablado por las otras 3.000 personas).
La escritura cherokee fue desarrollada en el siglo XIX por un cherokee llamado Sequoya (que utilizaba el nombre de George Guess o George Giss cuando trataba con hombres blancos). Algunos piensan que Sequoya fue la única persona que desarrolló una escritura en solitario, pero hay otros que lo han hecho. Por ejemplo: el griego San Clemente de Ohrid desarrolló la escritura cirílica (Kirilitsa), en una forma cercana a la que todavía se utiliza hoy en día, basándose en el trabajo anterior de los monjes griegos San Cirilo; San Metodio desarrolló una escritura eslava llamada Glagolitsa; el reverendo James Evans creó el sistema de escritura de la lengua Inuktitut basándose en trabajos anteriores sobre la lengua Cree, que, a su vez, se basaba en trabajos sobre la lengua Ojibway; y Afaka Atumisi inventó el silabario Ndjuka.
Inuktitut
El inuktitut es la lengua de los inuit (también conocidos como «esquimales», pero el término es considerado ofensivo por los inuit que viven en Canadá y Groenlandia). Lo hablan aproximadamente 152.000 personas en Groenlandia, Canadá, Alaska y el Distrito Autónomo de Chukotka, situado en el extremo noreste de la Federación Rusa. Los inuit que viven en Canadá, especialmente en el nuevo territorio canadiense de Nunavut, utilizan el silabario inuktitut. Este sistema de escritura fue inventado por el reverendo James Evans, un misionero wesleyano. La siguiente tabla muestra los silabarios del inuktitut y la transcripción latina de los símbolos del inuktitut. (Tenga en cuenta que la escritura Inuktitut es apoyada por Unicode y en realidad es parte de la sección de silabeo aborigen canadiense unificado del estándar Unicode.)
Actualmente, hay dos ortografías Inuktitut (la ortografía es el arte o el estudio de la ortografía correcta según el uso establecido): la anglicana (utilizada principalmente en Nunavut) y la católica (utilizada principalmente en Quebec). Se diferencian en la forma de escribir las vocales «largas», es decir, las sílabas con dos vocales idénticas. La ortografía anglicana coloca un punto sobre una sílaba corta para hacerla larga; la católica utiliza dos símbolos. Observe las diferentes representaciones de la palabra «ataata» (padre) a continuación.
Configuración de silabarios con Lambda
Las herramientas de composición que diseñé para el texto cherokee e inuktitut pueden utilizarse con el sistema de composición Omega, ya que se basan en gran medida en los Procesos de Traducción Omega (OmegaTPs). Técnicamente, un OmegaTP es un autómata de estado finito determinista (una «máquina» abstracta -una función matemática- utilizada en el estudio de la computación y los lenguajes) que se utiliza para transformar un flujo de caracteres de entrada. Por ejemplo, un OmegaTP puede transformar un flujo de caracteres de entrada ISO-Latin-1 en un flujo de caracteres UCS-2. Aunque podemos conseguir exactamente el mismo efecto si utilizamos algún preprocesador externo y TeX, los preprocesadores son notablemente difíciles de utilizar. Así que construimos un sistema que no requiriera un preprocesador.
Primero tuvimos que identificar la codificación válida para el texto Cherokee o Inuktiut. Determinamos que, dado que ambos silabarios son compatibles con el estándar Unicode, permitiríamos archivos de entrada Unicode (ya sea UCS-2 o UTF-8). Como ambos silabarios tienen transcripciones latinas estándar, decidimos permitirlas también. Por último, existen varios conjuntos de caracteres de ocho bits para el inuktitut, así que elegimos uno. Para trabajar con la entrada Unicode, utilizamos fuentes virtuales codificadas con Unicode. Una fuente virtual es un mecanismo por el cual creamos una fuente que realmente dibuja glifos de fuentes existentes. Para crear una nueva fuente virtual, tenemos que construir un archivo de lista de propiedades virtuales, que describe los glifos virtuales de la fuente, que se dibujan a partir de fuentes reales, así como sus dimensiones, pares de interletraje y pares de ligaduras. Además, las fuentes virtuales se utilizan para crear nuevos glifos, como letras acentuadas, glifos subrayados, etc.
Para el cherokee, Omega utiliza una versión PostScript de la fuente oficial Cherokee TrueType desarrollada por Tonia Williams de la Nación Cherokee de Oklahoma, que no contiene ningún glifo latino y no sigue el sistema de numeración de Sequoya. Para la lengua inuktitut, utiliza una versión PostScript de la fuente Nunacom TrueType desarrollada por Nortext, una empresa canadiense pionera en la composición de fuentes en lenguas aborígenes a principios de los años 80. Las fuentes virtuales para la lengua inuktitut extraen glifos de la fuente Nunacom, de los tipos de letra estándar de Computer Modern que acompañan a toda instalación de TeX, y de un tipo de letra que he fabricado yo, para complementar las fuentes de la distribución estándar de TeX.
Para la escritura cherokee tuvimos que diseñar sólo un OmegaTP, ya que no existe una codificación cherokee de 8 bits hasta donde sabemos. El diseño del OmegaTP fue casi sencillo, excepto por un simple problema: el manejo de la sílaba que se produce cuando una «s» no va seguida de una «a», «e», «i», «o», «u» o «v». OmegaTP «empuja hacia atrás» el carácter que sigue inmediatamente al carácter «s». En caso contrario, simplemente generamos el símbolo correspondiente. Por ejemplo, si la cabeza del flujo de entrada es «se», OmegaTP devolverá el carácter y así sucesivamente. Por ejemplo, la entrada «elohinodohiyigesesti» (paz en la Tierra) se tipografiará como
La tipografía del inuktitut con Lambda es más compleja que la del cherokee porque en realidad tenemos una transcripción latina que puede producir diferentes resultados, dependiendo de la ortografía que se asuma, y una codificación válida de ocho bits. Por lo tanto, tuvimos que codificar tres OmegaTP para manejar todos los casos posibles. Además, teníamos que ofrecer a los usuarios la posibilidad de elegir el método de entrada de forma transparente. Así, ofrecemos las opciones «nunavut», «quebec» e «inscii». Con el inuktitut tuvimos muchos de los mismos problemas que con el cherokee, como los caracteres que pueden estar solos o iniciar una sílaba. La tabla siguiente muestra la disposición del conjunto de caracteres ISCII que corresponde a los implementos de OmegaTP.
Como Omega puede realizar la separación de palabras si se le indica, codificamos las reglas de separación de la lengua inuktitut para que las herramientas sean completas.
Omega y las otras lenguas nativas americanas
Además del cherokee y el inuktitut, el pie negro, el dene (portador), el cree y el naskapi utilizan una escritura no latina. Sus escrituras están incluidas en el archivo PDF de la sección Unified Canadian Aboriginal Syllabics del estándar Unicode. Por lo tanto, basándonos en nuestra experiencia anterior, es una tarea bastante sencilla crear herramientas similares. Sin embargo, creemos que una idea mucho mejor es crear un conjunto de herramientas que puedan utilizarse para componer cualquier lengua americana que no utilice el alfabeto latino. Esto puede parecer bastante restrictivo, pero las herramientas que están disponibles hoy en día son bastante adecuadas para manejar aquellos idiomas americanos que utilizan la escritura latina.
Por supuesto, hay algunos idiomas que utilizan la escritura latina, como el Smalgyax y el Tlingit, que tienen algunas letras especiales (por ejemplo, letras subrayadas), y el idioma Apache, que tiene algunas letras que son comunes en algunos idiomas europeos, pero el texto en estos idiomas puede ser procesado con herramientas que ya están ampliamente disponibles. Por ejemplo, la frase tlingit (derechos), la frase smalgyax (derechos), y la palabra apache (pescado) y (maíz), han sido tipografiadas con estos métodos estándar. Por supuesto, es posible crear fuentes virtuales especiales que contengan todas estas letras latinas especiales (Syropoulous et al., 2002).
La situación es bastante diferente cuando se trata de la composición tipográfica de antiguas escrituras americanas como la epiolmeca y la maya. En primer lugar, los símbolos de estas escrituras no están definidos en el estándar Unicode. Además, la dirección de escritura no es occidental (es decir, de izquierda a derecha y de arriba a abajo de la página), sino que su dirección de escritura es en realidad idéntica a la de la escritura clásica mongola uigur (es decir, de arriba a abajo y de izquierda a derecha de la página). Estamos trabajando en una herramienta que permitirá a los investigadores componer los pocos textos epiolmecas disponibles. Un tipo de letra epi-olmeca está casi listo. El tipo de letra se basa en la descripción de la escritura presentada en Epi-Olmec Hieroglyphic Writing. Dado que la escritura es más o menos un silabario, hemos creado un OmegaTP simple que puede manejar un subconjunto del silabario, pero hemos encontrado que los comandos que se pueden utilizar para establecer la dirección de la escritura no funcionan bien con nuestra fuente. Así que hemos tenido que mejorar el OmegaTP para que realmente produzca un comando de composición y no una mera traducción. Para ver la diferencia, considere los siguientes ejemplos:
Los símbolos de la izquierda se compusieron simplemente confiando en las capacidades de Omega; los de la derecha se compusieron utilizando un OmegaTP mejorado. Por supuesto, queda mucho trabajo por hacer y no creemos que las herramientas estén disponibles en breve.
Conclusiones y trabajo futuro
Hemos presentado las herramientas que hemos desarrollado para la composición de textos cherokee e inuktitut. Las herramientas están disponibles gratuitamente en la Comprehensive TeX Archive Network (CTAN) en ftp://ftp.dante.de o ftp://ftp.tex.ac.uk o directamente conmigo. Todavía queda mucho trabajo por hacer con estas herramientas -especialmente con la herramienta cherokee-, pero pueden servir de modelo para crear nuevas herramientas para otras necesidades de composición. Como las próximas versiones de Omega serán capaces de entender los sustitutos de Unicode, incluso será posible aplicar las ideas presentadas aquí al problema de la composición de textos musicales bizantinos y occidentales.
Knuth, D.E. (1992). El libro de Metafont. Volumen C de Computers and Typesetting. Reading, MA: Addison-Wesley.
Knuth, D.E. (1993). The TeX Book. Volume A of Computers and Typesetting. Reading, MA: Addison-Wesley.
Lamport, L. (1994). LaTeX: A Document Preparation System, 2nd ed. Addison-Wesley.
Equipo NTS y Beiettenlohner, P. (1998). El manual de e-TeX, versión 2. MAPS, 20, 1998, 248-263.
Syropoulos, A., Tsolomitis, A., y Sofroniou, N. (2002). Digital Typography using LaTeX (Tipografía digital con LaTeX). New York: Springer-Verlag.
Thanh, H.T., Rahtz, S., y Hagen, H. (1999). The pdfTeX users manual. MAPS, 22, 1999, 94-114.
Enlaces de este artículo
Comprehensive TeX Archive Network (CTAN), http://www.ctan.org
Donald E. Knuth, http://www-cs-faculty.stanford.edu/~knuth
Escritura jeroglífica epi-Olmeca, http://www.albany.edu/anthro/maldp/papers.htm
Nortexto, http://www.nortext.com
Nación Cherokee de Oklahoma, http://www.cherokee.org
Nortexto, http://www.nortext.com
Nortexto de la Nación Cherokee de Oklahoma, http://www.cherokee.org
Sección de silabeo aborigen canadiense unificado del estándar Unicode, http://www.unicode.org/charts/PDF/U1400.pdf