Este artigo foi avaliado pelos revisores do Journal of Electronic Publishing.
br>Todas as línguas nativas americanas faladas hoje em dia são escritas ou em algum alfabeto latino, aumentadas com letras “acentuadas”, ou num silabário, um conjunto de símbolos silábicos indivisíveis, cada um dos quais representa uma sílaba. As línguas Apache e Navaho estão entre as línguas nativas americanas que usam um alfabeto latino, enquanto o Cherokee, o Inuiktitut, e o Cree estão entre as línguas que usam sílabas modernas. Os silabários, comuns em scripts antigos, eram utilizados pelos povos Maias e Epi-Olmec da Mesoamérica.
Porque um silabário é menos expressivo do que um script alfabético, pode ser transcrito num script alfabético sem perder o significado. Os estudantes da língua Cherokee aprendem uma transcrição em latim do programa de estudos para facilitar a aprendizagem de Cherokee. As mesmas características que permitem que o Cherokee seja transcrito para o alfabeto latino permitem a criação de ferramentas de composição tipográfica para os silabários. Uma ferramenta moderna de composição tipográfica concebida para tratar os silabários deve permitir aos utilizadores digitar os símbolos directamente (por exemplo, utilizando um editor Unicode se o guião for suportado pelo Unicode Standard, ou por algum editor que suporte um conjunto especial de caracteres), ou utilizando alguma transcrição latina padrão. (Unicode fornece um número único legível por computador – chamado ponto de código – para cada caracter; este número funciona através de plataformas, programas, e línguas.)
Este artigo é sobre Omega, um sistema moderno de composição tipográfica baseado em TeX, que por defeito aceita ficheiros de texto Unicode, mas é capaz de lidar com qualquer codificação de entrada imaginável. Além disso, introduz uma série de características que tornam a vida dos desenhadores de ferramentas bastante fácil. Utilizei estas características para desenvolver uma série de ferramentas que facilitam a preparação de documentos em linguagem Cherokee e Inuktitut.
TeX e LaTeX
TeX é um lendário programa de computador concebido por Donald E. Knuth, o famoso professor de ciências informáticas da Universidade de Stanford. É um motor de composição tipográfica digital, um programa de computador que faz o trabalho de um tipógrafo, descrevendo o aspecto da página impressa (Knuth, 1993). TeX processa um ficheiro de entrada que contém comandos tanto de texto como de composição tipográfica. Leslie Lamport concebeu a LaTeX markup Language (Lamport, 1994) que se situa em cima do motor de composição tipográfica TeX para facilitar a criação de ficheiros de entrada. Porque muitas pessoas estão familiarizadas com o LaTeX mas não conhecem a sua relação com o TeX, pensam erroneamente que o LaTeX e o TeX são dois programas diferentes. No entanto, TeX produz um ficheiro independente de dispositivo (DVI) que descreve o texto e elementos gráficos numa página que pode ser processada posteriormente para gerar outras linguagens de descrição de páginas, tais como a saída PostScript. Knuth também concebeu METAFONT, que implementa uma linguagem de descrição e geração de fontes diferente (Knuth, 1992).
Embora o desenvolvimento de TeX tenha sido congelado desde que Knuth decidiu não desenvolver mais TeX e METAFONT, estão ainda a surgir novos motores de composição tipográfica que alargam as capacidades de TeX. As extensões TeX mais notáveis são: pdfTeX (Thanh et al., 1999), que pode produzir directamente ficheiros PDF; e-TeX (NTS Team e Beiettenlohner, 1998), que é uma extensão TeX que aumenta a capacidade e capacidades do TeX ao permitir a composição tipográfica bidireccional; e Omega, que é a extensão Unicode do TeX capaz de receber a entrada Unicode e de a escrever em muitas direcções (Syropoulos et al., 2002). Além disso, o Omega pode produzir conteúdo XML e MathML. Note-se que o MathML é uma aplicação XML que se destina principalmente a facilitar a utilização e reutilização de conteúdos matemáticos e científicos na Web. Usando Omega, um impressor pode escrever pré-processadores que fazem a ponte entre Unicode e a composição tipográfica. (Note-se que Lambda é um apelido para LaTeX quando usado com Omega.)
Cherokee
Cherokee é uma língua iroquina falada por cerca de 20.000 pessoas, na sua maioria como uma segunda língua. Existem apenas dois dialectos restantes: Oklahoma (falado por aproximadamente 17.000 pessoas) e Carolina do Norte (falado pelas outras 3.000 pessoas).
O guião Cherokee foi desenvolvido no século XIX por um Cherokee chamado Sequoya (que usou o nome George Guess ou George Giss ao lidar com homens brancos). Alguns pensam que o Sequoya foi a única pessoa a desenvolver um guião sozinho, mas há outros que o fizeram. Por exemplo: o grego São Clemente de Ohrid desenvolveu o guião cirílico (Kirilitsa), numa forma próxima da que ainda hoje se usa, com base no trabalho anterior dos monges gregos São Cirilo; São Metódio desenvolveu um guião eslavo chamado Glagolitsa; o Reverendo James Evans criou o sistema de escrita do Inuktitut langauge baseado no trabalho anterior sobre a língua Cree, que, por sua vez, foi baseado no trabalho sobre a língua Ojibway; e Afaka Atumisi inventou o silabário de Ndjuka.
Inuktitut
Inuktitut é a língua dos inuítes (também conhecida como “esquimós”, mas o termo é considerado ofensivo pelos inuítes que vivem no Canadá e na Gronelândia). A língua é falada por aproximadamente 152.000 pessoas na Gronelândia, Canadá, Alasca e no Okrug Autónomo de Chukotka, que está localizado na região do extremo nordeste da Federação Russa. Os silábicos dos Inuktitut são utilizados pelos Inuit que vivem no Canadá, especialmente no novo território canadiano de Nunavut. Este sistema de escrita foi inventado pelo Reverendo James Evans, um missionário Wesleyano. A tabela abaixo mostra a silábica dos Inuktitut e a transcrição latina dos símbolos dos Inuktitut. (Note-se que o guião Inuktitut é suportado por Unicode e faz parte da secção Unified Canadian Aboriginal Syllabics do Unicode Standard.)
Atualmente, existem duas ortografias de Inuktitut (ortografia é a arte ou estudo da ortografia correcta de acordo com o uso estabelecido): a anglicana (usada principalmente em Nunavut) e a católica (usada principalmente em Quebec). Diferem na forma como escrevem vogais “longas” – sílabas com duas vogais idênticas. A ortografia anglicana coloca um ponto acima de uma sílaba curta para a tornar longa; a ortografia católica usa dois símbolos. Note-se as diferentes representações da palavra “ataata” (pai) abaixo.
Typesetting Syllabaries with Lambda
Os instrumentos de composição que desenhei para o texto Cherokee e Inuktitut podem ser usados com o sistema de composição Omega, uma vez que dependem fortemente dos Processos de Tradução Omega (OmegaTPs). Tecnicamente, um OmegaTP é um autómato de estado finito determinístico (uma “máquina” abstracta – uma função matemática – utilizada no estudo de computação e línguas) que é utilizado para transformar um fluxo de caracteres de entrada. Por exemplo, um OmegaTP pode transformar um fluxo de caracteres de entrada ISO-Latin-1 para um fluxo de caracteres UCS-2. Embora possamos obter exactamente o mesmo efeito se estivermos a utilizar algum pré-processador externo e TeX, os pré-processadores são notavelmente difíceis de utilizar. Assim, construímos um sistema que não exigiria um pré-processador.
Primeiro tivemos de identificar a codificação válida para o texto Cherokee ou Inuktiut. Determinámos que, uma vez que ambos os silabários são suportados pelo padrão Unicode, permitiríamos ficheiros de entrada Unicode (ou UCS-2 ou UTF-8). Uma vez que ambos os silabários têm transcrições latinas padrão, decidimos permitir isso, também. Finalmente, houve um conjunto de caracteres de oito bits para Inuktitut, por isso escolhemos um. Para trabalhar com a entrada Unicode, utilizámos fontes virtuais codificadas Unicode. Uma fonte virtual é um mecanismo através do qual criamos uma fonte que realmente extrai glifos de fontes existentes. Para criar uma nova fonte virtual, precisamos de construir um ficheiro de lista de propriedades virtual, que descreve os glifos virtuais da fonte, que são desenhados a partir de fontes reais, bem como as suas dimensões, pares kerning, e pares de ligaduras. Além disso, as fontes virtuais são utilizadas para criar novos glifos tais como letras acentuadas, glifos sublinhados, e assim por diante.
Para Cherokee, Omega utiliza uma versão PostScript da fonte oficial Cherokee TrueType desenvolvida por Tonia Williams da Nação Oklahoma Cherokee, que não contém glifos latinos e não segue o sistema de numeração da Sequoya. Para a linguagem Inuktitut, utiliza uma versão PostScript da fonte Nunacom TrueType desenvolvida pela Nortext, uma empresa canadiana que foi pioneira na criação de fontes tipográficas em língua aborígene no início dos anos 80. As fontes virtuais para a linguagem Inuktitut extraem glifos da fonte Nunacom, as fontes padrão Computer Modern que acompanham cada instalação TeX, e uma fonte que eu produzi, para complementar as fontes na distribuição padrão TeX.
Para o script Cherokee tivemos de conceber apenas um OmegaTP, uma vez que não existe uma página de código Cherokee de 8 bits, tanto quanto é do nosso conhecimento. O design do OmegaTP foi quase directo, excepto por um problema simples: o manuseamento da sílaba que ocorre quando um “s” não é seguido por um “a”, “e”, “i”, “o”, “u”, ou “v”. OmegaTP “empurra para trás” o carácter que imediatamente segue o carácter “s”. Caso contrário, simplesmente geramos o símbolo correspondente. Por exemplo, se a cabeça do fluxo de entrada for “se”, OmegaTP devolverá o carácter e assim por diante. Por exemplo, o input “elohinodohiyigesesti” (paz na Terra) será datilografado como
Typesetting Inuktitut with Lambda é mais complexo do que a tipografia Cherokee, porque na realidade temos uma transcrição em latim que pode produzir resultados diferentes, dependendo da ortografia que se assume, e uma página de código de oito bits válida. Assim, tivemos de codificar três OmegaTPs para tratar de todos os casos possíveis. Além disso, tivemos de oferecer aos utilizadores a possibilidade de escolher o método de entrada de uma forma transparente. Por isso, oferecemos as opções: “nunavut”, “quebec”, e “inscii”. Tivemos muitos dos mesmos problemas com o Inuktitut que tivemos com o Cherokee, tais como personagens que podem ou ficar sozinhos ou iniciar uma sílaba. A tabela abaixo mostra a disposição do conjunto de caracteres ISCII que corresponde aos implementos OmegaTP.
Desde que os Omega podem realizar hifenização de palavras se instruídos, codificamos as regras de hifenização da linguagem Inuktitut para que as ferramentas estejam completas.
Omega e as Outras Línguas Nativas Americanas
Além das línguas Cherokee e Inuktitut, o Pé Negro, o Dene (Portador), o Cree e as línguas Naskapi usam uma escrita não-Latina. Os seus guiões estão incluídos no ficheiro PDF Unified Canadian Aboriginal Syllabics section of the Unicode Standard. Por conseguinte, com base na nossa experiência anterior, é uma tarefa bastante simples criar ferramentas semelhantes. Contudo, sentimos que uma ideia muito melhor é criar um conjunto de ferramentas que possam ser utilizadas para tipografar qualquer língua americana que não utilize o guião latino. Isto pode parecer bastante restritivo, mas as ferramentas hoje disponíveis são bastante adequadas para lidar com as línguas americanas que utilizam a escrita latina.
Obviamente, existem algumas línguas que utilizam a escrita latina, como Smalgyax e Tlingit, que têm algumas letras especiais (por exemplo, letras sublinhadas), e a língua Apache, que tem algumas letras que são comuns em algumas línguas europeias, mas o texto nestas línguas pode ser processado com ferramentas que já estão amplamente disponíveis. Por exemplo, a frase Tlingit (direitos), a frase Smalgyax (direitos), e a palavra Apache (peixe) e (milho), foram datilografadas com estes métodos padrão. Naturalmente, é possível criar fontes virtuais especiais que contenham todas estas letras latinas especiais (Syropoulous et al., 2002).
A situação é bastante diferente quando se trata da composição tipográfica de scripts americanos antigos, como os scripts Epi-Olmec e Maya. Em primeiro lugar, os símbolos destes scripts não estão definidos na norma Unicode. Além disso, a direcção de escrita não é ocidental (i.e., da esquerda para a direita e de cima para baixo da página), em vez disso, a sua direcção de escrita é na realidade idêntica à direcção de escrita do clássico script mongol Uighur (i.e., de cima para baixo e da esquerda para a direita da página). Estamos a trabalhar numa ferramenta que permitirá aos investigadores datilografar os poucos textos de Epi-Olmec que estão disponíveis. Uma fonte de Epi-Olmec está quase pronta. A fonte em si é baseada na descrição do guião tal como apresentado na escrita hieroglífica de Epi-Olmec. Uma vez que o guião é aproximadamente um silabário, criámos um simples OmegaTP que pode lidar com um subconjunto do silabário, mas descobrimos que os comandos que podem ser usados para definir a direcção de escrita não funcionam bem com a nossa fonte. Por isso, tivemos de melhorar o OmegaTP para produzir realmente um comando de composição tipográfica e não apenas uma tradução. Para ver a diferença, considere os seguintes exemplos:
Os símbolos à esquerda foram datilografados contando apenas com as capacidades do Omega; os da direita foram datilografados utilizando um OmegaTP melhorado. Claro que há muito trabalho a fazer e por isso não acreditamos que as ferramentas estarão disponíveis em breve.
Conclusões e Trabalho Futuro
Apresentamos as ferramentas que desenvolvemos para a composição tipográfica dos textos Cherokee e Inuktitut. As ferramentas estão disponíveis gratuitamente na Comprehensive TeX Archive Network (CTAN) em ftp://ftp.dante.de ou ftp://ftp.tex.ac.uk ou directamente de mim. Há ainda muito trabalho a fazer sobre estas ferramentas – especialmente a ferramenta Cherokee – mas podem ser utilizadas como modelo para criar novas ferramentas para outras necessidades de composição tipográfica. Como as próximas versões do Omega serão capazes de compreender os substitutos Unicode, será mesmo possível aplicar as ideias aqui apresentadas ao problema da composição de texto de música bizantina e ocidental.
Knuth, D.E. (1992). O Livro Metafont. Volume C de Computadores e Typesetting. Leitura, MA: Addison-Wesley.
Knuth, D.E. (1993). O Livro TeX. Volume A de Computadores e composição tipográfica. Leitura, MA: Addison-Wesley.
Lamport, L. (1994). LaTeX: Um Sistema de Preparação de Documentos, 2ª ed., L. (1994). Addison-Wesley.
NTS Team and Beiettenlohner, P. (1998). O manual e-TeX, Versão 2. MAPS, 20, 1998, 248-263.
Syropoulos, A., Tsolomitis, A., e Sofroniou, N. (2002). Tipografia digital usando LaTeX. Nova Iorque: Springer-Verlag.
Thanh, H.T., Rahtz, S., e Hagen, H. (1999). O manual do utilizador do pdfTeX. MAPS, 22, 1999, 94-114.
Links deste artigo
Rede de Arquivos TeX (CTAN) compreensiva, http://www.ctan.org
Donald E. Knuth, http://www-cs-faculty.stanford.edu/~knuth
Epi-Olmec Hieroglyphic Writing, http://www.albany.edu/anthro/maldp/papers.htm
Nortext, http://www.nortext.com
Oklahoma Cherokee Nation, http://www.cherokee.org
Unicode Standard, http://www.unicode.org
p> secção Unified Canadian Aboriginal Syllabics do Unicode Standard, http://www.unicode.org/charts/PDF/U1400.pdf