Caracteres

Arquivos de código-fonte em GNU C são geralmente escritos utilizando-se o conjunto de caracteres ASCII, que foi definido na década de 1960 para o inglês. No entanto, eles também podem incluir caracteres Unicode representados na codificação de múltiplos bytes UTF-8. Isso possibilita a representação de letras acentuadas como ‘á’, assim como outros scripts, tais como árabe, chinês, cirílico, hebraico, japonês e coreano.

No código fonte C, caracteres não ASCII são válidos em comentários, em constantes de caracteres largos (veja ) e em strings constantes (veja ).

Outra maneira de especificar caracteres não ASCII em constantes (caracteres ou strings) e identificadores é com uma sequência de escape começando com barra invertida, especificando o caractere Unicode pretendido. (Veja .) Isso especifica caracteres não ASCII sem colocar um caractere não ASCII real no próprio arquivo de código-fonte.

C também aceita pares de caracteres chamados dígrafos para certos caracteres. Veja .

Em alguns sistemas obscuros, GNU C utiliza UTF-EBCDIC ao invés de UTF-8, mas não vale a pena explicar isso neste manual.

Atualizado