Variáveis em C
Entendendo como variáveis em C são representadas em Assembly.
Como já vimos no capítulo A base, variáveis nada mais são do que um espaço de memória que pode ser manipulado pelo programa. Em C existem diversas nuances em como variáveis são alocadas e mantidas pelo compilador e aqui vamos entender essas diferenças.
Na linguagem C existem palavra-chaves que são chamadas de storage-class specifiers, onde elas determinam o storage-class de uma variável. Na prática isso determina como a variável deve ser armazenada no programa. No C11 existem os seguintes storage-class specifiers:
extern
static
_Thread_local
auto (esse é o padrão)
register
Variáveis globais
As variáveis globais em C são alocadas na seção .data
ou .bss
, dependendo se ela foi inicializada ou não. Como no exemplo:
Se compilamos com gcc main.c -S -o main.s -fno-asynchronous-unwind-tables
obtemos a seguinte saída:
A variável data_var
foi alocada na seção .data
e teve seu símbolo exportado com a diretiva .globl data_var
, que é equivalente a diretiva global
do NASM.
Já a variável bss_var
foi declarada com a diretiva .comm symbol, size, aligment
que serve para declarar commom symbols (símbolos comuns). Onde ela recebe como argumento o nome do símbolo seguido de seu tamanho (em bytes) e opcionalmente um valor de alinhamento. Em arquivos objetos ELF o argumento de alinhamento é um alinhamento em bytes, nesse exemplo a variável será alocada em um endereço alinhado por 4 bytes.
Os símbolos declarados com a diretiva .comm
que não foram inicializados em qualquer arquivo objeto são alocados na seção .bss
. Logo nesse caso o uso da diretiva seria equivalente ao uso de res*
do NASM, com a diferença que no NASM precisamos usar explicitamente na seção onde o espaço será alocado.
Variável static global
As variáveis globais com storage-class static
funcionam da mesma maneira que as variáveis globais comum, com a diferença que seu símbolo não é exportado para que possa ser acessado em outro arquivo objeto. Como no exemplo:
Onde obtemos a saída:
Repare que dessa vez o símbolo data_var
não foi exportado com a diretiva .globl
, enquanto o bss_var
foi explicitamente declarado como local com a diretiva .local
(já que a diretiva .comm
exporta como global por padrão).
Variável extern
Variáveis extern
em C são basicamente variáveis que são definidas em outro módulo. O GAS tem uma diretiva .extern
que é equivalente a diretiva extern
do NASM, isto é, indica que o símbolo será definido em outro arquivo objeto. Porém qualquer símbolo não declarado já é considerado externo por padrão pelo GAS. Experimente ver o código de saída do exemplo abaixo:
Você vai reparar que na função main
o símbolo extern_var
foi lido porém ele não foi declarado.
Variáveis locais
Variáveis locais em C são comumente alocadas no stack frame da função, porém em alguns casos o compilador também pode reservar um registrador para armazenar o valor da variável.
Em C existe o storage-class register
que serve como um "pedido" para o compilador alocar aquela variável de forma que o acesso a mesma seja o mais rápido possível, que geralmente é em um registrador (daí o nome da palavra-chave). Mas isso não garante que a variável será realmente alocada em um registrador. Na prática o único efeito colateral garantido é que você não poderá obter o endereço na memória daquela variável com o operador de endereço (&
), e muitas vezes o compilador já vai alocar a variável em um registrador mesmo sem o uso da palavra-chave.
Variável static local
Variáveis static
local são armazenadas da mesma maneira que as variáveis static
global, a única coisa que muda é no ponto de vista do código-fonte em C onde a visibilidade da variável é limitada para o escopo onde ela foi declarada. Isso faz com o que o compilador gere um símbolo de nome único para a variável, como no exemplo abaixo:
Repare como data_var.1913
não teve seu símbolo exportado e bss_var.1914
foi declarado como local.
Variáveis _Thread_local
O storage-class _Thread_local
foi adicionado no C11. Assim como o nome sugere ele serve para alocar variáveis em uma região de memória que é local para cada thread do processo. Vamos analisar o exemplo:
No Linux, em x86-64, a região de memória local para cada thread (thread-local storage - TLS) fica no segmento apontado pelo registrador de segmento FS, por isso os valores das variáveis estão sendo lidos desse segmento.
Repare que as seções são diferentes, .tdata
(equivalente a .data
só que thread-local) e .tbss
(equivalente a .bss
) são utilizadas para armazenar as variáveis.
O sufixo @tpoff
(thread pointer offset) usado nos símbolos indica que o offset do símbolo deve ser calculado levando em consideração a TLS como endereço de origem. Por padrão o offset é calculado com o segmento de dados "normal" como origem.
Lidando com os tipos da linguagem C
Agora que já entendemos onde e como as variáveis são alocadas em C, só falta entender "o que" está sendo armazenado.
Arrays e strings
O tipo array em C é meramente uma sequência de variáveis do mesmo tipo na memória. Por exemplo podemos inicializar um int arr[4]
na sintaxe do GAS da seguinte forma:
Onde os valores 1
, 2
, 3
e 4
são despejados em sequência.
Em C não existe um tipo string porém por convenção as strings são uma array de char
, onde o último char
contém o valor zero (chamado de terminador nulo). Esse último caractere '\0'
é usado para denotar o final da string e funções da libc que lidam com strings esperam por isso. Exemplos:
As três strings acima são equivalentes na sintaxe do GAS.
Sobre a passagem de arrays (incluindo obviamente strings) como argumento para uma função, isso é feito passando um ponteiro para o primeiro elemento da array.
Ponteiros
Ponteiros em C, na arquitetura x86/x86-64, são traduzidos meramente como o offset do objeto na memória. O segmento não é especificado como parte do valor do ponteiro.
Experimente ler o código de saída do seguinte programa:
A leitura do endereço de my_var
vai ser compilada para algo como:
Onde primeiro é obtido o endereço do início do segmento FS que depois é somado ao offset de my_var
. Assim obtendo o endereço efetivo da variável na memória.
Estruturas
As estruturas em C são compiladas de forma que os valores dos campos da estrutura são dispostos em sequência na memória, seguindo a mesma ordem que foram declarados na estrutura. Existe a possibilidade do GCC adicionar alguns bytes extras no final da estrutura afim de manter o alinhamento dos dados, esses bytes extras são chamados de padding. Exemplo:
Isso produziria o seguinte código para a inicialização da variável test
:
Repare a diretiva .zero 3
que foi usada para despejar 3 bytes zero no final da estrutura, afim de alinhar a mesma em 4 bytes. No total a estrutura acaba tendo 8 bytes de tamanho: 4 bytes do int
, 1 byte do char
e 3 bytes de padding.
Unions
As unions são bem simples, são alocadas com o tamanho do maior tipo declarado para a union. Por exemplo:
Essa union é alocada na memória da mesma forma que um int
, que tem 4 bytes de tamanho.
Last updated