1 of 6

Entendendo SSE

Aprendendo sobre SIMD, SSE e registradores XMM.

Na computação existe um conceito de instrução chamado SIMD (Single Instruction, Multiple Data) que é basicamente uma instrução que processa múltiplos dados de uma única vez. Todas as instruções que vimos até agora processavam meramente um dado por vez, porém instruções SIMD podem processar diversos dados paralelamente. O principal objetivo das instruções SIMD é ganhar performance se aproveitando dos múltiplos núcleos do processador, a maioria das instruções SIMD foram implementadas com o intuito de otimizar cálculos comuns em áreas como processamento gráfico, inteligência artificial, criptografia, matemática etc.

A Intel criou a primeira versão do SSE (streaming SIMD extensions) ainda no IA-32 com o Pentium III, e de lá para cá já ganhou diversas novas versões que estendem a tecnologia adicionando novas instruções. Atualmente nos processadores mais modernos há as seguintes extensões: SSE, SSE2, SSE3, SSSE3 e SSE4.

Instruções de movimentação de dados

Listando algumas instruções de movimentação de dados do SSE.

MOVAP(S|D)/MOVUP(S|D) | Move Aligned/Unaligned Packed (Single|Double)-precision floating-point

As instruções MOVAPS e MOVUPS fazem a mesma coisa: Movem 4 valores float empacotados entre registradores XMM ou de/para memória principal. MOVAPD e MOVUPD porém lida com 2 valores double.

A diferença é que a instrução MOVAPS/MOVAPD espera que o endereço do valor na memória esteja alinhado a um valor de 16 bytes, caso não esteja a instrução dispara uma exceção #GP (General Protection ou "segmentation fault" como é conhecido no Linux). O motivo dessa instrução exigir isso é que acessar o endereço alinhado é muito mais performático.

Já a instrução MOVUPS/MOVUPD pode acessar um endereço de memória desalinhado (unaligned) sem ocorrer nenhum erro, porém ela é menos performática.

Um exemplo de uso da MOVAPS na nossa PoC:

Sem entrar em detalhes ainda sobre a convenção de chamada, o ponteiro recebido como argumento pela função assembly() está no registrador RDI.

Sobre o atributo align=16 usado na seção .rodata ele serve para fazer exatamente o que o nome sugere: Alinhar o endereço inicial da seção em um múltiplo de 16, que é uma exigência da instrução MOVAPS.

Um detalhe interessante que vale citar é que apesar da instrução ter sido feita para lidar com um determinado tipo de dado nada impede de nós carregarmos outros dados nos registradores XMM. No exemplo abaixo usei a instrução MOVUPS para mover uma string de 16 bytes com apenas duas instruções:

MOVS(S|D) | Move Scalar (Single|Double)-precision floating-point

Move um único float/double entre registradores XMM, onde o valor estaria contido na double word (4 bytes) ou quadword (8 bytes) menos significativo do registrador. E também é possível mover de/para memória principal.

MOVLP(S|D) | Move Low Packed (Single|Double)-precision floating-point

A instrução MOVLPS instrução é semelhante à MOVUPS porém carrega/escreve apenas dois floats. No registrador os dois floats ficam armazenados no quadword (8 bytes) menos significativo. O quadword mais significativo do registrador não é alterado.

Já MOVLPD faz a mesma operação porém com um double contido no quadword menos significativo.

MOVHP(S|D) | Move High Packed (Single|Double)-precision floating-point

Semelhante a instrução acima porém armazena/ler o valor do registrador XMM no quadword mais significativo. O quadword menos significativo do registrador não é alterado.

MOVLHPS | Move Packed Single-precision floating-point Low to High

Move o quadword (8 bytes) menos significativo do registrador fonte (a direita) para o quadword mais significativo do registrador destino. O quadword menos significativo do registrador destino não é alterado.

MOVHLPS | Move Packed Single-precision floating-point High to Low

Move o quadword (8 bytes) mais significativo do registrador fonte (a direita) para o quadword menos significativo do registrador destino. O quadword mais significativo do registrador destino não é alterado.

MOVMSKP(S|D) | Move Packed (Single|Double)-precision floating-point mask

MOVMSKPS move os bits mais significativos (MSB) de cada um dos quatro valores float contido no registrador XMM para os 4 bits menos significativo do registrador de propósito geral. Os outros bits do registrador são zerados.

Já MOVMSKPD faz a mesma coisa porém com os 2 valores doubles contidos no registrador, assim definindo os 2 bits menos significativos do registrador de propósito geral.

Essa instrução pode ser usada com o intuito de verificar o sinal de cada um dos valores float/double, tendo em vista que o bit mais significativo é usado para indicar o sinal do número (0 caso positivo e 1 caso negativo).

Instruções aritméticas

Instruções de operação aritmética do SSE.

ADDP(S|D) | Add Packed (Single|Double)-precision floating-point values

Soma 4 números float (ou 2 números double) de uma única vez no registrador destino com os quatro números float (ou 2 números double) do registrador/memória fonte. Exemplo:

Instruções lógicas e de comparação

Instruções lógicas SSE

ANDP(S|D) | bitwise logical AND of Packed (Single|Double)-precision floating-point values

Instruções com inteiros 128-bit

PAVGB/PAVGW | Compute average of packed unsigned (byte|word) of integers

Calcula a média da soma de todos os valores dos dois operandos somados. PAVGB calcula a média somando 16 bytes em cada operando, enquanto PAVGW soma 8 words em cada um.

Instruções de conversão

Convertendo valores entre float, double e inteiro.

Essas instruções servem para conversão de tipos entre float, double e inteiro.

Conversão entre double e float

Instruções de movimentação de dados

Listando algumas instruções de movimentação de dados do SSE.

MOVAP(S|D)/MOVUP(S|D) | Move Aligned/Unaligned Packed (Single|Double)-precision floating-point

MOVAPS xmm(n), xmm(n)
MOVAPS xmm(n), float(4)
MOVAPS float(4), xmm(n)

MOVUPS xmm(n), xmm(n)
MOVUPS xmm(n), float(4)
MOVUPS float(4), xmm(n)


MOVAPD xmm(n), xmm(n)
MOVAPD xmm(n), double(2)
MOVAPD double(2), xmm(n)

MOVUPD xmm(n), xmm(n)
MOVUPD xmm(n), double(2)
MOVUPD double(2), xmm(n)

As instruções MOVAPS e MOVUPS fazem a mesma coisa: Movem 4 valores float empacotados entre registradores XMM ou de/para memória principal. MOVAPD e MOVUPD porém lida com 2 valores double.

Já a instrução MOVUPS/MOVUPD pode acessar um endereço de memória desalinhado (unaligned) sem ocorrer nenhum erro, porém ela é menos performática.

Um exemplo de uso da MOVAPS na nossa PoC:

Sem entrar em detalhes ainda sobre a convenção de chamada, o ponteiro recebido como argumento pela função assembly() está no registrador RDI.

MOVS(S|D) | Move Scalar (Single|Double)-precision floating-point

MOVLP(S|D) | Move Low Packed (Single|Double)-precision floating-point

Já MOVLPD faz a mesma operação porém com um double contido no quadword menos significativo.

MOVHP(S|D) | Move High Packed (Single|Double)-precision floating-point

Semelhante a instrução acima porém armazena/ler o valor do registrador XMM no quadword mais significativo. O quadword menos significativo do registrador não é alterado.

MOVLHPS | Move Packed Single-precision floating-point Low to High

MOVHLPS | Move Packed Single-precision floating-point High to Low

MOVMSKP(S|D) | Move Packed (Single|Double)-precision floating-point mask

Já MOVMSKPD faz a mesma coisa porém com os 2 valores doubles contidos no registrador, assim definindo os 2 bits menos significativos do registrador de propósito geral.

Entendendo SSE

Instruções de movimentação de dados

hashtagMOVAP(S|D)/MOVUP(S|D) | Move Aligned/Unaligned Packed (Single|Double)-precision floating-point

hashtagMOVS(S|D) | Move Scalar (Single|Double)-precision floating-point

hashtagMOVLP(S|D) | Move Low Packed (Single|Double)-precision floating-point

hashtagMOVHP(S|D) | Move High Packed (Single|Double)-precision floating-point

hashtagMOVLHPS | Move Packed Single-precision floating-point Low to High

hashtagMOVHLPS | Move Packed Single-precision floating-point High to Low

hashtagMOVMSKP(S|D) | Move Packed (Single|Double)-precision floating-point mask

Instruções aritméticas

hashtagADDP(S|D) | Add Packed (Single|Double)-precision floating-point values

Instruções lógicas e de comparação

hashtagInstruções lógicas SSE

hashtagANDP(S|D) | bitwise logical AND of Packed (Single|Double)-precision floating-point values

Instruções com inteiros 128-bit

hashtagPAVGB/PAVGW | Compute average of packed unsigned (byte|word) of integers

Instruções de conversão

hashtagConversão entre double e float

Instruções de movimentação de dados

hashtagMOVAP(S|D)/MOVUP(S|D) | Move Aligned/Unaligned Packed (Single|Double)-precision floating-point

hashtagMOVS(S|D) | Move Scalar (Single|Double)-precision floating-point

hashtagMOVLP(S|D) | Move Low Packed (Single|Double)-precision floating-point

hashtagMOVHP(S|D) | Move High Packed (Single|Double)-precision floating-point

hashtagMOVLHPS | Move Packed Single-precision floating-point Low to High

hashtagMOVHLPS | Move Packed Single-precision floating-point High to Low

hashtagMOVMSKP(S|D) | Move Packed (Single|Double)-precision floating-point mask

Instruções com inteiros 128-bit

hashtagPAVGB/PAVGW | Compute average of packed unsigned (byte|word) of integers

Entendendo SSE

Instruções de conversão

hashtagConversão entre double e float

Instruções lógicas e de comparação

hashtagInstruções lógicas SSE

hashtagANDP(S|D) | bitwise logical AND of Packed (Single|Double)-precision floating-point values

Instruções aritméticas

hashtagADDP(S|D) | Add Packed (Single|Double)-precision floating-point values

hashtagPINSRW | Insert word

hashtagPMAXUB/PMAXUW | Maximum of packed unsigined (byte|word) of integers

hashtagPMINUB/PMINUW | Minimum of packed unsigned (byte|word) of integers

hashtagPMAXS(B|W|D) | Maximum of packed signed (byte|word|doubleword) integers

hashtagPMINS(B|W) | Minimum of packed signed (byte|word) integers

hashtagPMOVMSKB | Move byte mask

hashtagPMULHW/PMULHUW | Multiply packed (unsigned) word integers and store high result

hashtagPSADBW | Compute sum of absolute differences

hashtagMOVDQA | Move aligned double quadword

hashtagMOVDQU | Move unaligned double quadword

hashtagPADD(B|W|D|Q) | Packed (byte|word|doubleword|quadword) add

hashtagPSUBQ | Packed quadword subtract

hashtagPMULUDQ | Multiply packed unsigned doubleword integers

hashtagPSLLDQ | Shift double quadword left logical

hashtagPSRLDQ | Shift double quadword right logical

hashtagCVTPD2PS | Convert packed double-precision floating-point values to packed single-precision floating-point values

hashtagCVTSS2SD | Convert scalar single-precision floating-point value to scalar double-precision floating-point value

hashtagCVTSD2SS | Convert scalar double-precision floating-point value to scalar single-precision floating-point value

hashtagConversão entre double e inteiro

hashtagCVTPD2DQ/CVTTPD2DQ | Convert (with truncation) packed double-precision floating-point values to packed doubleword integers

hashtagCVTDQ2PD | Convert packed doubleword integers to packed double-precision floating-point values

hashtagCVTSD2SI/CVTTSD2SI | Convert scalar double-precision floating-point value to doubleword integer

hashtagCVTSI2SD | Convert doubleword integer to scalar double-precision floating-point value

hashtagConversão entre float e inteiro

hashtagCVTPS2DQ/CVTTPS2DQ | Convert (with truncation) packed single-precision floating-point values to packed doubleword integers

hashtagCVTDQ2PS | Convert packed doubleword integers to packed single-precision floating-point values

hashtagCVTSS2SI/CVTTSS2SI | Convert scalar single-precision floating-point value to doubleword integer

hashtagCVTSI2SS | Convert doubleword integer to scalar single-precision floating-point value

hashtagRegistradores XMM

hashtagEntendendo as instruções SSE

hashtagANDNP(S|D) | bitwise logical AND NOT of Packed (Single|Double)-precision floating-point values

hashtagORP(S|D) | bitwise logical OR of Packed (Single|Double)-precision floating-point values

hashtagXORP(S|D) | bitwise logical XOR of Packed (Single|Double)-precision floating-point values

hashtagInstruções de comparação SSE

hashtagCMPP(S|D)/CMPccP(S|D) | Compare Packed (Single|Double)-precision floating-point values

hashtagCMPS(S|D)/CMPccS(S|D) | Compare Scalar (Single|Double)-precision floating-point value

hashtagCOMIS(S|D)/UCOMIS(S|D) | (Unordered) Compare Scalar (Single|Double)-precision floating-point value and set EFLAGS

hashtagSUBP(S|D) | Subtract Packed (Single|Double)-precision floating-point values

hashtagADDS(S|D) | Add Scalar (Single|Double)-precision floating-point value

hashtagSUBS(S|D) | Subtract Scalar (Single|Double)-precision floating-point value

hashtagMULP(S|D) | Multiply Packed (Single|Double)-precision floating-point values

hashtagMULS(S|D) | Multiply Scalar (Single|Double)-precision floating-point value

hashtagDIVP(S|D) | Divide Packed (Single|Double)-precision floating-point values

hashtagDIVS(S|D) | Divide Scalar (Single|Double)-precision floating-point value

MOVAP(S|D)/MOVUP(S|D) | Move Aligned/Unaligned Packed (Single|Double)-precision floating-point

MOVS(S|D) | Move Scalar (Single|Double)-precision floating-point

MOVLP(S|D) | Move Low Packed (Single|Double)-precision floating-point

MOVHP(S|D) | Move High Packed (Single|Double)-precision floating-point

MOVLHPS | Move Packed Single-precision floating-point Low to High

MOVHLPS | Move Packed Single-precision floating-point High to Low

MOVMSKP(S|D) | Move Packed (Single|Double)-precision floating-point mask

ADDP(S|D) | Add Packed (Single|Double)-precision floating-point values

Instruções lógicas SSE

ANDP(S|D) | bitwise logical AND of Packed (Single|Double)-precision floating-point values

PAVGB/PAVGW | Compute average of packed unsigned (byte|word) of integers

Conversão entre double e float

MOVAP(S|D)/MOVUP(S|D) | Move Aligned/Unaligned Packed (Single|Double)-precision floating-point

MOVS(S|D) | Move Scalar (Single|Double)-precision floating-point

MOVLP(S|D) | Move Low Packed (Single|Double)-precision floating-point

MOVHP(S|D) | Move High Packed (Single|Double)-precision floating-point

MOVLHPS | Move Packed Single-precision floating-point Low to High

MOVHLPS | Move Packed Single-precision floating-point High to Low

MOVMSKP(S|D) | Move Packed (Single|Double)-precision floating-point mask

PAVGB/PAVGW | Compute average of packed unsigned (byte|word) of integers

Conversão entre double e float

Instruções lógicas SSE

ANDP(S|D) | bitwise logical AND of Packed (Single|Double)-precision floating-point values

ADDP(S|D) | Add Packed (Single|Double)-precision floating-point values

PINSRW | Insert word

PMAXUB/PMAXUW | Maximum of packed unsigined (byte|word) of integers

PMINUB/PMINUW | Minimum of packed unsigned (byte|word) of integers

PMAXS(B|W|D) | Maximum of packed signed (byte|word|doubleword) integers

PMINS(B|W) | Minimum of packed signed (byte|word) integers

PMOVMSKB | Move byte mask

PMULHW/PMULHUW | Multiply packed (unsigned) word integers and store high result

PSADBW | Compute sum of absolute differences

MOVDQA | Move aligned double quadword

MOVDQU | Move unaligned double quadword

PADD(B|W|D|Q) | Packed (byte|word|doubleword|quadword) add

PSUBQ | Packed quadword subtract

PMULUDQ | Multiply packed unsigned doubleword integers

PSLLDQ | Shift double quadword left logical

PSRLDQ | Shift double quadword right logical

CVTPD2PS | Convert packed double-precision floating-point values to packed single-precision floating-point values

CVTSS2SD | Convert scalar single-precision floating-point value to scalar double-precision floating-point value

CVTSD2SS | Convert scalar double-precision floating-point value to scalar single-precision floating-point value

Conversão entre double e inteiro

CVTPD2DQ/CVTTPD2DQ | Convert (with truncation) packed double-precision floating-point values to packed doubleword integers

CVTDQ2PD | Convert packed doubleword integers to packed double-precision floating-point values

CVTSD2SI/CVTTSD2SI | Convert scalar double-precision floating-point value to doubleword integer

CVTSI2SD | Convert doubleword integer to scalar double-precision floating-point value

Conversão entre float e inteiro

CVTPS2DQ/CVTTPS2DQ | Convert (with truncation) packed single-precision floating-point values to packed doubleword integers

CVTDQ2PS | Convert packed doubleword integers to packed single-precision floating-point values

CVTSS2SI/CVTTSS2SI | Convert scalar single-precision floating-point value to doubleword integer

CVTSI2SS | Convert doubleword integer to scalar single-precision floating-point value

Registradores XMM

Entendendo as instruções SSE

ANDNP(S|D) | bitwise logical AND NOT of Packed (Single|Double)-precision floating-point values

ORP(S|D) | bitwise logical OR of Packed (Single|Double)-precision floating-point values

XORP(S|D) | bitwise logical XOR of Packed (Single|Double)-precision floating-point values

Instruções de comparação SSE

CMPP(S|D)/CMPccP(S|D) | Compare Packed (Single|Double)-precision floating-point values

CMPS(S|D)/CMPccS(S|D) | Compare Scalar (Single|Double)-precision floating-point value

COMIS(S|D)/UCOMIS(S|D) | (Unordered) Compare Scalar (Single|Double)-precision floating-point value and set EFLAGS

SUBP(S|D) | Subtract Packed (Single|Double)-precision floating-point values

ADDS(S|D) | Add Scalar (Single|Double)-precision floating-point value

SUBS(S|D) | Subtract Scalar (Single|Double)-precision floating-point value

MULP(S|D) | Multiply Packed (Single|Double)-precision floating-point values

MULS(S|D) | Multiply Scalar (Single|Double)-precision floating-point value

DIVP(S|D) | Divide Packed (Single|Double)-precision floating-point values

DIVS(S|D) | Divide Scalar (Single|Double)-precision floating-point value

RCPPS | Compute Reciprocals of Packed Single-precision floating-point values

RCPSS | Compute Reciprocal of Scalar Single-precision floating-point value

SQRTP(S|D) | Compute square roots of Packed (Single|Double)-precision floating-point values

SQRTS(S|D) | Compute square root of Scalar (Single|Double)-precision floating-point value

RSQRTPS | Compute Reciprocals of square roots of Packed Single-precision floating-point values

RSQRTSS | Compute Reciprocal of square root of Scalar Single-precision floating-point value

MAXP(S|D) | return maximum of Packed (Single|Double)-precision floating-point values

MAXS(S|D) | return maximum of Scalar (Single|Double)-precision floating-point value

MINP(S|D) | return minimum of Packed (Single|Double)-precision floating-point values

MINS(S|D) | return minimum of Scalar (Single|Double)-precision floating-point value