어셈블러에서 함수를 어떻게 처리하는지 살펴보자
- Supporting Procedures
함수를 호출하는 절차는 다음과 같다
1. 함수의 매개변수들을 넘긴다.
2. memory space에 필요한 공간을 마련하고 그곳으로 제어를 옮긴다.
3. 함수를 실행한다.
4. return value를 저장하고 돌아갈 위치를 찾는다.
5. 원래 지점으로 돌아간다.
int main(){ //caller
if(a == 0)
b = f1(g, h);
else
b = f1(k, i);
return 0;
}
int f1(x, y){ //callee, caller
a = (x + y) * (x + 2) * f2(y);
return a;
}
int f2(y){ //callee
return y / 2;
}
여기서 main 함수가 f1을 호출한 caller가 되고
f1은 main 함수에 의해 호출당한 callee이며, f2를 호출한 caller가 된다.
f2는 f1에 의해 호출당한 callee이다.
그러면 RISC-V에서는 매개변수와 return value, return address를 어떻게 주고받을까?
RISC-V는 관습적으로 정해진 레지스터 번호에 해당하는 레지스터를 함수의 호출에 사용한다.
x10~x17: eight parameter registers in which to pass parameters or return values
x10~x17에 해당하는 레지스터를 매개변수를 저장할 때 사용하거나 return value를 저장할 때 사용한다.
x1: one return address register
x1은 함수가 return 할 때 돌아갈 지점을 저장한다.
또 함수를 다루기 위해서 jal이라는 명령어를 사용한다.
jal: "jump-and-link"
jal x1, ProcedureAddress
Branch unconditionally and save the address of the next instruction(return address) to the designated register
무조건 지정해 둔 주소로 분기를 하며, 레지스터에 다음번 실행해야 할 instruction을 저장하고 분기한다.
보통 return address를 저장하는 x1 레지스터를 사용한다.
만약 돌아올 주소를 저장하지 않고 분기하고 싶다면
jal x0, Label
로 주소를 저장하지 않고 분기할 수 있다.
jal에서 더 확장하여 jalr 명령어가 있는데
jalr: "jump and link register" instruction (I-type)
jalr: x0, 0(x1)
x0 주소에 return address를 저장하고 0(x1) 주소로 분기한다는 명령어이다.
주소값을 표현하는 데에 jal에 비해 더 많은 비트를 사용하기 때문에 더 자세한 주소값으로 분기할 수 있다.
- Using More Registers
함수를 실행하기 위해서는 보통 8개의 레지스터보다 더 많은 메모리를 필요로 한다.
그렇기에 컴파일러는 레지스터 이외에 추가로 메모리를 사용한다.(당연히 속도는 더 느려진다)
이렇게 레지스터가 모두 차서 메모리에 저장하는 현상을 spill이라고 한다.
spill이 일어났을 때 저장하기에 이상적인 공간은 stack이다.
x2 레지스터를 stack pointer라고 하는데
이 stack pointer는 데이터가 저장되어 있는 memory의 주소이다.
이 stack은 높은 주소부터 낮은 주소로 데이터를 저장하기 시작한다.

stack pointer를 활용하는 예제이다.
long long int
left_example(
long long int g,
long long int h,
long long int i,
long long int j)
{
long long int f;
f = (g + h) - (i + j);
return f;
}
//g -> x10
//h -> x11
//i -> x12
//j -> x13
//f -> x20
이 C 코드를
leaf_example:
addi sp, sp, -24 //adjust stack to make room for 3 items
sd x5, 16(sp) //save register x5 for use afterwards
sd x6, 8(sp) //save register x6 for use afterwards
sd x20, 0(sp) //save register x20 for use afterwards
add x5, x10, x11 //register x5 contains g + h
add x6, x12, x12 //register x6 contains i + j
sub x20, x5, x6
addi x10, x20, 0 //move value f to x10
ld x20, 0(sp) //restore register x20 for caller
ld x6, 8(sp) //restore register x6 for caller
ld x5, 16(sp) //restore register x5 for caller
addi sp, sp, 24 //adjust stack to delete 3 items
jalr x0, 0(x1)
x5, x6, x20에 있는 값을 sp를 이동시킨 후 memory에 저장하는 모습이다.
사용 후에는 caller의 데이터를 복원하기 위해 레지스터에 원래 데이터를 두고 sp를 원위치시킨다.

stack을 사용하던 도중 저 sp는 처음 위치보다 더 올라가서 읽으면 안된다.
그렇기에 시작 주소를 fp에 저장하고 그 위로는 데이터를 읽을 수 없도록 한다.
sp는 함수 실행 도중 변할 수 있지만 fp는 그렇지 못하다.

- Register saving convention
하지만 모든 상황에서 caller의 데이터를 복구해 두는 것은 아니다.
No need for callee to save | callee must preserve if used |
x5-x7, x28-x31 | x8, x9, x18-x27 |
저 표에 있듯 x8, x9, x18-x27의 데이터는 복구를 해두어야 하지만 x5-x7, x28-x31의 값은 복구할 필요가 없다.
다시 말해 caller는 callee를 호출 한 후 x5-x7, x28-x31의 값이 원래와 같지 않을 수 있다고 생각을 해야한다는 것이다.
저 표에 sp, fp 등의 레지스터를 추가해보면
Preserved | Not preserved |
Saved registers: x8-x9, x18-x27 | Temporary registers: x5-x7, x28-x31 |
Stack pointer register: x2(sp) | Argument/result registers: x10-x17 |
Frame Pointer: x8(fp) | |
Return address: x1(ra) |
다음과 같다.
- Allocating Memory on the Heap

프로그램 실행 중에 데이터를 메모리에 저장하는 방법이다.
Text Segment: instructions, program binaries
Static data segment: constants and static variables
Heap(for dynamic data): place where dynamically allocated(malloc and free in C)
stack은 위에 나왔던 stack 과 같다.
처음 실행 할 때 Text, Static data 영역에 데이터를 저장해두고 프로그램 실행 중에 Heap 영역만 변하게 된다.
- Instructions
lui
immediate에 저장되어 있는 12비트의 수를 64비트로 확장하는 instruction

우선 31~12에 저장되어 있는 20비트의 수를 load한 후
저장하려는 64비트의 왼쪽에 32비트를 sign 비트로 채운다.
그 뒤에 20비트의 수를 넣고 나머지 오른쪽의 12비트를 0으로 채운다.

SB-type
beq, bne등의 instruction이 해당하며 분기하는 instruction이다.

immediate를 이용해서 -4096 ~ 4094 범위로 분기 할 수 있다.
imm[0]은 언제나 0이기 때문에 따로 저장하지 않는다.(항상 짝수이기 때문)
UJ-type

조건에 상관없이 무조건 분기하는 jal 계열의 instruction이다.
조건을 확인하지 않기에 immediate가 더 긴 것을 볼 수 있으며, 여기도 imm[0]이 항상 짝수이기 때문에 따로 저장하지 않는다.
여기서 보면 conditional branch는 13bit, unconditional branch는 21bit의 immediate field를 가진다.
부호를 표현하는 데 1bit, 4byte instruction이기에 2bit가 빠지면
conditional branch는 2의 10제곱 만큼의 위치를
unconditional branch는 2의 18제곱 만큼의 위치로 분기 할 수 있다.