1. 背景
数学计算已经成为计算机的主要工作之一,尤其是实数运算,在人工智能时代更是普遍存在,神经网络中的绝大部分参数都用的实数。
2. 方法
(1)FPU运算
计算机中的实数运算是通过数学协处理器FPU完成的,采用FPU特定的指令进行编程。实数在存储时采用的是IEEE 754标准的浮点形式,对于32位的单精度浮点数而言,最高位是实数的符号位,接下来的8位是阶码,低23位是有效数字,例如,浮点数0.5的32位表示为3F000000,即0 01111110 00000000000000000000000。关于IEEE 754标准及浮点数的编码规则,可以搜索专门介绍的材料进行学习了解。
(2)调用API实现sin计算
本例通过调用元神操作系统的API来实现正弦函数计算功能,代码如下所示:
use32
START:
pusha
call demo_float
popa
iret
include 'api_def.inc'
OS_API equ 0x00030C16
API_PARAM equ 0x03000000
cursor_x equ 0x02004B10
cursor_y equ 0x02004B12
value dd 0.5
demo_float:
pusha
mov eax, [value]
movzx ebx, word [fs:cursor_y]
movzx ecx, word [fs:cursor_x]
call print_dword
mov edi, API_PARAM
mov dword [fs:edi], API_SIN
mov dword [fs:edi+4], 1
mov dword [fs:edi+8], eax
mov dword [fs:edi+12], 0
call pword [fs:OS_API]
mov eax, [fs:edi+12]
add ecx, 10
call print_dword
add word [fs:cursor_y], 1
popa
ret
;print dword value
;input:
; eax: value to print
; ebx: y position to print
; ecx: x position to print
print_dword:
pusha
imul edi, ebx, 80*2
add edi, ecx
add edi, ecx
add edi, 14
mov ecx, 8
mov edx, eax
mov ah, 0x0F
.next_char:
mov al, dl
shr edx, 4
and al, 0x0F
add al, 0x30
mov word [gs:edi], ax
sub edi, 2
loop .next_char
.end:
popa
ret
将上述代码保存为demo.asm,编译生成可执行文件demo.bin,然后将该文件复制到元神操作系统所在U盘的根目录,使用该U盘启动元神操作系统,并在命令行输入命令“zx demo.bin”来执行该程序,结果如下图所示:
对照代码,本例定义了一个叫做value的4字节(单精度浮点数)变量,其值为0.5,之后将该值作为参数调用OS_API,同时作为参数的还有API类型API_SIN、API参数个数1,计算结果存放在输入参数之后。因为要调用API_SIN,所以api_def.inc文件中需要有相应的定义,如下所示:
API_SIN equ 0x00000001
在API调用前打印了输入参数值,即3F000000;API调用结束后,又打印了对应的正弦值,即3EF57744。这两个浮点数都是编码过的,不够直观,有想法的可以自行编写程序实现编解码过程,将之转换为浮点数字符串,如“0.5”这种。不过,这种代码编写起来不容易,而且执行耗时也较多。
另外,本例的打印函数print_dword只做了简单的处理没有将11~15转换为A~F,而是直接在‘0’的基础上加了10~16,所以对应的输出实际是标点符号,所以才会看到F显示成了?,若想实现完美的输出程序,可自行修正demo程序。
(3)不调用API实现浮点计算
上述功能也可以不通过API实现,差异部分代码如下所示:
demo_float:
pusha
mov eax, [value]
movzx ebx, word [fs:cursor_y]
movzx ecx, word [fs:cursor_x]
call print_dword
fld dword [value]
fsin
fstp dword [fs:API_PARAM+12]
mov eax, [fs:API_PARAM+12]
add ecx, 10
call print_dword
add word [fs:cursor_y], 1
popa
ret
本例直接使用了FPU指令,先用fld指令将0.5加载到FPU寄存器,然后用fsin指令执行正弦计算,最后用fstp指令将计算结果从FPU寄存器保存到内存中,运行结果和上例相同。
3. 总结
浮点运算现在已经普遍存在,但其运算速度较慢。FPU只能实现浮点数的部分运算功能,但是受限于硬件限制,无法加速浮点运算,所以,若想执行人工智能模型训练这种大规模的浮点运算,会非常缓慢。本文仅介绍了浮点运算的实现演示,没有在运算速度上多做考虑。另外,若想将IEEE 754编码的浮点数转换为直观的浮点数字符串(或逆向转换),也需要不少的代码,并且频繁的来回转换也会在执行时消耗很多的时间。