AI编译原理3

date

Apr 13, 2024

slug

ai-compilers-3

status

Published

LLVM IR与GCC IR对比

特性	LLVM IR	GCC IR (GIMPLE)
独立性和库化架构	高度模块化，前端和后端分离，易于添加新语言和目标平台	传统GCC架构，前端和后端耦合较紧密
表达形式	人类可读的汇编形式、C++对象形式、序列化后的bitcode形式	GIMPLE表示形式，三地址代码，SSA形式
设计和应用	更独立，可在编译器之外的工具中重用，有正式定义和良好的C++ API，更接近硬件行为	降低控制流复杂度，优化相对容易
适用场景	适合学术界的应用，因为已经做了较大简化，可以更快地得出结果	适合工业应用，可以自己生成统一的AST进行数据流分析，或生成类似GIMPLE的三地址码进行分析

LLVM IR的优点

更独立：LLVM IR设计为可以在编译器之外的任意工具中重用，使得可以轻松集成其他类型的工具，例如静态分析器和插桩器。

更正式的定义和更好的C++ API：这使得处理、转换和分析变得更加容易。

更接近硬件行为：LLVM IR提供了类似RISCV的模拟指令集和强类型系统，实现了其“通用表示”的目的。

GIMPLE的优点

降低控制流复杂度：GIMPLE通过降低控制流复杂度、采用三地址表示和限制语法，使得优化变得相对容易。

LLVM架构设计

LLVM架构图：

LLVM核心流程分析

编译器前端工作流程包括词法、语法、语义分析；中间优化层大数据中的Pass优化；编译器后端工作流程包括机器指令选择、寄存器分配、指令调度。

实践：Clang编译流程

生成.i文件

将预处理过后的.i文件转化为.bc文件

使用llc和lld链接器

转变为可执行的二进制文件

查看编译过程

总结

LLVM组件之间交互发生在高层次抽象，不同组件隔离为单独程序库，易于在整个编译流水线中集成转换和优化Pass。现在被作为实现各种静态和运行时编译语言的通用基础结构。

LLVM IR详解

LLVM IR设计理念

LLVM IR 采用静态单赋值形式（Static single assignment，SSA），具有两个重要特征：

SSA静态单赋值

LLVM IR 中，每个变量都在使用前都必须先定义，且每个变量只能被赋值一次。以 1 * 2 + 3 为例：

LLVM IR 基本语法

LLVM IR 是类似于精简指令集（RISC）的底层虚拟指令集，支持简单指令的线性序列。

LLVM IR 是类似于精简指令集（RISC）的底层虚拟指令集；

和真实精简指令集一样，支持简单指令的线性序列，例如添加、相减、比较和分支；

指令都是三地址形式，它们接受一定数量的输入然后在不同的寄存器中存储计算结果；

与大多数精简指令集不同，LLVM 使用强类型的简单类型系统，并剥离了机器差异；

LLVM IR 不使用固定的命名寄存器，它使用以％字符命名的临时寄存器；

每个三地址码指令，都可以被分解为一个四元组（4-tuple）的形式：（运算符，操作数1，操作数2，结果），由于每个陈述都包含了三个变量，即每条指令最多有三个操作数，所以它被称为三地址码。

指令类型	指令形式	四元组表示
赋值指令	`z = x op y (z = x + y)`	`(op, x, y, z)`

LLVM IR内存模型

LLVM IR 文件的基本单位称为 module 一个 module 中可以拥有多个顶层实体，比如 function 和 global variavle 一个 function define 中至少有一个 basicblock 每个 basicblock 中有若干 instruction，并且都以 terminator instruction 结尾

类名	详述
`Module`	Module类聚合了整个翻译单元用到的所有数据，它是LLVM术语中的“module”的同义词。它声明了Module::iterator typedef，作为遍历这个模块中的函数的简便方法。你可以用begin()和end()方法获取这些迭代器。
`Function`	Function类包含有关函数定义和声明的所有对象。对于声明来说（用isDeclaration()检查它是否为声明），它仅包含函数原型。无论定义或者声明，它都包含函数参数的列表，可通过getArgumentList()方法或者arg_begin()和arg_end()这对方法访问它。你可以通过Function::arg_iterator typedef遍历它们。如果Function对象代表函数定义，你可以通过这样的语句遍历它的内容：for (Function::iterator i = function.begin(), e = function.end(); i != e; ++i)，你将遍历它的基本块。
`BasicBlock`	BasicBlock类封装了LLVM指令序列，可通过begin()/end()访问它们。你可以利用getTerminator()方法直接访问它的最后一条指令，你还可以用一些辅助函数遍历CFG，例如通过getSinglePredecessor()访问前驱基本块，当一个基本块有单一前驱时。然而，如果它有多个前驱基本块，就需要自己遍历前驱列表，这也不难，你只要逐个遍历基本块，查看它们的终结指令的目标基本块。
`Instruction`	Instruction类表示LLVM IR的运算原子，一个单一的指令。利用一些方法可获得高层级的断言，例如isAssociative()，isCommutative()，isIdempotent()，和isTerminator()，但是它的精确的功能可通过getOpcode()获知，它返回llvm::Instruction枚举的一个成员，代表了LLVM IR opcode。可通过op_begin()和op_end()这对方法访问它的操作数，它从User超类继承得到。

LLVM IR 内存模型最重要概念： Value, Use, User

LLVM IR 内存模型中，Value、Use和User是三个核心概念，它们之间的关系定义了LLVM中的数据流和控制流。

概念	描述
`Value`	在LLVM中，Value是一个非常基础的概念，它表示任何有值的实体，比如常数、变量、函数等。每个Value都有一个唯一的编号，用于在LLVM内部标识自己。Value还可以有用户（User），这意味着它可以是其他指令的操作数。
`Use`	Use是Value的一个使用实例。在LLVM中，每个Value都有一个或多个Use，表示这个Value被哪些指令所使用。Use包含了指向使用该Value的User的指针，以及在该User中的操作数索引。
`User`	User是指那些使用Value的指令或常量。例如，一条指令可能有多个操作数，每个操作数都是一个Value，那么这条指令就是一个User。User通过Use对象来引用它的操作数Value。

这三个概念共同构成了LLVM IR的内存模型，它们之间的关系反映了指令之间的数据依赖关系。在LLVM的优化过程中，这些概念对于分析和管理指令之间的依赖非常重要。