插件代码https://github.com/EEEEhex/detx
版本: speedmobile_1.45.0.53757.apk中的libtprt.so
文章将分享去除[寄存器间接跳转]与[魔改控制流平坦化]混淆的思路, 并编写去混淆插件代码。
## 0. 混淆类型
libtprt.so中的混淆大体分为三种类型: ◆魔改的控制流平坦化 ◆寄存器间接跳转 ◆无效循环
以及这三种的穿插混合, 这些混淆要么是获取信息麻烦, 要么是Patch起来麻烦, 总之就是很麻烦。本文将先分享去除[寄存器间接跳转]混淆的思路, 主要是Patch思路。

```python 一寄存器间接跳转混淆 ``` ###
### 1.1 原理
其实就是跳转地址是计算出来的, 如下图所示:

![](https://mmbiz.qpic.cn/sz_mmbiz_png/1UG7KPNHN8FSoGhzo0HbRdKE846iagMxBMAYRLlHxKIcG5h5dsR7pcZmM5kTibxUgLDXK26swbyJxDSa1bDtYKzA/640?wx_fmt=png&from=appmsg)
这种混淆就是把原先的逻辑跳转改为了jmp(var2)。
其中var2 = mem[var1 (<< num)] + const 这些值其实都是可以确定的, 即:
```python //----------------- if (Cond) jmp(true_addr) else jmp(false_addr) //----------------- 变为了-> //----------------- if (Cond) var1 = 0; else var1 = 1; var2 = data_1fd630[var1]; var3 = var2 - 0x7218df2; jump(var3); //----------------- ```
通过cond设置偏移var1, 然后从跳转表data_1fd630中拿出var1偏移处的值, 然后+/-一个常量就得到真正的跳转地址了。
### 1.2 获取跳转地址思路
我的思路是静态分析+模拟执行:
1.从BinaryNinja的mlil ssa层面, 可以获取到jump变量var的指令。
2.然后层层向上找, 找到所有涉及到的mlil指令(就如上图中所有红框中的指令)。
3.然后拿到这些mlil指令对应的汇编指令去模拟执行就可以得到跳转寄存器的值。 3.1. 其中在汇编层面是通过条件选择指令(csel, cset, cinc等)来改变值导致最终跳转地址的变化(就是上面红框中x11#1=8和x11#2=0x30) 3.2. 因此可将条件选择指令改为mov等指令直接赋值, 模拟执行两次来分别获取if和else的真实跳转地址
例如一次混淆涉及到的如下指令:
![](https://mmbiz.qpic.cn/sz_mmbiz_png/1UG7KPNHN8FSoGhzo0HbRdKE846iagMxBES8u5ibMPvm7Gkars26esy9khc0tldyPyXuec1icWXpnTAHFhhxB5UZA/640?wx_fmt=png&from=appmsg)
具体来说就是:
1.首先要识别出一次混淆涉及到的所有汇编指令, 就是上图中所有红框的汇编指令。
2.识别出其中可以改变跳转地址的那条指令(cset/csinc等), 本次混淆就是csel x11, x28, x27。
3.将csel x11, x28, x27分别改为"mov x11, x28"或"mov x11, x27"然后模拟执行从而获取两个跳转地址。
**问:** 可以直接模拟执行br之前的全部指令, 不去识别一次混淆涉及到的指令吗?
**答:** 可以是可以, 但这样会涉及到非混淆的真实指令, 我感觉处理起这种情况来不比去识别混淆指令简单。
### 1.3 Patch思路 \\*
假设现在已经知道了两个跳转地址是多少, 怎么去Patch呢?
我们的Patch不能改变了原始的逻辑, 比如说:
**
** **问:** 可以把"csel x11, x28, x27"改为"b.lt t_addr", 把"br x12"改为"b f_addr"这样patch吗?
**答:** 不可以, 因为原始逻辑是在csel之后还执行了"0x9cc6c 0x9cc70 0x9cc78"这些指令, 如果从0x9cc64处就改成"b.lt"跳转, 那逻辑就不对了, 原逻辑中br之前执行的指令就少执行了一部分。
.
**问:** 可以上移指令(因为混淆指令是无效的可以随便覆盖), 然后在末尾插入"b.lt + b"指令吗?
**答:** 不可以, 比如说0x9cc74处的指令属于混淆指令, 是无效的, 将其改为:
![](https://mmbiz.qpic.cn/sz_mmbiz_png/1UG7KPNHN8FSoGhzo0HbRdKE846iagMxBibASC4L32qaNBXxgxN6x9YCmuG1TaOx8amJ2S9GR9tiantAzjb9iaUu3Q/640?wx_fmt=png&from=appmsg)

就是把csel ... br中间的指令全部上移覆盖上一个指令, 在末尾多出一个指令的空间, 但这样会出现一个问题, 原逻辑中是:
```html 0x9cc60 cmp w12, w23 ....... 改变跳转寄存器x12 0x9cc7c br x12 ```
这样Patch之后就变成了:
```asm 0x9cc60 cmp w12, w23 ....... ............ 0x9cc70 cmp w12, w15 ....... ............ 0x9cc78 b.lt 满足条件地址 0x9cc7c b 不满足条件地址 ```
条件判断被覆盖了, 原本逻辑是判断的"cmp w12, w23"这样一改变成判断"cmp w12, w15"了。
.
那要怎么Patch?我的思路如下:
```asm 1. 一次混淆!至少!涉及以下7个指令(中间穿插着其他逻辑的指令): mov w10, #0x60 ... mov w11, #0x58 ... cmp w7, w22 ... csel x23, x11, x10, lt ... ldr x25, [x12, x23] ... add x7, x25, x13 ... br x7 2. 改为如下: mov w10, #0x60 <- 可以nop掉不nop也不影响结果 ... mov w11, #0x58 ... nop <- cmp w7, w22 [cmp语句要最后统一nop 因为会可能有多个逻辑共用同一个cmp] ... nop <- csel x23, x11, x10, lt ... nop <- 其他涉及到的指令 ... cmp w7, w22 <- ldr x25, [x12, x23] b.lt ... <- add x7, x25, x13 b ... <- br x7 大多只有第一次混淆的时候这些混淆指令会穿插在一起, 之后基本都是ldr+add+br一个整体了 ```
就是 **cmp下沉** , 将"cmp + b.cc + b"放到一起, 这样就不会因为其他指令的cmp导致条件被覆盖了。
**问:** 这样下沉如果cmp w7, w22中的w7和w22被之前的指令改变了怎么办?
**答:** 事实证明是不会的, 我一开始的思路是不移动cmp而是在cmp之后保存nzcv标志位到例如w10中, 然后b.cc之前再恢复标志位, 结果发现有没有保存nzcv都一样。
其实这个so中的函数都是在控制流平坦化之上又加了一层寄存器间接跳转, 所以这些cmp指令其实是控制流平坦化的分发指令, 这些值(w7,w22之类的)在进入分发逻辑之前就确定好了, 是不会被改变的。

```python 二编写插件代码 ```
> 代码逻辑分为: ①模拟执行 ②信息获取 ③Patch逻辑三部分 ###
### 2.1 模拟执行代码
采用unicorn框架, 具体请查看emulate.py中的"Emulator" "FuncEmulate" "DeJmpRegEmulate"三个类, 其实就是给unicorn封装了一层。
修改条件选择指令时要根据不同的类型进行修改:
```python #如果是csinc指令, 不满足条件应该改为add x24, x1, #1 | csinc是条件不满足则xd=xm+1, cinc是条件满足则xd=xn+1 if ((insn_token[0] == 'csinc' ) and (index == 1)) or ((insn_token[0] == 'cinc') and (index == 0)): if value == 'xzr':#如果是xzr寄存器就不能用add, 相当于赋值为了1 mov_opcode = bv.arch.assemble(f"mov {cond_set_reg}, #1", condition_insn_addr) else: mov_opcode = bv.arch.assemble(f"add {cond_set_reg}, {value}, #1", condition_insn_addr) elif (insn_token[0] == 'csinv') and (index == 1): mov_opcode = bv.arch.assemble(f"mvn {cond_set_reg}, {value}", condition_insn_addr) #按位取反 elif (insn_token[0] == 'sneg') and (index == 1): mov_opcode = bv.arch.assemble(f"neg {cond_set_reg}, {value}", condition_insn_addr) #取负值 else: mov_opcode = bv.arch.assemble(f"mov {cond_set_reg}, {value}", condition_insn_addr) #汇编mov x4, x9 ``` ###
### 2.2 信息获取代码 **
** **问:** 怎么通过代码拿到一次混淆涉及到的全部指令?
**答:** 我是通过从mlil ssa层面, 因为用ssa的话, 可以很方便的查找一个变量的被写入的语句, 代码中是通过def_site。

比如从jump(x9_2#5)开始, 先拿到x9_2#5的def_site, 比如说是"x9_2#5 = x9_1#4 + 0x3872d170", 然后取出这条语句的等号右边涉及到的变量, 这里是x9_1#4, 然后拿到x9_1#4的def_site, 比如是x9_1#4 = [&data_1dd4c0 + x9#3].q @ mem#1, 然后拿x9#3的def_site, 比如是x9#3 = ϕ(x9#1, x9#2), 最后得到x9#1 = 0, x9#2 = 0x58. 其实用一个递归就解决了:
```python def get_involve_insns(jmp_insn: MediumLevelILJump): def get_right_ssa_var(expr, vars: list): if isinstance(expr, SSAVariable): vars.append(expr) return elif isinstance(expr, list): for ope in expr: if isinstance(ope, SSAVariable): vars.append(ope) return if hasattr(expr, 'operands'): for ope in expr.operands: get_right_ssa_var(ope, vars) return involve_insns = [] #涉及到的指令 jmp_var = jmp_insn.dest.var var_stack = [] var_stack.append(jmp_var) while len(var_stack) != 0: #拿到一次寄存器间接跳转混淆涉及到的所有指令 cur_ssa_var = var_stack.pop() insn_ = cur_ssa_var.def_site #一条指令应该是MediumLevelILSetVarSsa或MediumLevelILVarPhi if insn_ == None: break if insn_ in involve_insns: break #如果拿到的指令已经在之前获取到的指令中了, 说明遇到循环了 else: involve_insns.append(insn_) #添加涉及到的指令 if 'cond' in insn_.dest.name:#遇到cond:20#1 = x8#2 == 0x586b6221这种就不再继续了要不然有可能遇到phi节点导致死循环 break insn_right = insn_.src #这条指令=右边的表达式 get_right_ssa_var(insn_right, var_stack) #拿到表达式中的变量 return involve_insns ```
然后通过mlssa_insn.llils拿到一条mlil指令涉及到的llil指令, llil和汇编指令的地址是基本一一对应的:
```python involve_asm_addrs = [] #涉及到的汇编指令的地址可能少csx赋值指令后面补上 for mlssa_insn in involve_insns: llil_insns = mlssa_insn.llils for insn_ in llil_insns: if insn_.address not in involve_asm_addrs: involve_asm_addrs.append(insn_.address) ```
实际这样下来可能会缺少指令, 就是那两个设置跳转表偏移量的指令, 比如"mov w27, #0x30"和"mov w28, #0x8"。
那么就通过从当前块开始, 向前继块从后往前搜索指令, 先拿到csel/cinc指令的操作寄存器, 然后搜索类型是"mov", 第一个寄存器是条件选择指令操作寄存器的指令。
具体逻辑请查看dejmpreg.py。
### 2.3 Patch代码
首先要拿到 **从csel到br之间** 的 **所有** 指令, 当然可以分段获取然后移动构造, 而且分段获取的话还可以应对从后往前跳转的情况(当前混淆中是没有这种情况的，只是我懒得写了)。
```python #0. 拿到所有要操作的指令 obf_insns_index = [] #指在csx2br_insns_text中的index csx2br_insns_text = [] #从csx到br中的所有指令文本 (包含csx不包含br) #1. 将混淆指令全转为nop, 并删除最后两个nop(一个nop改bcc, 一个nop改cmp) for i in obf_insns_index: csx2br_insns_text[i] = 'nop' csx2br_insns_text.pop(obf_insns_index[-1]) csx2br_insns_text.pop(obf_insns_index[-2]) #index本身就是从小到大排序的, 所以直接pop不影响 #2. 下沉cmp cmp_txt = bv.get_disassembly(cmp_addr) csx2br_insns_text.append(cmp_txt) #3. 获取select指令的寄存器并添加跳转 csx_tokens = (bv.get_disassembly(cond_addr)).split() #获取csel/cset/csinc等的token csx_cond = csx_tokens[-1] #条件eq/lt等 bcc_cond = 'b.' + csx_cond bcc_txt = f"{bcc_cond} {hex(tbr_addr)}" csx2br_insns_text.append(bcc_txt) b_txt = f"b {hex(fbr_addr)}" csx2br_insns_text.append(b_txt) logger.log_info(f"csx2br_insns_text: {csx2br_insns_text}") ``` ##
##
```python 三效果 ```
![](https://mmbiz.qpic.cn/sz_mmbiz_png/1UG7KPNHN8FSoGhzo0HbRdKE846iagMxBrPSrtiaOBO4AzoOcMbem9ZW7f0vspTU2ibCvvNLuE8ibMWx9RmIAcdXmg/640?wx_fmt=png&from=appmsg)

![](https://mmbiz.qpic.cn/sz_mmbiz_png/1UG7KPNHN8FSoGhzo0HbRdKE846iagMxBjeGKYq82UrxrjjA1jogvqibXZfPICSZGKB9DuNDof6jIS1dcXkC30fQ/640?wx_fmt=png&from=appmsg)
**看雪ID：0xEEEE** *https://bbs.kanxue.com/user-home-901761.htm* \\*本文为看雪论坛优秀文章，由 0xEEEE 原创，转载请注明来自看雪社区
[![](https://mmbiz.qpic.cn/sz_mmbiz_png/1UG7KPNHN8FzaNcgh9tia5aNbCmL6bOnknYAYLHXajuNtCGFMs5Tmibxrjf3e6bRERicAmk9up627N1R4LjQ3poeg/640?wx_fmt=png&from=appmsg)](https://mp.weixin.qq.com/s?__biz=MjM5NTc2MDYxMw==&mid=2458565463&idx=1&sn=e03e9773326308fa63d18676470a6824&scene=21#wechat_redirect)

**# 往期推荐** 1、 [移植 Youpk 到 Aosp10](http://mp.weixin.qq.com/s?__biz=MjM5NTc2MDYxMw==&mid=2458567868&idx=2&sn=3b7c2f13d8a255d680fd823e5beb396b&chksm=b18df43686fa7d204933a40a99416268cdab0d9e82e6837cafada85ac169197453ecd2add05a&scene=21#wechat_redirect)
2、 [第十七届CISCN总决赛-AWDP-PWN部分题解](http://mp.weixin.qq.com/s?__biz=MjM5NTc2MDYxMw==&mid=2458567439&idx=2&sn=4214f2bea8f2ee1795f39bf24e260884&chksm=b18df38586fa7a9349cedce46438eef955cbae89e2e1935ede674469da0573ef654d925971ef&scene=21#wechat_redirect) 3、 [aarch64架构的某so模拟执行和加密算法分析](http://mp.weixin.qq.com/s?__biz=MjM5NTc2MDYxMw==&mid=2458567422&idx=1&sn=e7f5eb398bdd106bc491e4e427ad05ed&chksm=b18df27486fa7b62336c0c87a656f3aa7fc90ee3977f55e83ead09e0fbb372c0a7838441bc73&scene=21#wechat_redirect) 4、 [Android系统启动源码分析](http://mp.weixin.qq.com/s?__biz=MjM5NTc2MDYxMw==&mid=2458567423&idx=1&sn=4cc6b0e2a8e1acf244ee6567e07edae3&chksm=b18df27586fa7b63f5361222ea2c3391c63f55587196d39ae609dc00cf7acf1328266885d243&scene=21#wechat_redirect) 5、 [Linux 内核重大安全漏洞曝光！indler 漏洞威胁数亿计算机系统](http://mp.weixin.qq.com/s?__biz=MjM5NTc2MDYxMw==&mid=2458567380&idx=1&sn=18d81c63ed1044e4ad9f30e080f0ac7b&chksm=b18df25e86fa7b48050427a1e197dab73e9921ded984be316f4468ea9170b8d90a2b35e50276&scene=21#wechat_redirect)