【探索】机器指令翻译成 JavaScript
简版:https://www.cnblogs.com/index-html/p/6492418.html
前言
前些时候研究脚本混淆时,打算先学一些「程序流程」相关的概念。为了不因太枯燥而放弃,决定想一个有趣的案例,可以边探索边学。
于是想了一个话题:尝试将机器指令 1:1 翻译 成 JavaScript,这样就能在浏览器中,直接运行等价的逻辑。
为了简单起见,这里选择古董级 CPU —— MOS 6502。

本系列陆续更新了 8 篇,前面几篇只是理论分析:
原本只打算遐想一下,分析下可行性而已。不过,后来发现实现也不难,于是又补了两篇:
6502
MOS 6502 是一款经典的 CPU,在上世纪 80 年代十分流行。

例如 Atari、Apple II,还有国内的文曲星,都配置了这个系列的 CPU。小时候常玩的 FC 红白机,也是相同的指令集。
网上相关的文章也非常多,这里收集了一些:
甚至还有在线模拟器:
事实上,模拟器的原理是很简单的:读取一条指令,做相应的操作;然后再读取下一条指令。。。参照文档实现即可。
do {
opcode = memory[pc++]
switch (opcode) {
case 0xA9: // LDA
...
case 0x85: // STA
...
case 0xE6: // INC
...
....
}
} while (...)
模拟虽然简单,但有个很大的缺点:效率低。模拟一个指令,需要很多额外操作 —— 那些原本是硬件的工作,现在要用软件来完成,显然会慢得多。
不过,我们的目标并非模拟,而是翻译 —— 在程序运行前,把「虚拟指令」翻译成相应的本地「原生指令」,这样就能直接运行,无需模拟,效率自然大幅提升。
在浏览器层面,JavaScript 就是原生指令。那么,能否将 6502 翻译成 JavaScript 呢?下面开始探索。。。
硬件实现
6502 CPU 有三个 8 位寄存器 A、X、Y,我们用 JS 变量来表示:
var A = 0, X = 0, Y = 0;
至于「状态寄存器」SR,为了直观起见,分别用单独的 bool 变量表示每一位:
// SR: NV-BDIZC
// bit 76543210
var SR_N = false,
SR_V = false,
...
SR_C = false;
其他诸如「栈寄存器」、「指令计数器」,这里暂时先省略。
6502 的地址总线有 16 位,最多能访问 64K 的空间。数据总线 8 位,因此用一个 Uint8Array 就能实现内存:
var MEM = new Uint8Array(65536);
这里假设把整个地址空间都用做 RAM,事实上屏幕、键盘等 IO 交互,还会占用一些地址空间。
尝试翻译
现在,尝试翻译第一条指令:
STA 100
STA 即 “Store A”,将 A 写入存储 —— 写到第 100 号位置。对应的 JS 即:
MEM[100] = A;
很简单吧。下面翻译第二条指令:
LDA #123
LDA 即 “Load A”,给 A 赋值,# 表示立即数。因此,生成的 JS 的就是:
A = 123;
SR_Z = (123 == 0);
SR_N = (123 > 127);
稍了解汇编的都知道,修改寄存器的同时,还得更新状态标志。SR_Z 表示结果是否为零;SR_N 表示最高位(符号位)是否为 1。
这时「翻译」的优势就体现出来了。因为 123 == 0 和 123 > 127 都是常量计算,所以预先就能得出结果:
A = 123;
SR_N = false;
SR_Z = false;
相比模拟,翻译能减少运行时的计算量。如果有多个指令,效果则更明显,例如:
LDX 10
INX
翻译成如下 JS 代码:
X = MEM[10]; // LDX 10
SR_Z = (X == 0);
SR_N = (X > 127);
X = (X + 1) & 0xff; // INX (X 自增)
SR_Z = (X == 0);
SR_N = (X > 127);
这里虽然没有预先计算,但不要忘了,JavaScript 最终还得交给浏览器解析。
如今的浏览器,本身就有很强的优化能力,脚本引擎发现 SR_Z 和 SR_N 重复赋值,并且中间没有使用,于是就将之前的计算优化掉了。因此,最终效率会非常高。
真正困难
通过这几个例子,感觉翻译并不困难。事实上大多数 6502 指令,都可以生成对应的 JS 逻辑。有的很简短,只有一两行;有的较复杂,例如算术加减法。但不管怎样,都是没有障碍的。
但是,有一类指令很难翻译,那就是「跳转指令」。因为不同的层面,流程控制的能力是不一样的。
在 JavaScript 中,流程控制只能以「语块」为单位:
if (...) {
block 1
} else {
block 2
}
for (...) {
break;
continue;
}
我们最多只能退出语块(break),或者重新进入语块(continue),无法指定从某一行开始运行。
而在 C 语言中,流程控制可以细致到行:
a: ...
goto c;
b: ...
goto a;
c: ...
goto b;
机器指令更底层,因此更灵活。流程控制是以「字节」为单位的,可以跳到任意位置。甚至跳到一个指令的中间:
Address Hexdump Dissassembly
-------------------------------
$0600 a9 00 LDA #$00
$0602 4c 01 06 JMP $0601
于是将 LDA 的参数 0x00 当成另一个指令(BRK 指令)执行。
更有甚者,还可以跳到栈内存上,将动态数据当成指令执行。如此灵活的特性,又该如何实现?
下一篇,我们探讨如何处理跳转指令。
【探索】机器指令翻译成 JavaScript的更多相关文章
- 机器指令翻译成 JavaScript —— No.5 指令变化
上一篇,我们通过内置解释器的方案,解决任意跳转的问题.同时,也提到另一个问题:如果指令发生变化,又该如何应对. 指令自改 如果指令加载到 RAM 中,那就和普通数据一样,也是可以随意修改的.然而,对应 ...
- 机器指令翻译成 JavaScript —— 终极目标
上一篇,我们顺利将 6502 指令翻译成 C 代码,并演示了一个案例. 现在,我们来完成最后的目标 -- 转换成 JavaScript. 中间码输出 我们之所以选择 C,就是为了使用 LLVM.现在来 ...
- 机器指令翻译成 JavaScript —— No.6 深度优化
第一篇 中我们曾提到,JavaScript 最终还得经过浏览器来解析.因此可以把一些优化工作,交给脚本引擎来完成. 现代浏览器的优化能力确实很强,但是,运行时的优化终归是有限的.如果能在事先实现,则可 ...
- 机器指令翻译成 JavaScript —— No.7 过渡语言
上一篇,我们决定使用 LLVM 来优化程序,并打算用 C 作为输入语言.现在我们来研究一下,将 6502 指令转换成 C 的可行性. 跳转支持 翻译成 C 语言,可比 JS 容易多了.因为 C 支持 ...
- 机器指令翻译成 JavaScript —— No.2 跳转处理
上一篇,我们发现大多数 6502 指令都可以直接 1:1 翻译成 JS 代码,但除了「跳转指令」. 跳转指令,分无条件跳转.条件跳转.从另一个角度,也可分: 静态跳转:目标地址已知 动态跳转:目标地址 ...
- 机器指令翻译成 JavaScript —— No.3 流程分割
上一篇 我们讨论了跳转指令,并实现「正跳转」的翻译,但最终困在「负跳转」上.而且,由于线程模型的差异,我们不能 1:1 的翻译,必须对流程进行一些改造. 当初之所以选择翻译,而不是模拟,就是出于性能考 ...
- 机器指令翻译成 JavaScript —— No.4 动态跳转
上一篇,我们用模拟流程的方式,解决了跳转问题. 不过静态跳转,好歹事先是知道来龙去脉的.而动态跳转,只有运行时才知道要去哪.既然流程都是未知的,翻译从何谈起? 动态跳转,平时出现的多吗?非常多!除了 ...
- [书籍翻译] 《JavaScript并发编程》第五章 使用Web Workers
本文是我翻译<JavaScript Concurrency>书籍的第五章 使用Web Workers,该书主要以Promises.Generator.Web workers等技术来讲解Ja ...
- [书籍翻译] 《JavaScript并发编程》第七章 抽取并发逻辑
本文是我翻译<JavaScript Concurrency>书籍的第七章 抽取并发逻辑,该书主要以Promises.Generator.Web workers等技术来讲解JavaScrip ...
随机推荐
- VM(虚拟机安装win7 提示 :units specified don't exist, SHSUCDX can't install)解决方法
改成IDE的模式
- NodeJs之log4js
log4js log4js是一个管理,记录日志的工具. 其实与morgan的作用类似. 安装 npm install -g log4js log4js的6个日志级别 分别是:trace(蓝色).deb ...
- SQLSERVER走起 APP隆重推出
SQLSERVER走起 APP隆重推出 为方便大家查看本微信公众以前推送的文章,QQ群里面的某位SQLSERVER重度爱好者开发了<SQLSERVER走起>的APP 以供大家一起交流 网页 ...
- 查看w3wp进程占用的内存及.NET内存泄露,死锁分析
一 基础知识 在分析之前,先上一张图: 从上面可以看到,这个w3wp进程占用了376M内存,启动了54个线程. 在使用windbg查看之前,看到的进程含有 *32 字样,意思是在64位机器上已32位方 ...
- dubbox微服务实例及引发的“血案”
Dubbo 是阿里巴巴公司开源的一个高性能优秀的服务框架,使得应用可通过高性能的 RPC 实现服务的输出和输入功能,可以和 Spring框架无缝集成. 主要核心部件: Remoting: 网络通信框架 ...
- 奇葩问题-TextView无法获取值
问题场景 前几天写一个界面的时候,遇到一个非常奇葩的问题.app第一次安装的时候,这里针对用户第一次安装的时候,后来是不会出现这个问题了.我明明是对某个界面的一个textview赋值了,而且服务端也返 ...
- 小兔JS教程(三)-- 彻底攻略JS回调函数
这一讲来谈谈回调函数. 其实一句话就能概括这个东西: 回调函数就是把一个函数当做参数,传入另一个函数中.传进去的目的仅仅是为了在某个时刻去执行它. 如果不执行,那么你传一个函数进去干嘛呢? 就比如说对 ...
- 封装集合(Encapsulate Collection)
封装就是将相关的方法或者属性抽象成为一个对象. 封装的意义: 对外隐藏内部实现,接口不变,内部实现自由修改. 只返回需要的数据和方法. 提供一种方式防止数据被修改. 更好的代码复用. 当一个类的属性类 ...
- iOS10之Expected App Behaviors
昨天上架到appStore的时候碰到个问题,构建好后上传到itunesconnect的的包都用不了, 显示错误为:此构建版本无效. 或者英文显示为:ITC.apps.preReleaseBuild.e ...
- 设计模式之工厂模式VS抽象工厂
一.工厂模式主要是为创建对象提供过渡接口,以便将创建对象的具体过程屏蔽隔离起来,达到提高灵活性的目的. 工厂模式在<Java与模式>中分为三类:1)简单工厂模式(Simple Factor ...