继续我们的主题—使用IDAPython 让逆向工程师的生活变得更美好。

这一部分,我们将着手处理一个非常常见的问题:shellcode和恶意软件使用hash算法混淆加载的函数和链接库,这项技术被广泛使用。使用IDAPython,我们能够很容易的解决这个很有挑战性的问题。

背景

逆向人员经常在shellcode里遇到名字被混淆的函数。 总体来说这个过程比较简单:代码运行之后会在初始化阶段加载kernel32.dll链接库,然后继续用这个加载的映像来标识和存储LoadLibraryA 的函数,而这个函数又会去加载附加的链接库和函数 。

这项特殊的技术使用hash算法来标识一个函数,该hash算法一般使用CRC32, 其他变种中ROR13也经常被使用。

在逆向恶意软件的过程中,我们找到下面这段代码:

在上面的例子中, 我们可以通过找到包含0xEDB88320来快速标识出使用CRC32算法的地方:

现在算法和函数已经被标识出来了,我们可以使用交叉引用来看看这个函数被调用了多少次。

在这个特殊的样本中,这个函数被调用了190次。而我们不想手动的去解码这些hash值,那么像上一部分一样,我们可以使用IDAPython来简化我们的工作。

编写IDAPython脚本

第一步其实没有使用到IDAPython, 但是用到了Python。 为了标识出hash值与函数的匹配关系,我们需要生成一张微软的windows操作系统最常使用函数的hash值表。为了达成这个目的,我们可以抓取windows操作系统常用的链接库列表,然后遍历里面的函数。

def get_functions(dll_path):
  pe = pefile.PE(dll_path)
  if ((not hasattr(pe, 'DIRECTORY_ENTRY_EXPORT')) or (pe.DIRECTORY_ENTRY_EXPORT is None)):
    print "[*] No exports for %s" % dll_path
    return []
  else:
    expname = []
    for exp in pe.DIRECTORY_ENTRY_EXPORT.symbols:
      if exp.name:
        expname.append(exp.name)
    return expname

我们可以用下面代码来计算这些函数的CRC32的值。

def calc_crc32(string): 
  return int(binascii.crc32(string) & 0xFFFFFFFF)

最后,我们将结果写道JSON格式的文件中,命名为output.json。这些JSON数据包含了一个很大的字典,格式如下:

HASH => NAME

完成的脚本代码下载链接

https://github.com/pan-unit42/public_tools/blob/master/ida_scripts/gen_function_json.py

生成了这个文件之后,我们回到IDA中,剩下的脚本将会在这里完成。 首先我们的脚本会从之前生成的output.json文件中读取JSON数据。 不幸的是,JSON对象不支持整数型的键值,所以数据加载之后,我们将键值转换为整数类型来替代字符串类型。

for k,v in json_data.iteritems():
  json_data[int(k)] = json_data.pop(k)

数据完全载入后,我们创建一个新的枚举类型(enumeration)来存储‘hash值-函数名’的映射。(更多关于的枚举类型的资料与工作原理,可以阅读下面的这个教程

http://www.cprogramming.com/tutorial/enum.html)

使用枚举类型,我们能够将一个整数值(如CRC32)与字符串(如函数名)建立映射关系。为了在IDA中建立新的枚举,我们将使用到AddEnum()函数。为了让脚本能处理更多的情况,我们先使用GetEnum()函数来校验枚举是否已经存在。

enumeration = GetEnum("crc32_functions")
if enumeration == 0xFFFFFFFF:
  enumeration = AddEnum(0, "crc32_functions", idaapi.hexflag())

这个枚举以后会被修改。 下一步就是找到hash转换函数的交叉引用。这个跟第一部分提到的很相似。当分析参数如何传递到函数中时, 我们可以看到CRC32格式的hash值被作为第二个参数。

我们将遍历函数调用前面的指令,找到第二个push指令的使用处。一旦找到,我们将会将CRC32的hash值与之前从output.json里面读取出来的JSON数据进行匹配,看是否有匹配的函数名。

for x in XrefsTo(load_function_address, flags=0):
    current_address = x.frm
    addr_minus_20 = current_address-20
    push_count = 0
    while current_address >= addr_minus_20:
      current_address = PrevHead(current_address)
      if GetMnem(current_address) == "push":
        push_count += 1
        data = GetOperandValue(current_address, 0)
        if push_count == 2:
          if data in json_data:
            name = json_data[data]

在下面这个步骤中,我们使用 AddConstEx()函数将CRC32 hash值与函数名加入到之前创建的枚举中。

AddConstEx(enumeration, str(name), int(data), -1)

一旦数据被加入到枚举中, 我们就能够将CRC32 hash值转换为对应的枚举名。 下面两个函数能够用来获取枚举的第一个实例,以及获取转换为枚举的数据的地址。

def get_enum(constant):
  all_enums = GetEnumQty()
  for i in range(0, all_enums):
    enum_id = GetnEnum(i)
    enum_constant = GetFirstConst(enum_id, -1)
    name = GetConstName(GetConstEx(enum_id, enum_constant, 0, -1))
    if int(enum_constant) == constant: return [name, enum_id]
    while True:
      enum_constant = GetNextConst(enum_id, enum_constant, -1)
      name = GetConstName(GetConstEx(enum_id, enum_constant, 0, -1))
      if enum_constant == 0xFFFFFFFF:
        break
      if int(enum_constant) == constant: return [name, enum_id]
  return None
  
def convert_offset_to_enum(addr):
  constant = GetOperandValue(addr, 0)
  enum_data = get_enum(constant)
  if enum_data:
    name, enum_id = enum_data
    OpEnumEx(addr, 0, enum_id, 0)
    return True
  else:
    return False

这个枚举转换发生之后,我们将会关注到函数后面DWORD加载的地址。

我们将会从函数开始往后遍历,去找到将eax的值移动到DWORD的指令。找到之后,我们会将DWORD值重命名为函数名。为了避免命名冲突,我们将会使用’d_’来作为名字前缀。

address = current_address
while address <= address_plus_30:
  address = NextHead(address)
  if GetMnem(address) == "mov":
    if 'dword' in GetOpnd(address, 0) and 'eax' in GetOpnd(address, 1):
      operand_value = GetOperandValue(address, 0)
      MakeName(operand_value, str("d_"+name))

将这几个步骤结合在一起,就可以将之前不可读的反汇编代码用更容易理解的形式替换。

当我们查看用来存储这些信息的DWORDs时,我们将会得到下面这样的函数名列表。这些数据可以被用来进行恶意软件的静态分析。

完整的IDAPython 脚本代码:

https://github.com/pan-unit42/public_tools/blob/master/ida_scripts/crc32_conversion.py

总结:

我们又一次用使用IDAPython解决了一个困难的问题(将190处CRC32 hash值转换为有意义的函数名)。枚举结构在这个问题的解决过程中起到了非常重要的作用。IDAPython能够很方便的操作枚举变量,进行创建修改,为我们节省大量的时间。另外的,当我们在逆向其他样本遇到相同问题的时候,这些枚举数据可以导出或导入到IDA项目中。

* 原文链接:researchcenter.paloaltonetworks,转载请注明来自FreeBuf黑客与极客(FreeBuf.COM)

IDAPython教程(二)的更多相关文章

  1. CRL快速开发框架系列教程二(基于Lambda表达式查询)

    本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...

  2. 手把手教从零开始在GitHub上使用Hexo搭建博客教程(二)-Hexo参数设置

    前言 前文手把手教从零开始在GitHub上使用Hexo搭建博客教程(一)-附GitHub注册及配置介绍了github注册.git相关设置以及hexo基本操作. 本文主要介绍一下hexo的常用参数设置. ...

  3. C#微信公众号开发系列教程二(新手接入指南)

    http://www.cnblogs.com/zskbll/p/4093954.html 此系列前面已经更新了两篇博文了,都是微信开发的前期准备工作,现在切入正题,本篇讲解新手接入的步骤与方法,大神可 ...

  4. 无废话ExtJs 入门教程二十一[继承:Extend]

    无废话ExtJs 入门教程二十一[继承:Extend] extjs技术交流,欢迎加群(201926085) 在开发中,我们在使用视图组件时,经常要设置宽度,高度,标题等属性.而这些属性可以通过“继承” ...

  5. 无废话ExtJs 入门教程二十[数据交互:AJAX]

    无废话ExtJs 入门教程二十[数据交互:AJAX] extjs技术交流,欢迎加群(521711109) 1.代码如下: 1 <!DOCTYPE html PUBLIC "-//W3C ...

  6. 无废话ExtJs 入门教程二[Hello World]

    无废话ExtJs 入门教程二[Hello World] extjs技术交流,欢迎加群(201926085) 我们在学校里学习任何一门语言都是从"Hello World"开始,这里我 ...

  7. Android Studio系列教程二--基本设置与运行

    Android Studio系列教程二--基本设置与运行 2014 年 11 月 28 日 DevTools 本文为个人原创,欢迎转载,但请务必在明显位置注明出处! 上面一篇博客,介绍了Studio的 ...

  8. Laravel教程 二:路由,视图,控制器工作流程

    Laravel教程 二:路由,视图,控制器工作流程 此文章为原创文章,未经同意,禁止转载. View Controller 上一篇教程我们走了那么长的路,终于把Laravel安装好了,这一篇教程我们就 ...

  9. Android高手进阶教程(二十八)之---Android ViewPager控件的使用(基于ViewPager的横向相册)!!!

      分类: Android高手进阶 Android基础教程 2012-09-14 18:10 29759人阅读 评论(35) 收藏 举报 android相册layoutobjectclassloade ...

  10. NGUI系列教程二

    接下来我们创建一个Label,NGUI->Open the Widget Wizard,打开widgetTool对话框,在Template中选择Label,确定AddTo右侧选项为panel,点 ...

随机推荐

  1. 【mysql】工作中mysql常用命令及语句

    1.查看mysql版本号 MySQL [release_test_oa]> select version(); +------------+ | version() | +----------- ...

  2. 对于rqy今天讲座的一些理解和看法吧

    其实我本来以为今天晚上要学高数的,但是听到任大佬要来讲课,我自然是很开心. 其实真正接触到他和照片给我的感觉完全不一样,rqy是一个非常单一的,没有在意其他过多的事情的人,包括从他的讲座来看,大佬把自 ...

  3. linux(fedora) 第三课

    树形打印所有进程名:pstree pstree | grep pstree -A2 -B2(查看pstree前后两行) NI的值[-20,20) nice(改变NI的值):改变程序优先级 nice - ...

  4. 把 android 手机变成 web server (golang)

    配置 golang 开发环境 略 安装并初始化 gomobile go get golang.org/x/mobile/cmd/gomobile gomobile init 创建 beego 项目, ...

  5. QML学习笔记(四)-TabView-竖直方向

    源码:https://github.com/sueRimn/QML-ExampleDemos 作者: 狐狸家的鱼 Github: 八至 版权声明:如需转载请获取授权和联系作者 想实现垂直竖直方向的Ta ...

  6. poj2689 Prime Distance

    题意:求[a, b]之间差最大/小的相邻素数. 0 < a, b < 2^32, 0 < b - a <= 1e6 首先发现a,b很大,以至于无法求出素数来. 然后就考虑退而求 ...

  7. Vue+koa2开发一款全栈小程序(1.课程介绍+2.ES6入门)

    1.课程介绍 1.课程概述 1.做什么? Vue+koa2开发一款全栈小程序 2.哪些功能? 个人中心.图书列表.图书详情.图书评论.个人评论列表 3.技术栈 小程序.Vue.js.koa2.koa- ...

  8. PHP原生处理select结果集的函数介绍

    select: mysql_num_rows($result) 从结果集中获取数据记录的个数 mysql_num_fields($result) 从结果集中获取数据记录列的个数 mysql_fetch ...

  9. 编写一个数组工具类, 编写本软件的 帮助文档(API文档)

    本文档是对静态成员的练习. 一. 建立一个ArrayTool(数组工具)的类,在此类中对传入数组进行一些操作(选最大值.先最小值.冒泡排正序.选择排反序.输出数组元素), 二. 建立一个Test的类, ...

  10. java 学习:在java中启动其他应用,由jenkins想到的

    在jenkins的实践中遇到了一个问题: 我的项目依赖其他第三方应用的地方比较多,而且会占用多个端口,如何处理端口和启动/关闭第三方应用成了难题. 初级解决方案:在服务端上面写一堆bat文件,,,,_ ...