gem5-gpu 运行 PARSEC2.1
PARSEC是针对共享内存多核处理器(CPU)的一套基准测试程序,详细介绍见wiki:http://wiki.cs.princeton.edu/index.php/PARSEC,主要参考:http://www.cs.utexas.edu/~cart/parsec_m5/,下载parsec、inputs:http://parsec.cs.princeton.edu/download.htm
阅读此教程的前提是,你已经配置好全系统模拟环境。
首先,下载所需的PARSEC应用程序,这一步已经在配置全系统时完成,即磁盘镜像中根目录下的parsec文件夹。要想重新编译请看http://www.cs.utexas.edu/~cart/parsec_m5/,在http://parsec.cs.princeton.edu/download.htm下载的源文件是否需要对gem5-gpu做针对性的更改:未知,需要实验来给出结果。
其次,下载一个rcS生成器:http://www.cs.utexas.edu/~parsec_m5/writescripts.pl,这是一个Perl脚本,很多Linux发行版默认安装了Perl,只需赋予用户该文件的可执行权限即可,源文件的最后注明了用法。PARSEC wiki页面最后也有个别程序的用法。
可以看到生成了5个rcS脚本,命名格式为“benchName_threadsNumberc_input",其中input的含义:
test:尽可能小的输入,dev:我没看懂,small:真实输入,运行时间约1s,medium:真实输入,运行时间约5s,large:真实输入,运行时间约15s,native:真实输入,运行时间约15min。
rcS文件内容可供参考,参考其命令格式,可以通过运行 ./bench --help-all 查看程序的其他用法。
付用法,具体含义见源文件main.cpp
blackscholes;<nthreads> <inputdir>in_4.txt <inputdir>prices.txt;<nthreads> <inputdir>in_16.txt <inputdir>prices.txt;<nthreads> <inputdir>in_4K.txt <inputdir>prices.txt;<nthreads> <inputdir>in_16K.txt <inputdir>prices.txt;<nthreads> <inputdir>in_64K.txt <inputdir>prices.txt
bodytrack;<inputdir>sequenceB_1 4 1 5 1 0 <nthreads>;<inputdir>sequenceB_1 4 1 100 3 0 <nthreads>;<inputdir>sequenceB_1 4 1 1000 5 0 <nthreads>;<inputdir>sequenceB_2 4 2 2000 5 0 <nthreads>;<inputdir>sequenceB_4 4 4 4000 5 0 <nthreads>
canneal;<nthreads> 5 100 <inputdir>10.nets 1;<nthreads> 100 300 <inputdir>100.nets 2;<nthreads> 10000 2000 <inputdir>100000.nets 32;<nthreads> 15000 2000 <inputdir>200000.nets 64;<nthreads> 15000 2000 <inputdir>400000.nets 128
dedup;-c -p -f -t <nthreads> -i <inputdir>test.dat -o <inputdir>output.dat.ddp;-c -p -f -t <nthreads> -i <inputdir>hamlet.dat -o <inputdir>output.dat.ddp;-c -p -f -t <nthreads> -i <inputdir>medias.dat -o <inputdir>output.dat.ddp;-c -p -f -t <nthreads> -i <inputdir>mediam.dat -o <inputdir>output.dat.ddp;-c -p -f -t <nthreads> -i <inputdir>medial.dat -o <inputdir>output.dat.ddp
facesim;-h;-timing -threads <nthreads>;-timing -threads <nthreads>;-timing -threads <nthreads>;-timing -threads <nthreads>
ferret;<inputdir>corelt lsh <inputdir>queriest 1 1 <nthreads> <inputdir>output.txt;<inputdir>coreld lsh <inputdir>queriesd 5 5 <nthreads> <inputdir>output.txt;<inputdir>corels lsh <inputdir>queriess 10 20 <nthreads> <inputdir>output.txt;<inputdir>corelm lsh <inputdir>queriesm 10 20 <nthreads> <inputdir>output.txt;<inputdir>corell lsh <inputdir>queriesl 10 20 <nthreads> <inputdir>output.txt
fluidanimate;<nthreads> 1 <inputdir>in_5K.fluid <inputdir>out.fluid;<nthreads> 3 <inputdir>in_15K.fluid <inputdir>out.fluid;<nthreads> 5 <inputdir>in_35K.fluid <inputdir>out.fluid;<nthreads> 5 <inputdir>in_100K.fluid <inputdir>out.fluid;<nthreads> 5 <inputdir>in_300K.fluid <inputdir>out.fluid
freqmine;<inputdir>T10I4D100K_3.dat 1;<inputdir>T10I4D100K_1k.dat 3;<inputdir>kosarak_250k.dat 220;<inputdir>kosarak_500k.dat 410;<inputdir>kosarak_990k.dat 790
rtview;<inputdir>octahedron.obj -nodisplay -automove -nthreads <nthreads> -frames 1 -res 1 1;<inputdir>bunny.obj -nodisplay -automove -nthreads <nthreads> -frames 1 -res 16 16;<inputdir>happy_buddha.obj -nodisplay -automove -nthreads <nthreads> -frames 3 -res 480 270;<inputdir>happy_buddha.obj -nodisplay -automove -nthreads <nthreads> -frames 3 -res 960 540;<inputdir>happy_buddha.obj -nodisplay -automove -nthreads <nthreads> -frames 3 -res 1920 1080
streamcluster;2 5 1 10 10 5 none <inputdir>output.txt <nthreads>;3 10 3 16 16 10 none <inputdir>output.txt <nthreads>;10 20 32 4096 4096 1000 none <inputdir>output.txt <nthreads>;10 20 64 8192 8192 1000 none <inputdir>output.txt <nthreads>;10 20 128 16384 16384 1000 none <inputdir>output.txt <nthreads>
swaptions;-ns 1 -sm 5 -nt <nthreads>;-ns 3 -sm 50 -nt <nthreads>;-ns 16 -sm 5000 -nt <nthreads>;-ns 32 -sm 10000 -nt <nthreads>;-ns 64 -sm 20000 -nt <nthreads>
vips;im_benchmark <inputdir>barbados_256x288.v <inputdir>output.v;im_benchmark <inputdir>barbados_256x288.v <inputdir>output.v;im_benchmark <inputdir>pomegranate_1600x1200.v <inputdir>output.v;im_benchmark <inputdir>vulture_2336x2336.v <inputdir>output.v;im_benchmark <inputdir>bigben_2662x5500.v <inputdir>output.v
x264;--quiet --qp 20 --partitions b8x8,i4x4 --ref 5 --direct auto --b-pyramid --weightb --mixed-refs --no-fast-pskip --me umh --subme 7 --analyse b8x8,i4x4 --threads <nthreads> -o <inputdir>eledream.264 <inputdir>eledream_32x18_1.y4m;--quiet --qp 20 --partitions b8x8,i4x4 --ref 5 --direct auto --b-pyramid --weightb --mixed-refs --no-fast-pskip --me umh --subme 7 --analyse b8x8,i4x4 --threads <nthreads> -o <inputdir>eledream.264 <inputdir>eledream_64x36_3.y4m;--quiet --qp 20 --partitions b8x8,i4x4 --ref 5 --direct auto --b-pyramid --weightb --mixed-refs --no-fast-pskip --me umh --subme 7 --analyse b8x8,i4x4 --threads <nthreads> -o <inputdir>eledream.264 <inputdir>eledream_640x360_8.y4m;--quiet --qp 20 --partitions b8x8,i4x4 --ref 5 --direct auto --b-pyramid --weightb --mixed-refs --no-fast-pskip --me umh --subme 7 --analyse b8x8,i4x4 --threads <nthreads> -o <inputdir>eledream.264 <inputdir>eledream_640x360_32.y4m;--quiet --qp 20 --partitions b8x8,i4x4 --ref 5 --direct auto --b-pyramid --weightb --mixed-refs --no-fast-pskip --me umh --subme 7 --analyse b8x8,i4x4 --threads <nthreads> -o <inputdir>eledream.264 <inputdir>eledream_640x360_128.y4m
Benchmark | input | cpu_threads | start_from | sim_seconds | ROI time | cpu_threads | start_from | sim_seconds | ROI time |
blackscholes | small | 1 | 0.4799s | 0.480s | 2 | 0.24s | |||
bodytrack | 1.4s | 1.4s | |||||||
canneal | 0.774s | 0.772s | |||||||
dedup | 2.913s | 2.912s | |||||||
facesim | |||||||||
ferret | |||||||||
fluidanimate | 2.597s | 2.6s | |||||||
freqmine | 1.536s | 1.54s | |||||||
rtview | |||||||||
streamcluster | 2.532s | 2.532s | |||||||
swaption | |||||||||
vips | |||||||||
x264 | 0.4699s | 0.468s |
gem5-gpu 运行 PARSEC2.1的更多相关文章
- 指定GPU运行python程序
一.命令行运行python程序时 1.首先查看哪些GPU空闲,nvidia-smi显示当前GPU使用情况. nvidia-smi 2.然后指定空闲的GPU运行python程序. CUDA_VISIBL ...
- 配置ubuntu16.04下Theano使用GPU运行程序的环境
ubuntu16.04默认安装了python2.7和python3.5 .本教程使用python3.5 第一步:将ubuntu16.04默认的python2修改成默认使用python3 . sudo ...
- pytorch设置多GPU运行的方法
1.DataParallel layers (multi-GPU, distributed) 1)DataParallel CLASS torch.nn.DataParallel(module, de ...
- GPU运行Tensorflow的几点建议
1.在运行之前先查看GPU的使用情况: 指令:nvidia-smi 备注:查看GPU此时的使用情况 或者 指令:watch nvidia-smi 备注:实时返回GPU使用情况 2.指定GPU训练: 方 ...
- Ubuntu16.04 faster-rcnn+caffe+gpu运行环境配置以及解决各种bug
https://blog.csdn.net/flygeda/article/details/78638824 本文主要是对近期参考的网上各位大神的博客的总结,其中,从安装系统到跑通程序过程中遇到的各种 ...
- Keras/Tensorflow选择GPU/CPU运行
首先,导入os,再按照PCI_BUS_ID顺序,从0开始排列GPU, import os os.environ["CUDA_DEVICE_ORDER"] = "PCI_B ...
- 使用colab运行深度学习gpu应用(Mask R-CNN)实践
1,目的 Google Colaboratory(https://colab.research.google.com)是谷歌开放的一款研究工具,主要用于机器学习的开发和研究.这款工具现在可以免费使用, ...
- 深入GPU硬件架构及运行机制
目录 一.导言 1.1 为何要了解GPU? 1.2 内容要点 1.3 带着问题阅读 二.GPU概述 2.1 GPU是什么? 2.2 GPU历史 2.2.1 NV GPU发展史 2.2.2 NV GPU ...
- 【OpenCV】OpenCV中GPU模块使用
CUDA基本使用方法 在介绍OpenCV中GPU模块使用之前,先回顾下CUDA的一般使用方法,其基本步骤如下: 1.主机代码执行:2.传输数据到GPU:3.确定grid,block大小: 4.调用内核 ...
随机推荐
- 【原】python异步学习
https://www.liaoxuefeng.com/wiki/1016959663602400/1017959540289152 https://www.jianshu.com/p/b5e347b ...
- Java基础 -4
IF分支结构 在程序开发的过程中 一共会存在有三组程序逻辑:顺序结构.分支结构.循环结构 if分支结构主要是针对关系表达式进行判断处理的分支操作. if判断 public static void ma ...
- java问题 2019
一.Java基础和高级 1.String类为什么是final的. 2.HashMap的源码,实现原理,底层结构. 3.反射中,Class.forName和classloader的区别 4.sessio ...
- DRF项目之序列化器和视图重写方法的区别
我们,都知道,DRF框架是一款高度封装的框架. 我们可以通过重写一些方法来实现自定义的功能. 今天,就来说说在视图中重写和序列化器中重写方法的区别. 在视图中重写方法: 接收请求,处理数据(业务逻辑) ...
- Community Cloud零基础学习(二)信誉等级设置 & Global Search设定
当我们创建了Community以后,我们需要对他进行定制页面来使community用户更好的使用.此篇主要描述两点,信誉等级设定以及Global Search 设定.其他的内容后期再慢慢描述. 一. ...
- Firefox 的 hack 及 问题
hack: @-moz-document url-prefix(){ #selector{ display: flex; justify-content: space-between; } } 问题一 ...
- nginx_1_初始nginx
一.nginx简介: nginx是一个性能优秀的web服务器,同时还提供反向代理,负载均衡,邮件代理等功能.是俄罗斯人用C语言开发的开源软件. 二.安装nginx step1:安装依赖库 pcre(支 ...
- PE之RVA转FOA
目录 公式 实验-对齐大小一样 获取ImageBase 计算RVA 获取内存对齐和文件对齐 判断在哪一个节 计算偏移 获取节表的PointerToRawData 计算FOA 验证 实验-对齐大小不一样 ...
- Python用户界面编程PyQt5的四种的布局方式
1.QT是C++编写的跨平台GUI库,GUI是指桌面程序应用. 2.开发基于pyqt5的桌面应用程序必须要使用两个类Qapplication和Qwidget类,都在PyQt5.Qt.widgets里面 ...
- 吴裕雄--天生自然HADOOP学习笔记:hadoop集群实现PageRank算法实验报告
实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班 ...