时间:2014-12-09 来源:西安电子科技大学电子工程学院 作者:姜 宁,陈建春,王 沛,石 婷

摘要 PCI Express是一种高性能互连协议,被广泛应用于网络适配、图形加速器、网络存储、大数据传输以及嵌入式系统等领域。文中介绍了PCIe的体系结构,以及利用Altera Cyclone IV GX系列FPGA实现PCIe接口所涉及的硬件板卡参数、应用层系统方案、DMA仲裁、PCIe硬核配置与读写时序等内容。

PCI Express(PCIe)是一种高性能互连协议,可应用于网络适配、图形加速、服务器、大数据传输、嵌入式系统等领域。PCIe协议在软件层上可兼容于PCI和PCI—X,但同时也有明显的不同。在两个设备间,其是一种基于数据包、串行、点对点的互连,因此所连接设备独享通道带宽。根据使用的版本号和通道数,其性能具有可扩展性。对于PCIe 2.0,每条通道在每个方向上的数据传输速率是5.0 Gbit·s-1。从PCIe×1~PCIe×16,能满足一定时间内出现的低速设备和高速设备的需求。

Altera提供了兼容于PCIe 1.0和PCIe 2.0的解决方案,无论是作为根节点还是端点,都可以通过嵌入在FPGA内部的可配置硬核IP模块实现,而不占用可编程资源,这既节省了资源也提高了应用的可靠性。Altera的IP编译器可以提供×1,×2,×4,×8的通道接口。本文主要介绍采用Cyclone IV GX系列的FPGA来实现×4的PCIe接口所涉及的硬件电气规范、协议规范等。

1 PCIe总线体系和Cyclone IV GX

1.1 PCIe总线体系概述

PCI Express是一种基于数据包、串行、点到点的高性能互连总线协议。其定义了一种分层的体系结构,包括软件层、处理层、数据链路层和物理层。其中软件层是保持与PCI总线兼容的关键,PCIe采用与PCI和PCI—X相同的使用模型和读写通信模型。支持各种常见事物,如存储器读写事物,IO读写事物和配置读写事物。而且由于地址空间模型没有变化,所以现有的操作系统和驱动软件无需进行修改即可在PCIe系统上运行。此外PCIe还支持一种称为消息事物的新事物类型。这是由于PCIe协议在取消了许多边带信号的情况下,需要有替代的方法来通知主机系统对设备中断,电源管理,热插拔支持等进行服务。

1.2 Altera Cyclone IV GX系列FPGA

Cyclone IV GX FPGA采用Altera成熟的GX收发器技术,具有出众的抖动性能和优异的信号完整性。利用灵活的收发器时钟体系结构,可充分利用收发器所有可用资源,实现多种协议。Cyclone IV GX FPGA为根端口和端点配置的PCI Express×1、×2和×4提供唯一的硬核知识产权(IP)模块。因此不用再接入其他专用的PCIe协议芯片,即可实现端到端的高速数据传输。

Cyclone IV系列的FPGA还支持一系列外部存储器,包括DDR2 SDRAM,DDR SDRAM,QDR SDRAM。Altera可提供速度最快、效率最高、最低延迟的存储器控制器,使得FPGA可以接入现有的更高速的存储器件。专用的DQS和DQ引脚在芯片级的布线上进行优化以减少抖动和增大余量上,且固定在芯片四周的特定位置。高速外部存储器在众多应用中是重要的系统组成部分,如视频图像处理,数据通信与存储,以及DMA等。

2 板级系统和部分走线阻抗

2.1 板级系统

充分利用FPGA左右两侧的存储器接口,分别挂两片Micron的DDR2 SDRAM颗粒,作为DMA缓存。FPGA的下侧是高速收发器接口,共有4组GXB[3:0],分别经差分链路接入PCIe ×4金手指。其中GXB[3:2]是复用接口,通过改变T节点的耦合电容,可接入两路高速ADC。FPGA上侧接口包括USB PHY、千兆以太网PHY、串口、SD卡以及VGA接口等。FPGA有3个时钟输入,分别是:(1)来自PCIe接口的参考时钟PCIE_REFCLK。(2)来自专用时钟模块的GXB_REFCLK。(3)来自25 MHz有源晶振的SYM_CLK。

2.2 关键走线的阻抗控制

图2是PCB叠层结构示意图,其中L1,L3,L6,L8是信号层;L2,L7是地层;L4,L5是电层。信号层分别参考临近的地层或电源层。其中PCIe链路仅在L1和L8布线,基于以上叠层结构,确定PCIe接口的100 Ω差分阻抗走线的线宽和线间距分别为4 mil(1mil=0.0254 mm)和8.1 mil,差分线长容差在5 mil之内。

DDR2 SDRAM的布线按照SSTL_18标准,DQ/DQS信号在L3和L6层,确定50 Ω单端走线线宽5.3 mil,等长控制在10 mil之内。时钟走线是100 Ω差分阻抗,布线时放在顶层和L6层。在时钟走线过孔附近打上接地过孔,作为信号回流路径,以尽量减少阻抗不连续对信号完整性造成的影响。

3 PCIe应用层设计方案及仿真

3.1 PCIe IP核结构

Altera的PCIe硬核IP包含处理层,链路层和物理层所要求的全部功能,以及大多数的可选功能。只需在IPCompiler中经过简单的参数设置即可生成全功能的IP模块,如果是作为端点设备,可以使用Avalon-ST接口或Avalon—MM接口适配器,将应用层映射为处理层的TLP。Avalon—ST适配层将应用层的Avalon—ST接口映射到PCIe处理层的TLPs。

3.2 应用层设计

图4左侧是应用层的方案图,主要包含配置模块、硬核IP模块、时钟管理模块、DMA读写控制与仲裁模块、任务驱动模块等5部分。

设计采用64位Agalon—ST接口,这样供应用的层使用的时钟pld_clk与内核时钟同频。TLPs分为Header、PayLoad和ECRC 3部分。其中TLP的数据包头指出了数据包的类型,路由方式,有效载荷长度,目标地址,设备ID,功能ID,总线ID等内容,而数据包后还可生成与校验有关的ECRC信息,这些特征均有助于增强传输过程中数据的完整性与可靠性。图5是一个以4双字长度为例的数据接收的时序图,其中rx_st_data和tx_st_data表示64位宽度的读写数据端口,rx_st_sop和tx_st_sop表示数据包起始标志,rx_st_eop和tx_st_eop表示数据包结束标志。应用层可根据这些数据和标志位实现TLP接收与发送同步。

设计中还包括链式DMA,用于FPGA外部存储与系统存储器的数据传输。通过DMA访问外部存储器的最大优势在于,CPU配置完DMA状态机后可继续执行其他指令操作,然后DMA状态机会通过请求PCIe总线中断的方式来完成数据传输。在用DMA时需要设置两个基址BAR2和BAR3最小为256 Byte。DMA主要分为读操作、写操作以及仲裁3部分。初始条件下,DMA处于复位状态,通过读取DMA信息标示符来判断当前是否处于空闲状态,并从FPGA内部读取DMA控制信息,并相应的进入读操作或写操作。以CPU写FPGA外部存储器为例,CPU通过PCIe总线写BAR0地址数据来配置并开启DMA Engine。FPGA将发出对CPU的DMA读请求,然后等待CPU发送DMA数据。此时DMA Engine处于WAIT_FOR_DATA状态,等待来自PCIe接口的DMA数据包。同样,CPU读FPGA外部存储器时,FPGA将发出对CPU的DMA写请求,并当DMA完成读操作后,等待PCIe接口发送DMA数据包,并由中断标志位判断是否开启PCIe中断。状态转移如图6所示。

在端点存储器方面,2片16位的DDR2 SDRAM并接构成一个32位的FPGA片外存储器,并根据DDR2SDRAM芯片手册在Altmemphy向导中配置好相关时序与延迟参数,即可生成DDR2 SDRAM控制器。在做电路图设计时,由于引脚驱动能力的问题,关键是FPGA对DDR2 SDRAM的引脚在连续的区域内不能超过一定数量,最好能约束引脚区域,全编译一遍后由软

件自由分配,再由人工作适当调整,直到没有严重警告。

3.3 数据收发仿真测试

当用PCIe IP Compiler创建一个PCIe的硬核IP时,会生成一个用户可修改的测试文件顶层以及根联合体模型。这样就对测试应用层接口功能提供了一个简单的途径,只需在测试文件中做一个模块例化,即可构建一个简单的PCIe系统测试平台。

如上共15个寄存器,其中tl_cfg_add和tl_cfg_ctl分别表示要更新的寄存器地址和对应的寄存器数据,tl_cfg_sts是配置的状态。利用tl_cfg_ctl_wr和tl_cfg_sts_wr的跳变边沿,由此可知对应寄存器的内容已发生更新,以此来确定数据的安全采样时机。

如上信号tx_st_sop0的跳变启动了一个TLP数据包的开始。应用层参考tx_stream_read0信号开始往数据端口写入数据,其中前两个数据是TLP的包头。分解成双字格式为:0x40000020,0x010800ff,0x000001880和0x00000000。即这是一个32位地址的写存储器TLP,数据长度为32双字。当tx_stream_read0变为低电平2个周期后应停止写入数据,直到tx_stream_read0再次变为高电平2个周期后可继续写入数据。

如上信号rx_st_sop0出现高电平表明一个TLP数据包的开始。rx_st_data0的前两个数据是TLP的数据包头,分解为双字后是:0x4a000020,0x00000080,0x01080270和0x000 00000。由这些包头信息可知这是—个带数据的完成TLP,完成者ID是0x0000,请求者ID是0x0108。且其后含有32个双字的数据,第一个双字是0xaaa00001,第二个双字是0xaaa 0002,直到0xaaa0020。rx_st_eop0在最后一个数据0xaaa0020aaa001f出现时发生跳变,表明TLP数据包结束。

4 结束语

仿真结果表明,使用Altera Cyclone IV GX系列FPGA搭建的PCIe接口能够方便地实现高速数据传输应用。随着器件的发展和IP核的开发,多通道的PCIe总线技术将会迅速发展,并对大数据、高速数据提供安全可靠的传输管道。

转载自:http://blog.csdn.net/Calvin790704/article/details/54091935

基于FPGA的PCIe接口实现(具体讲解了数据流向)的更多相关文章

  1. 基于FPGA的VGA接口使用

    前言 什么是VGA? VGA(视频图形阵列)是IBM公司制定的一种视频数据传输标准. 接口信号主要有5个:R(Red),G(Green),B(Blue),HS(Horizontal synchroni ...

  2. 基于 FPGA 的 PCIE 总线 Linux 驱动设计

    硬件平台 Kintex ®-7 family of FPGAs Intel X86 软件平台 Linux 4.15.0-36-generic #39~16.04.1-Ubuntu Xilinx xap ...

  3. FPGA与PCI-E

    从并行到串行: PCI Express(又称PCIe)是一种高性能.高带宽串行通讯互连标准,取代了基于总线的通信架构,如:PCI.PCI Extended (PCI-X) 以及加速图形端口(AGP). ...

  4. Xilinx FPGA 的PCIE 设计

    写在前面 近两年来和几个单位接触下来,发现PCIe还是一个比较常用的,有些难度的案例,主要是涉及面比较广,需要了解逻辑设计.高速总线.Linux和Windows的驱动设计等相关知识. 这篇文章主要针对 ...

  5. 基于FPGA的XPT2046触摸控制器设计

    基于FPGA的XPT2046触摸控制器设计 小梅哥编写,未经许可,文章内容和所涉及代码不得用于其他商业销售的板卡 本实例所涉及代码均可通过向 xiaomeige_fpga@foxmail.com  发 ...

  6. 【转】简谈基于FPGA的千兆以太网

    原文地址: http://blog.chinaaet.com/luhui/p/5100052903 大家好,又到了学习时间了,学习使人快乐.今天我们来简单的聊一聊以太网,以太网在FPGA学习中属于比较 ...

  7. FPGA经典:Verilog传奇与基于FPGA的数字图像处理原理及应用

    一 简述 最近恶补基础知识,借了<<Verilog传奇>>,<基于FPGA的嵌入式图像处理系统设计>和<<基千FPGA的数字图像处理原理及应用>& ...

  8. 基于FPGA的红外遥控解码与PC串口通信

    基于FPGA的红外遥控解码与PC串口通信 zouxy09@qq.com http://blog.csdn.net/zouxy09 这是我的<电子设计EDA>的课程设计作业(呵呵,这个月都拿 ...

  9. 基于FPGA的OLED真彩色动态图像显示的实现

    源:基于FPGA的OLED真彩色动态图像显示的实现 作为第3代显示器,有机电致发光器件(Organic Light Emitting Diode,OLED)由于其主动发光.响应快.高亮度.全视角.直流 ...

随机推荐

  1. pytest文档10-命令行传参

    前言 命令行参数是根据命令行选项将不同的值传递给测试函数,比如平常在cmd执行"pytest --html=report.html",这里面的"--html=report ...

  2. win7 64位搭建scrapy(转)

    win7 64位系统依赖的scrapy文件链接:http://pan.baidu.com/s/1mgJS7BM 一个很好的python 64位包下载页面:http://www.lfd.uci.edu/ ...

  3. 将List集合中的map对象转为List<对象>形式--封装类

    import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util.Li ...

  4. 如何修改容器内的/etc/resolv.conf

    源由不表,暂且略过. 直接说workaround. 因为openshift的模式,/etc/resolv.conf是在pod生成的时候插入的,写入的是宿主机的ip作为dns的寻址,如果需要修改的化,需 ...

  5. 学习笔记 ST算法

    [引子]RMQ (Range Minimum/Maximum Query)问题: 对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n),返回数列A中下标在i,j里的最小(大)值 ...

  6. HBase系统架构及数据结构(转)

    原文链接:Hbase系统架构及数据结构 HBase中的表一般有这样的特点: 1 大:一个表可以有上亿行,上百万列 2 面向列:面向列(族)的存储和权限控制,列(族)独立检索. 3 稀疏:对于为空(nu ...

  7. BeagleBone折腾记(一):连接你的狗板

    BeagleBone折腾记一连接你的狗板 准备 了解BeagleBone BeagleBone社区 所需软硬件 USB连接 TTL连接 结语 准备 了解BeagleBone BeagleBone可能一 ...

  8. ShellCode的编写入门

    上次学习了下堆喷漏洞的原理,虽说之前有学习过缓冲区溢出的原理,但还没了解过堆喷这个概念,于是趁此机会学习了,顺便复习了缓冲区溢出这块知识,之前由于各种原因对Shellcode的编写只是了解个大概,并没 ...

  9. Plugin with id 'com.github.dcendents.android-maven' not found

    导入开源项目的时候老是报这个错 Error:(2, 0) Plugin with id 'com.github.dcendents.android-maven' not found 挺郁闷的,不知道是 ...

  10. GDALOpen 代码分析

    先来一句话,看了这么多GDAL的源代码,并不喜欢其C风格的烙印太重,还是更喜欢boost风格的简洁的现代C++风格.不过为了更好地应用GDAL,更深的定制它,还是需要将源代码看到底.因为GDAL毕竟是 ...