引言

图像视频处理等多媒体领域是FPGA应用的最主要的方面之一,边缘检测是图像处理和计算机视觉中的基本问题,所以也是最常用的,随着数据量的不断增加以及对实时性的要求,一般软件已经不能满足实际需要,这时,就需要专门的硬件来实现加速。本小节就实现一个简单的sobel边缘检测加速器,为了便于对比,我们还编写对应的软件算法。

1,基本思想与算法

Sobel检测法通过一个叫做卷积的过程来估计每个像素点每个方向上的导数值。把中心像素点和离它最近的八个像素点每个乘以一个系数后相加。该系数通常用一个 的卷积表(convolution mask)来表示。分别用于计算x和y方向导数值的Sobel卷积表 Gx和 Gy 如下图所示。

Gx:

Gy:

我们把每个像素值分别乘以卷积表中对应的系数,再把相乘得到的九个数相加就得到了x方向和y方向的偏导数值 Dx和 Dy。然后,利用这两个偏导数值计算中心像素
点的导数。计算公式如下:

由于我们只想找到导数幅值的最大值和最小值,对上式作如下简化:

这样近似能够满足计算要求,因为开平方和平方函数都是单调的,实际计算幅度的最大值、最小值与近似以后计算的最大值、最小值发生在图像的同一个地方。并且,与计算平方和开平方相比,计算绝对值所用的硬件资源少得多。

我们需要重复地计算图像中每个像素位置的导数幅值。但是,注意到环绕图像边缘的像素点并没有一个完整的相邻像素组来计算偏导数和导数,所以我们需要对这些像素进行单独处理。最简单的方法就是把图像中边缘像素点的导数值值 |D|设置为0。这可以通过软件来完成。

我们用伪代码来表示该算法。令O[row][col] 表示原始图像的像素点,D[row][col]表示导数图像的像素点,row的范围从0到hight,col的范围从0到width。同时令Gx[i][j] 和 Gy[i][j] 表示卷积表,其中i 和 j 的范围从 -1 到 1.

  1. for( row=1; row<=hight; row=row+1 )
  2. {
  3. for(col=1; col<=width; col=col+1)
  4. {
  5. sumx=0; sumy=0;
  6. for( i = -1; i <= +1; i = i+1)
  7. {
  8. for (j = -1; j<= +1; j = j+1)
  9. {
  10. sumx = sumx + O[row+i][col+j] * Gx[i][j];
  11. sumy = sumy + O[row+i][col+j] * Gx[i][j];
  12. }
  13. }
  14. D[row][col] = abs(sumx) + abs(sumy)
  15. }
  16. }

关于算法的具体细节,我已将PPT上传:

http://download.csdn.net/detail/rill_zhen/6371787

2,硬件实现

一旦明白了sobel的实现算法,我们就可以根据算法来划分模块了,本例中将sobel分成了:addr_gen,compute,machine,sobel_salve四个不同的子模块和sobel一个顶层模块。

需要说明的是,sobel加速器最终要挂载SoC的总线上,所以需要一个统一的接口总线,本例中采用wishbone总线,关于wishbone总线的内容,请参考:http://blog.csdn.net/rill_zhen/article/details/8659788

此外,由于sobel加速器只加速核心的数据处理部分,但是,对于一张完整的图片(例如bmp)还有其文件头,所以bmp的文件头的数据需要事先去掉,当sobel处理完后也需要再加上文件头之后才能用图片阅读器打开。所以我们需要编写相应的软件程序。

下面只给出verilog代码清单:

sobel.v

  1. `timescale 10ns/10ns
  2. module sobel (
  3. //master slave share i/f
  4. clk_i,
  5. rst_i,
  6. dat_i,
  7. dat_o,
  8. //master i/f
  9. cyc_o,
  10. stb_o,
  11. we_o,
  12. adr_o,
  13. ack_i,
  14. //slave i/f
  15. cyc_i,
  16. stb_i,
  17. we_i,
  18. adr_i,
  19. ack_o,
  20. //debug i/f
  21. prev_row_load,
  22. curr_row_load,
  23. next_row_load,
  24. current_state,
  25. int_req//interrupt
  26. );
  27.  
  28. input clk_i;
  29. input rst_i;
  30. input[31:0] dat_i;
  31. output[31:0] dat_o;
  32. output cyc_o;
  33. output stb_o;
  34. output we_o;
  35. output[21:0] adr_o;
  36. input ack_i;
  37. input cyc_i;
  38. input stb_i;
  39. input we_i;
  40. input[21:0] adr_i;
  41. output ack_o;
  42. output prev_row_load;
  43. output curr_row_load;
  44. output next_row_load;
  45. output[4:0] current_state;
  46. output int_req;
  47.  
  48. wire start;
  49. wire ack_i;
  50. wire cyc_o;
  51. wire stb_o;
  52. wire we_o;
  53. wire O_base_ce;
  54. wire D_base_ce;
  55. wire done_set;
  56. wire shift_en;
  57. wire prev_row_load;
  58. wire curr_row_load;
  59. wire next_row_load;
  60. wire O_offset_cnt_en;
  61. wire D_offset_cnt_en;
  62. wire offset_reset;
  63. wire[31:0] result_row;
  64. wire[31:0] dat_i;
  65. wire[21:0] adr_o;
  66. wire ack_o;
  67. wire[31:0] dat_o ;
  68.  
  69. wire[4:0] current_state;
  70.  
  71. //module sentence
  72.  
  73. compute compute(
  74. .rst_i(rst_i),
  75. .clk_i(clk_i),
  76. .dat_i(dat_i),
  77. .shift_en(shift_en),
  78. .prev_row_load(prev_row_load),
  79. .curr_row_load(curr_row_load),
  80. .next_row_load(next_row_load),
  81. .result_row(result_row)
  82. );
  83.  
  84. addr_gen addr_gen(
  85. .clk_i(clk_i),
  86. .dat_i(dat_i),
  87. .O_base_ce(O_base_ce),
  88. .D_base_ce(D_base_ce),
  89. .O_offset_cnt_en(O_offset_cnt_en),
  90. .D_offset_cnt_en(D_offset_cnt_en),
  91. .offset_reset(offset_reset),
  92. .prev_row_load(prev_row_load),
  93. .curr_row_load(curr_row_load),
  94. .next_row_load(next_row_load),
  95. .adr_o(adr_o)
  96. );
  97. machine machine(
  98. .clk_i(clk_i),
  99. .rst_i(rst_i),
  100. .ack_i(ack_i),
  101. .start(start),
  102. .offset_reset(offset_reset),
  103. .O_offset_cnt_en(O_offset_cnt_en),
  104. .D_offset_cnt_en(D_offset_cnt_en),
  105. .prev_row_load(prev_row_load),
  106. .curr_row_load(curr_row_load),
  107. .next_row_load(next_row_load),
  108. .shift_en(shift_en),
  109. .cyc_o(cyc_o),
  110. .we_o(we_o),
  111. .stb_o(stb_o),
  112. .current_state(current_state),
  113. .done_set(done_set)
  114. );
  115. sobel_slave sobel_slave(
  116. .clk_i(clk_i),
  117. .rst_i(rst_i),
  118. .dat_i(dat_i),
  119. .dat_o(dat_o),
  120. .cyc_i(cyc_i),
  121. .stb_i(stb_i),
  122. .we_i(we_i),
  123. .adr_i(adr_i),
  124. .ack_o(ack_o),
  125. .start(start),
  126. .O_base_ce(O_base_ce),
  127. .D_base_ce(D_base_ce),
  128. .int_req(int_req),
  129. .done_set(done_set),
  130. .result_row(result_row)
  131. );
  132. endmodule

addr_gen.v

  1. `timescale 10ns/10ns
  2. module addr_gen(
  3. //input
  4. clk_i,
  5. dat_i,
  6. O_base_ce,
  7. D_base_ce,
  8. O_offset_cnt_en,
  9. D_offset_cnt_en,
  10. offset_reset,
  11. prev_row_load,
  12. curr_row_load,
  13. next_row_load,
  14. //output
  15. adr_o
  16. );
  17.  
  18. input clk_i;
  19. input[31:0] dat_i;
  20. input O_base_ce;
  21. input D_base_ce;
  22. input O_offset_cnt_en;
  23. input D_offset_cnt_en;
  24. input offset_reset ;
  25. input prev_row_load;
  26. input curr_row_load;
  27. input next_row_load;
  28.  
  29. output[21:0] adr_o ;
  30.  
  31. parameter WIDTH = 1024;
  32.  
  33. reg[19:0] O_base ;
  34. reg[19:0] D_base ;
  35. reg[18:0] O_offset;
  36. reg[18:0] D_offset;
  37. wire[19:0] O_prev_addr;
  38. wire[19:0] O_curr_addr;
  39. wire[19:0] O_next_addr;
  40. wire[19:0] D_addr;
  41.  
  42. /*******************************************************/
  43.  
  44. always @(posedge clk_i) //original data offset
  45. if(O_base_ce)
  46. O_base <= dat_i[21:2];
  47.  
  48. always @(posedge clk_i) //original data offset cnt
  49. if(offset_reset)
  50. O_offset <= 0;
  51. else
  52. if(O_offset_cnt_en)
  53. O_offset <= O_offset+1;
  54.  
  55. /*******************************************************/
  56.  
  57. assign O_prev_addr = O_base + O_offset;
  58. assign O_curr_addr = O_prev_addr + WIDTH/4;
  59. assign O_next_addr = O_prev_addr + 2*WIDTH/4;
  60.  
  61. /*******************************************************/
  62.  
  63. always @(posedge clk_i) //destination data offset
  64. if(D_base_ce)
  65. D_base <=dat_i[21:2];
  66.  
  67. always @(posedge clk_i) //destination data offset cnt
  68. if(offset_reset)
  69. D_offset <= 0;
  70. else
  71. if(D_offset_cnt_en)
  72. D_offset <= D_offset+1;
  73.  
  74. /*******************************************************/
  75.  
  76. assign D_addr = D_base +D_offset;
  77.  
  78. /*******************************************************/
  79.  
  80. assign adr_o[21:2] = prev_row_load ? O_prev_addr :
  81. curr_row_load ? O_curr_addr :
  82. next_row_load ? O_next_addr :
  83. D_addr;
  84.  
  85. assign adr_o[1:0] = 2'b00;
  86.  
  87. endmodule

compute.v

  1. `timescale 1000ns/10ns
  2.  
  3. module compute(
  4. //input
  5. clk_i,
  6. dat_i,
  7. rst_i,
  8. shift_en,
  9. prev_row_load,
  10. curr_row_load,
  11. next_row_load,
  12. //output
  13. result_row
  14. );
  15.  
  16. input clk_i;
  17. input rst_i;
  18. input[31:0] dat_i;
  19. input shift_en;
  20. input prev_row_load;
  21. input curr_row_load;
  22. input next_row_load;
  23. wire [7:0] D1 ;
  24. output[31:0] result_row ;
  25.  
  26. reg [31:0] prev_row=0, curr_row=0, next_row=0;
  27. reg [7:0] O[-1:1][-1:1];
  28.  
  29. reg signed [10:0] Dx=0, Dy=0;
  30.  
  31. reg [7:0] abs_D = 0 ;
  32. reg [31:0] result_row =0 ;
  33.  
  34. always@(posedge clk_i)
  35. if(prev_row_load)
  36. prev_row <= dat_i;
  37. else
  38. if(shift_en)
  39. prev_row[31:8] <= prev_row[23:0];
  40.  
  41. always@(posedge clk_i)
  42. if(curr_row_load)
  43. curr_row<= dat_i;
  44. else
  45. if(shift_en )
  46. curr_row [31:8]<=curr_row[23:0];
  47.  
  48. always@(posedge clk_i)
  49. if(next_row_load)
  50. next_row<=dat_i;
  51. else
  52. if(shift_en )
  53. next_row [31:8]<=next_row[23:0];
  54.  
  55. function [10:0] abs ( input signed [10:0] x);
  56. abs = x >=0 ? x : -x ;
  57. endfunction
  58.  
  59. //comput pipeline
  60.  
  61. always @(posedge clk_i)
  62. if(rst_i)
  63. begin
  64. O[-1][-1]<=0;
  65. O[-1][ 0]<=0;
  66. O[-1][+1]<=0;
  67. O[ 0][-1]<=0;
  68. O[ 0][ 0]<=0;
  69. O[ 0][+1]<=0;
  70. O[+1][-1]<=0;
  71. O[+1][ 0]<=0;
  72. O[+1][+1]<=0;
  73. end
  74. else
  75. if ( shift_en )
  76. begin
  77. abs_D <= (abs(Dx) + abs(Dy))>>3 ;
  78.  
  79. Dx <= -$signed({3'b000, O[-1][-1]}) //-1* O[-1][-1]
  80. +$signed({3'b000, O[-1][+1]}) //+1* O[-1][+1]
  81. -($signed({3'b000, O[ 0][-1]}) //-2* O[ 0][-1]
  82. <<1)
  83.  
  84. +($signed({3'b000, O[ 0][+1]}) //+2* O[ 0][+1]
  85. <<1)
  86.  
  87. -$signed({3'b000, O[+1][-1]}) //-1* O[+1][-1]
  88. +$signed({3'b000, O[+1][+1]}); //+1* O[+1][+1]
  89.  
  90. Dy <= $signed({3'b000, O[-1][-1]}) //+1* O[-1][-1]
  91. +($signed({3'b000, O[-1][ 0]}) //+2* O[-1][0]
  92. <<1)
  93.  
  94. +$signed({3'b000, O[-1][+1]}) //+1* O[-1][+1]
  95. -$signed({3'b000, O[+1][-1]}) //-1* O[+1][-1]
  96. -($signed({3'b000, O[+1][ 0]}) //-2* O[+1][ 0]
  97. <<1)
  98.  
  99. -$signed({3'b000, O[+1][+1]}); //-1* O[+1][+1]
  100.  
  101. O[-1][-1] <= O[-1][0];
  102. O[-1][ 0] <= O[-1][+1];
  103. O[-1][+1] <= prev_row[31:24];
  104. O[ 0][-1] <= O[0][0];
  105. O[ 0][ 0] <= O[0][+1];
  106. O[ 0][+1] <= curr_row[31:24];
  107. O[+1][-1] <= O[+1][0];
  108. O[+1][ 0] <= O[+1][+1];
  109. O[+1][+1] <= next_row[31:24];
  110. end
  111.  
  112. /***********************��ֵ����***********************/
  113.  
  114. //assign D1 = abs_D < 60 ? 0 : abs_D ;(����ijЩͼ�����б�Ҫʱ�����ã���ֵ60�ǿ��Ը��ĵģ��������ͼ��������)
  115.  
  116. /*****************************************************/
  117.  
  118. always @(posedge clk_i)
  119. if(shift_en)
  120. result_row <= { result_row[23:0],/*D1*/abs_D};
  121.  
  122. endmodule

machine.v

  1. `timescale 10ns/10ns
  2. /*****************FSM***********************/
  3. module machine(
  4. //input
  5. clk_i,
  6. rst_i,
  7. ack_i,
  8. start,
  9. //output
  10. offset_reset,
  11. O_offset_cnt_en,
  12. D_offset_cnt_en,
  13. prev_row_load,
  14. curr_row_load,
  15. next_row_load,
  16. shift_en,
  17. cyc_o,
  18. we_o,
  19. stb_o,
  20. current_state,
  21. done_set
  22. );
  23. input clk_i;
  24. input rst_i;
  25. input ack_i;
  26. input start;
  27. output offset_reset;
  28. output O_offset_cnt_en;
  29. output D_offset_cnt_en;
  30. output prev_row_load;
  31. output curr_row_load;
  32. output next_row_load;
  33. output shift_en;
  34. output cyc_o;
  35. output we_o;
  36. output stb_o;
  37. output[4:0] current_state;
  38. output done_set;
  39.  
  40. parameter WIDTH = 1024;
  41. parameter HEIGHT = 768;
  42.  
  43. parameter [4:0] idle =5'b00000,
  44. read_prev_0 =5'b00001,
  45. read_curr_0 =5'b00010,
  46. read_next_0 =5'b00011,
  47. comp1_0 =5'b00100,
  48. comp2_0 =5'b00101,
  49. comp3_0 =5'b00110,
  50. comp4_0 =5'b00111,
  51. read_prev =5'b01000,
  52. read_curr =5'b01001,
  53. read_next =5'b01010,
  54. comp1 =5'b01011,
  55. comp2 =5'b01100,
  56. comp3 =5'b01101,
  57. comp4 =5'b01110,
  58. write_result =5'b01111,
  59. write_158 =5'b10000,
  60. comp1_159 =5'b10001,
  61. comp2_159 =5'b10010,
  62. comp3_159 =5'b10011,
  63. comp4_159 =5'b10100,
  64. write_159 =5'b10101;
  65.  
  66. reg [4:0] current_state,next_state;
  67. reg [10:0] row; //0 ~ 477;
  68. reg [8:0] col; //0 ~ 159;
  69.  
  70. wire start;
  71. wire stb_o;
  72. reg offset_reset,row_reset,col_reset;
  73.  
  74. reg prev_row_load, curr_row_load, next_row_load;
  75. reg shift_en;
  76. reg cyc_o,we_o;
  77. reg row_cnt_en, col_cnt_en;
  78. reg O_offset_cnt_en, D_offset_cnt_en;
  79. reg int_en, done_set, done;
  80.  
  81. always @(posedge clk_i) //Row counter
  82. if (row_reset)
  83. row <= 0;
  84. else
  85. if (row_cnt_en)
  86. row <= row + 1;
  87.  
  88. always @(posedge clk_i) //Column counter
  89. if (col_reset)
  90. col <= 0;
  91. else
  92. if (col_cnt_en)
  93. col<= col+1;
  94.  
  95. //fsm
  96. always @(posedge clk_i) //State register
  97. if (rst_i)
  98. current_state<= idle;
  99. else
  100. current_state<= next_state;
  101.  
  102. always @*
  103. begin
  104. offset_reset =1'b0;
  105. row_reset =1'b0;
  106. col_reset =1'b0;
  107. row_cnt_en =1'b0;
  108. col_cnt_en =1'b0;
  109. O_offset_cnt_en =1'b0;
  110. D_offset_cnt_en =1'b0;
  111. prev_row_load =1'b0;
  112. curr_row_load =1'b0;
  113. next_row_load =1'b0;
  114. shift_en =1'b0;
  115. cyc_o =1'b0;
  116. we_o =1'b0;
  117. done_set =1'b0;
  118.  
  119. case (current_state)
  120. idle: begin
  121. cyc_o =1'b0;
  122. we_o =1'b0;
  123. done_set=1'b0;
  124. D_offset_cnt_en =1'b0;
  125. offset_reset =1'b1;
  126. row_reset =1'b1;
  127. col_reset = 1'b1;
  128. if (start)
  129. next_state = read_prev_0;
  130. else
  131. next_state = idle;
  132. end
  133.  
  134. /*************************************************************/
  135. read_prev_0: begin
  136. offset_reset =1'b0;
  137. row_reset =1'b0;
  138. we_o =1'b0;
  139. row_cnt_en =1'b0;
  140. D_offset_cnt_en =1'b0;
  141. col_reset = 1'b1;
  142. prev_row_load = 1'b1;
  143. cyc_o = 1'b1;
  144. if (ack_i)
  145. next_state = read_curr_0;
  146. else
  147. next_state = read_prev_0;
  148. end
  149. /***********************************************************************/
  150. read_curr_0: begin
  151. col_reset = 1'b0;
  152. prev_row_load = 1'b0;
  153. curr_row_load =1'b1;
  154. cyc_o =1'b1;
  155. if (ack_i) //read mem
  156. next_state = read_next_0;
  157. else
  158. next_state = read_curr_0;
  159. end
  160. /*********************************************************************/
  161. read_next_0: begin
  162. curr_row_load =1'b0;
  163. next_row_load =1'b1;
  164. cyc_o =1'b1;
  165. if (ack_i) //read mem��cnt+=1
  166. begin
  167. O_offset_cnt_en =1'b1;
  168. next_state =comp1_0;
  169. end
  170. else
  171. next_state = read_next_0;
  172. end
  173. /********************************************************************/
  174. comp1_0: begin
  175. next_row_load =1'b0;
  176. cyc_o =1'b0;
  177. O_offset_cnt_en =1'b0;
  178. shift_en =1'b1;
  179. next_state =comp2_0;
  180. end
  181. comp2_0: begin
  182. shift_en =1'b1;
  183. next_state =comp3_0;
  184. end
  185. comp3_0: begin
  186. shift_en =1'b1;
  187. next_state =comp4_0;
  188. end
  189. comp4_0: begin
  190. shift_en =1'b1;
  191. next_state =read_prev;
  192. end
  193. /**************************************************************/
  194. read_prev: begin
  195. shift_en =1'b0;
  196. we_o =1'b0;
  197. col_cnt_en =1'b0;
  198. D_offset_cnt_en =1'b0;
  199. prev_row_load = 1'b1;
  200. cyc_o = 1'b1;
  201. if (ack_i)
  202. next_state = read_curr;
  203. else
  204. next_state = read_prev;
  205. end
  206. read_curr: begin
  207. prev_row_load = 1'b0;
  208. curr_row_load = 1'b1;
  209. cyc_o = 1'b1;
  210. if (ack_i)
  211. next_state = read_next;
  212. else
  213. next_state = read_curr;
  214. end
  215. read_next: begin
  216. curr_row_load = 1'b0;
  217. next_row_load =1'b1;
  218. cyc_o = 1'b1;
  219. if (ack_i)
  220. begin
  221. O_offset_cnt_en =1'b1;
  222. next_state = comp1;
  223. end
  224. else
  225. next_state = read_next;
  226. end
  227. /************************************************************/
  228. comp1: begin
  229. next_row_load =1'b0;
  230. O_offset_cnt_en =1'b0;
  231. cyc_o =1'b0;
  232. shift_en =1'b1;
  233. next_state =comp2;
  234. end
  235. comp2: begin
  236. shift_en =1'b1;
  237. next_state =comp3;
  238. end
  239. comp3: begin
  240. shift_en =1'b1;
  241. next_state =comp4;
  242. end
  243. comp4: begin
  244. shift_en =1'b1;
  245. if (col ==(WIDTH/4-2))
  246. next_state = write_158;
  247. else
  248. next_state = write_result;
  249. end
  250. /********************************************************/
  251. write_result: begin
  252. shift_en =1'b0;
  253. cyc_o =1'b1;
  254. we_o =1'b1;
  255. if(ack_i)
  256. begin
  257. col_cnt_en =1'b1;
  258. D_offset_cnt_en =1'b1;
  259. next_state =read_prev;
  260. end
  261. else
  262. next_state = write_result;
  263. end
  264. write_158: begin
  265. shift_en =1'b0;
  266. cyc_o =1'b1;
  267. we_o =1'b1;
  268. if(ack_i)
  269. begin
  270. col_cnt_en =1'b1;
  271. D_offset_cnt_en =1'b1;
  272. next_state =comp1_159;
  273. end
  274. else
  275. next_state =write_158;
  276. end
  277. /***************************************************************/
  278. comp1_159: begin //pipeline output stage
  279. col_cnt_en =1'b0;
  280. D_offset_cnt_en =1'b0;
  281. cyc_o =1'b0;
  282. we_o =1'b0;
  283. shift_en =1'b1;
  284. next_state =comp2_159;
  285. end
  286. comp2_159: begin
  287. shift_en =1'b1;
  288. next_state =comp3_159;
  289. end
  290. comp3_159: begin
  291. shift_en =1'b1;
  292. next_state =comp4_159;
  293. end
  294. comp4_159: begin
  295. shift_en =1'b1;
  296. next_state =write_159;
  297. end
  298. write_159: begin
  299. shift_en =1'b0;
  300. cyc_o =1'b1;
  301. we_o =1'b1;
  302. if(ack_i)
  303. begin
  304. D_offset_cnt_en =1'b1;
  305. if (row == HEIGHT-3) //sobel done
  306. begin
  307. done_set =1'b1;
  308. next_state = idle;
  309. end
  310. else
  311. begin
  312. row_cnt_en =1'b1;
  313. next_state =read_prev_0;
  314. end
  315. end
  316. else
  317. next_state = write_159;
  318. end
  319. endcase
  320. end
  321. /*******************************************************************/
  322.  
  323. assign stb_o = cyc_o;
  324.  
  325. endmodule

sobel_slave.v

  1. `timescale 10ns/10ns
  2. module sobel_slave(
  3. //master slave share i/f
  4. clk_i,
  5. rst_i,
  6. dat_i,
  7. dat_o,
  8. //slave i/f
  9. cyc_i,
  10. stb_i,
  11. we_i,
  12. adr_i,
  13. ack_o,
  14. //output
  15. start,
  16. O_base_ce,
  17. D_base_ce,
  18.  
  19. int_req,
  20.  
  21. //input
  22. done_set,
  23. result_row
  24. );
  25.  
  26. input clk_i;
  27. input rst_i;
  28. input[31:0] dat_i;
  29. output[31:0] dat_o;
  30.  
  31. input cyc_i;
  32. input stb_i;
  33. input we_i;
  34. input[21:0] adr_i;
  35. output ack_o;
  36. output start;
  37. output O_base_ce;
  38. output D_base_ce;
  39. output int_req;
  40. input done_set;
  41. input[31:0] result_row;
  42.  
  43. reg int_en;
  44. reg done;
  45. reg ack_o;
  46. reg[31:0] dat_o ;
  47.  
  48. /*****************************************************************/
  49.  
  50. assign start = cyc_i && stb_i && we_i && adr_i[3:2] ==2'b01;//adr_i[3:2]
  51.  
  52. assign O_base_ce = cyc_i && stb_i && we_i && adr_i[3:2] ==2'b10;
  53.  
  54. assign D_base_ce = cyc_i && stb_i && we_i && adr_i[3:2] ==2'b11;
  55.  
  56. /*************************************************************/
  57.  
  58. // Wishbone slave i/f
  59.  
  60. always @(posedge clk_i)//interrupt reg
  61. if (rst_i)
  62. int_en <= 1'b0;
  63. else
  64. if (cyc_i && stb_i && we_i && adr_i[3:2] ==2'b00)
  65. int_en <= dat_i[0];
  66.  
  67. /*****************************************************************************/
  68.  
  69. always @(posedge clk_i) //status reg
  70. if (rst_i)
  71. done <=1'b0;
  72. else
  73. if (done_set)
  74. // This occurs when last write is acknowledged,
  75. // and so cannot coincide with a read of the
  76. // status register
  77. done <=1'b1;
  78. else
  79. if (cyc_i && stb_i && !we_i && adr_i[3:2] ==2'b00 && ack_o)
  80. done <=1'b0;
  81.  
  82. /********************************************************************/
  83.  
  84. assign int_req = int_en && done;
  85.  
  86. /*********************************************************************/
  87.  
  88. always @(posedge clk_i)
  89.  
  90. ack_o <= cyc_i && stb_i && !ack_o;
  91.  
  92. /*********************************************************************/
  93.  
  94. always @*
  95. if (cyc_i && stb_i && !we_i)
  96. if (adr_i[3:2] == 2'b00)
  97. dat_o = {31'b0,done};// status register read
  98. else
  99. dat_o = 32'b0; // other registers read as 0
  100. else
  101. dat_o = result_row; // for master write
  102.  
  103. endmodule

3,硬件的功能仿真

在进行仿真之前,我们需要编写相应的仿真模型和相应的图片预处理,后处理程序。

为了便于使用,我已将所有程序上传:

http://download.csdn.net/detail/rill_zhen/6371771

下面是前仿真的结果:从中我们可以看出硬件的执行时间是23562270个cycle,约23.56ms。

在做功能仿真时,我们就可以得到一个处理结果了,原图和sobel处理结果对比如下:

功能仿真的具体操作步骤,请参考bmp_post目录下的README文件。内容如下:

  1. /*
  2. * Rill create
  3. * rillzhen@gmail.com
  4. */
  5.  
  6. 1,保证原图为1024x7688-bitsobel.bmp
  7. 2,运行read_bmp.exe,生成bmp_dat.txt
  8. 3,将bmp_dat.txt复制到verilog工作目录,运行仿真,生成post_process_dat.txt
  9. 4,将post_process_dat.txt复制到本目录,先运行bmp_process.exe,保持bmp_process.exe运行状态,再执行bmp_bin.exe,最终生成sobel_rst1.bmp,为最终处理结果。

需要注意的是,本例中处理的图片为1024x768的8-bit的bmp文件,如果想处理其他尺寸的bmp文件,需要修改一下testbench.v中的相关内容即可,如果想处理其他格式的图片,则需要重新编写对应的图片预处理,后处理程序。

4,硬件的时序仿真

在最终在FPGA上运行之前,我们还需要做一下时序仿真(后仿),这时就需要用quartusII在综合时生成包含延迟信息的文件(*.vo),还需要quartusII的库。

我们用quartusII将sobel模块的所用可综合文件进行综合,会生成sobel.vo文件和其它vo文件,比如sobel_min_1200mv_0c_fast.vo。

在后仿时,用到的quartus的库文件有:cycloneive_atoms.v , altera_primitives.v。

当然,还需要仿真模型文件:testbench.v ,cpu.v,memory.v,arbiter.v。

经过近半个小时的仿真,结果终于出来了,按照前仿真的步骤,也能得到相同的处理结果。

这里需要注意的是,如果用sobel.vo做后仿时出现hold/setup时序不满足的问题,可以使用sobel_min_1200mv_0c_fast.vo来做后仿。

后仿真的工程,我也已上传:

http://download.csdn.net/detail/rill_zhen/6371857

5,软件实现

为了便于对比硬件的加速效果,我们需要编写相应的软件程序,然后在openrisc上运行,得到运行时间。

下面是C语言实现代码:

bmp.c:

  1. #include <string.h>
  2. #include <math.h>
  3. #include <stdio.h>
  4. #include <stdlib.h>
  5. #include <malloc.h>
  6. #include <sys/timeb.h>
  7. #include <time.h>
  8.  
  9. typedef struct {
  10. double real;
  11. double img;
  12. } COMPLEX;
  13. typedef struct
  14. {
  15. long tv_sec;
  16. long tv_usec;
  17. } timeval;
  18.  
  19. typedef unsigned char BYTE;
  20. typedef unsigned short WORD;
  21. typedef unsigned long DWORD;
  22. typedef long LONG;
  23.  
  24. //位图文件头信息结构定义
  25. //其中不包含文件类型信息(由于结构体的内存结构决定,要是加了的话将不能正确读取文件信息)
  26.  
  27. typedef struct tagBITMAPFILEHEADER {
  28. DWORD bfSize; //文件大小
  29. WORD bfReserved1; //保留字,不考虑
  30. WORD bfReserved2; //保留字,同上
  31. DWORD bfOffBits; //实际位图数据的偏移字节数,即前三个部分长度之和
  32. } BITMAPFILEHEADER;
  33.  
  34. //信息头BITMAPINFOHEADER,也是一个结构,其定义如下:
  35.  
  36. typedef struct tagBITMAPINFOHEADER{
  37. DWORD biSize; //指定此结构体的长度,为40
  38. LONG biWidth; //位图宽
  39. LONG biHeight; //位图高
  40. WORD biPlanes; //平面数,为1
  41. WORD biBitCount; //采用颜色位数,可以是1,2,4,8,16,24,新的可以是32
  42. DWORD biCompression; //压缩方式,可以是0,1,2,其中0表示不压缩
  43. DWORD biSizeImage; //实际位图数据占用的字节数
  44. LONG biXPelsPerMeter; //X方向分辨率
  45. LONG biYPelsPerMeter; //Y方向分辨率
  46. DWORD biClrUsed; //使用的颜色数,如果为0,则表示默认值(2^颜色位数)
  47. DWORD biClrImportant; //重要颜色数,如果为0,则表示所有颜色都是重要的
  48. } BITMAPINFOHEADER;
  49.  
  50. //调色板Palette,当然,这里是对那些需要调色板的位图文件而言的。24位和32位是不需要调色板的。
  51. //(似乎是调色板结构体个数等于使用的颜色数。)
  52.  
  53. typedef struct tagRGBQUAD {
  54. BYTE rgbBlue; //该颜色的蓝色分量
  55. BYTE rgbGreen; //该颜色的绿色分量
  56. BYTE rgbRed; //该颜色的红色分量
  57. BYTE rgbReserved; //保留值
  58. } RGBQUAD;
  59.  
  60. void showBmpHead(BITMAPFILEHEADER* pBmpHead)
  61. {
  62. printf("bmp file head:\n");
  63. printf("size:%d\n",pBmpHead->bfSize);
  64. printf("reserved byte1:%d\n",pBmpHead->bfReserved1);
  65. printf("reserved byte2:%d\n",pBmpHead->bfReserved2);
  66. printf("offbit:%d\n",pBmpHead->bfOffBits);
  67. }
  68.  
  69. void showBmpInforHead(BITMAPINFOHEADER* pBmpInforHead)
  70. {
  71. printf("bmp info head:\n");
  72. printf("structure size:%d\n",pBmpInforHead->biSize);
  73. printf("width:%d\n",pBmpInforHead->biWidth);
  74. printf("height:%d\n",pBmpInforHead->biHeight);
  75. printf("biPlanes:%d\n",pBmpInforHead->biPlanes);
  76. printf("biBitCount:%d\n",pBmpInforHead->biBitCount);
  77. printf("compress type:%d\n",pBmpInforHead->biCompression);
  78. printf("biSizeImage:%d\n",pBmpInforHead->biSizeImage);
  79. printf("X:%d\n",pBmpInforHead->biXPelsPerMeter);
  80. printf("Y:%d\n",pBmpInforHead->biYPelsPerMeter);
  81. printf("colour used:%d\n",pBmpInforHead->biClrUsed);
  82. printf("imp colour:%d\n",pBmpInforHead->biClrImportant);
  83. }
  84.  
  85. void showRgbQuan(RGBQUAD* pRGB)
  86. {
  87. printf("(%-3d,%-3d,%-3d) ",pRGB->rgbRed,pRGB->rgbGreen,pRGB->rgbBlue);
  88. }
  89.  
  90. void sobelEdge(BYTE* pColorData, int width,BYTE* lineone,BYTE* linetwo,BYTE* linethree);
  91.  
  92. int main()
  93. {
  94. timeval tpstart, tpend;
  95. double timeuse;
  96.  
  97. BITMAPFILEHEADER bitHead;
  98. BITMAPINFOHEADER bitInfoHead;
  99. FILE* pfile;
  100. WORD fileType;
  101.  
  102. gettimeofday(&tpstart,NULL);
  103.  
  104. pfile = fopen("./aa.bmp","rb");//打开文件
  105. if(pfile!=NULL)
  106. {
  107. printf("file bkwood.bmp open success.\n");
  108. //读取位图文件头信息
  109. fread(&fileType,1,sizeof(WORD),pfile);
  110. if(fileType != 0x424d/* 0x4d42*/)
  111. {
  112. printf("file is not a bmp file!");
  113. //return 0;
  114. }
  115.  
  116. fread(&bitHead,1,sizeof(BITMAPFILEHEADER),pfile);
  117.  
  118. showBmpHead(&bitHead);
  119. printf("\n\n");
  120.  
  121. //读取位图信息头信息
  122. fread(&bitInfoHead,1,sizeof(BITMAPINFOHEADER),pfile);
  123. showBmpInforHead(&bitInfoHead);
  124. printf("\n");
  125. }
  126. else
  127. {
  128. printf("file open fail!\n");
  129.  
  130. return 0;
  131. }
  132.  
  133. if((bitInfoHead.biBitCount!=0x800) && (bitInfoHead.biBitCount!=0x8))
  134. {
  135. printf("not 256 colour bmp error!");
  136. // return 0;
  137. }
  138.  
  139. FILE *pwrite=NULL;//写sobel之后的图像
  140. pwrite=fopen("Sobel.bmp","wb");
  141. if(pwrite==NULL)
  142. {
  143. printf("new file fail!");
  144. }
  145. fwrite(&fileType,sizeof(WORD),1,pwrite);
  146. fwrite(&bitHead,sizeof(BITMAPFILEHEADER),1,pwrite);
  147. fwrite(&bitInfoHead,sizeof(BITMAPINFOHEADER),1,pwrite);
  148.  
  149. //读取调色盘结信息
  150.  
  151. RGBQUAD *pRgb ;
  152. int i;
  153. int rgb2gray;
  154. long nPlantNum = (long)pow(2,(double)8/*bitInfoHead.biBitCount*/);// Mix color Plant Number;
  155.  
  156. pRgb=(RGBQUAD *)malloc(sizeof(RGBQUAD));
  157. for(i=0;i<=nPlantNum;i++)
  158. {
  159.  
  160. memset(pRgb,0,sizeof(RGBQUAD));
  161. int num = fread(pRgb,4,1,pfile);
  162. rgb2gray=(300* pRgb->rgbRed+590*pRgb->rgbGreen+110*pRgb->rgbBlue)/1000;
  163. pRgb->rgbRed=rgb2gray;
  164. pRgb->rgbGreen=rgb2gray;
  165. pRgb->rgbBlue=rgb2gray;
  166. fwrite(pRgb,4,1,pwrite);
  167. }
  168.  
  169. int width = 1024;//bitInfoHead.biWidth;
  170. int height = 768;//bitInfoHead.biHeight;
  171.  
  172. BYTE *pColorData=(BYTE *)malloc(width); //ad
  173. memset(pColorData,0,width);//ad
  174.  
  175. BYTE lineone[1024];
  176. BYTE linetwo[1024];
  177. BYTE linethree[1024];
  178.  
  179. int num=0;
  180. int j=0;
  181. for(num=0;num<height;num++)
  182. {
  183. fread(pColorData,1,width,pfile);
  184. if(num==0)
  185. {
  186. for(j=0;j<width;j++)
  187. {
  188. linethree[j]=pColorData[j];
  189. pColorData[j]=0;
  190. }
  191. fwrite(pColorData,1,width,pwrite);
  192. }
  193. if(num==1)
  194. {
  195. for(j=0;j<width;j++)
  196. {
  197. linetwo[j]=linethree[j];
  198. linethree[j]=pColorData[j];
  199. }
  200. }
  201. if(num==height-1)
  202. for(j=0;j<width;j++)
  203. {
  204. pColorData[j]=0;
  205. fwrite(pColorData,1,width,pwrite);
  206. }
  207. else
  208. {
  209. for(j=0;j<width;j++)
  210. {
  211. lineone[j]=linetwo[j];
  212. linetwo[j]=linethree[j];
  213. linethree[j]=pColorData[j];
  214. }
  215. sobelEdge(pColorData,width,lineone,linetwo,linethree);
  216. fwrite(pColorData,1,width,pwrite);
  217. }
  218. }
  219. fclose(pwrite);
  220. fclose(pfile);
  221. if (bitInfoHead.biBitCount<24)
  222. {
  223. free(pRgb);
  224. }
  225. free(pColorData);
  226.  
  227. gettimeofday(&tpend,NULL);
  228. timeuse=1000000*(tpend.tv_sec-tpstart.tv_sec)+tpend.tv_usec-tpstart.tv_usec;
  229.  
  230. printf("sobel_soft Used Time us:%lf\n",timeuse);
  231.  
  232. return 1;
  233. }
  234.  
  235. void sobelEdge(BYTE* pColorData, int width,BYTE* lineone,BYTE* linetwo,BYTE* linethree)
  236. {
  237. BYTE area[3][1024];
  238. int i=0;
  239. int j=0;
  240. for(i=0;i<3;i++)
  241. for(j=0;j<width;j++)
  242. {
  243. if(i==0)
  244. area[i][j]=lineone[j];
  245. if(i==1)
  246. area[i][j]=linetwo[j];
  247. if(i==2)
  248. area[i][j]=linethree[j];
  249. }
  250. int temp1=0;
  251. int temp2=0;
  252. int temp=0;
  253. int *tempM=(int *)malloc(3*width*sizeof(int));
  254. memset(tempM,0,3*width);
  255.  
  256. int m=0;
  257. int n=0;
  258. for(m=0;m<2;m++)
  259. for(n=0;n<width;n++)
  260. {
  261. if((m==1)&&(n!=width-1)&&(n!=0))
  262. {
  263. temp1=area[m+1][n-1]
  264. +2*area[m+1][n]
  265. +area[m+1][n+1]
  266. -area[m-1][n-1]
  267. -2*area[m-1][n]
  268. -area[m-1][n+1];
  269.  
  270. temp2=area[m-1][n+1]
  271. +2*area[m][n+1]
  272. +area[m+1][n+1]
  273. -area[m-1][n-1]
  274. -2*area[m][n-1]
  275. -area[m+1][n-1];
  276.  
  277. // temp=(int)((double)sqrt((double)(temp1*temp1))+(double)sqrt((double)(temp2*temp2)));
  278. temp = (int)(abs(temp1) + abs(temp2));
  279. if(temp>255)
  280. {
  281. temp=255;
  282. }
  283. if(temp<0)
  284. {
  285. temp=0;
  286. }
  287. tempM[m*width+n]=(BYTE)temp;
  288. }
  289. else
  290. {
  291. area[m][n]=0;
  292. temp=area[m][n];
  293. }
  294.  
  295. }
  296. for(n=0; n<width; n++)
  297. {
  298. pColorData[n]=tempM[1*width+n];
  299. }
  300. free(tempM);
  301. return;
  302. }

在虚拟机下编译:or32-linux-gcc bmp.c -o sobel

copy到开发板上执行,得到打印结果如下:从中可以看出,软件执行时间为17972.718ms。时间对比=762.76倍。硬件加速效果明显。当然,实际情况比较复杂,不可能会达到这么多。

软件处理结果:与硬件处理结果有所差别,原因是处理算法和预处理有所区别,但区别不大。

6,小结

本小节设计实现了一个简单的sobel减速器,并编写了相应的软件,与之对比,加速效果明显。

数字集成电路设计-8-一个简单sobel图像边缘检测加速器的设计,实现,仿真与综合的更多相关文章

  1. CSharpGL(24)用ComputeShader实现一个简单的图像边缘检测功能

    CSharpGL(24)用ComputeShader实现一个简单的图像边缘检测功能 效果图 这是红宝书里的例子,在这个例子中,下述功能全部登场,因此这个例子可作为使用Compute Shader的典型 ...

  2. 数字集成电路设计-14-DPI

    引言 在进行IC验证时,尤其是规模较大的时候,单纯用Verilog和SV来构建testbench.可能会稍显吃力. 在这样的情况下,使用C或者C++等软件语言往往会大大加快验证速度,提高验证效率. P ...

  3. jQuery照片伸缩效应,这不是一个简单的图像缩放,它不影响其它元素的布局

    之前在网上看到这样的效果,但我没有收藏夹网址,后来被我不知道如何来实现这种效果. 如今,互联网已收集有关专门.真是功夫不负有心人,被我发现. 我也努力过自己尝试着写: 但仅仅是单纯的图片放大.并且还影 ...

  4. [安卓] 17、一个简单的例子学安卓侧滑设计——用开源slidingmenu

    效果如下: 下面是工程结构: 整个工程包括android-v7.SlidingMenu-lib和主工程SlidingMenuTest部分 其中前两个作为lib,后一个为主工程 主工程包含两个lib工程 ...

  5. 自己根据java的LinkedList源码编写的一个简单的LinkedList实现

    自己实现了一个简单的LinkedList /** * Create by andy on 2018-07-03 11:44 * 根据 {@link java.util.LinkedList}源码 写了 ...

  6. Cocos2d-x-Lua 开发一个简单的游戏(记数字步进白色块状)

    Cocos2d-x-Lua 开发一个简单的游戏(记数字步进白色块状) 本篇博客来给大家介绍怎样使用Lua这门语言来开发一个简单的小游戏-记数字踩白块. 游戏的流程是这种:在界面上生成5个数1~5字并显 ...

  7. 用MFC完成一个简单的猜数字游戏: 输入的四位数中,位置和数字都正确为A,数字相同而位置不同的为B。

    最近学习了MFC一些比较基础的知识,所以打算通过做一个简单的数字游戏来理解MFC的流程并进一步熟悉其操作. 在这里,我做了一个猜数字的小游戏.第一步当然是设计主界面,先给大家展示一下游戏界面: 主界面 ...

  8. Win8 Metro(C#)数字图像处理--2.56简单统计法图像二值化

    原文:Win8 Metro(C#)数字图像处理--2.56简单统计法图像二值化  [函数名称] 简单统计法图像二值化 WriteableBitmap StatisticalThSegment(Wr ...

  9. [PCB制作] 1、记录一个简单的电路板的制作过程——四线二项步进电机驱动模块(L6219)

    前言 现在,很多人手上都有一两个电子设备,但是却很少有人清楚其中比较关键的部分(PCB电路板)是如何制作出来的.我虽然懂点硬件,但是之前设计的简单系统都是自己在万能板上用导线自己焊接的(如下图左),复 ...

随机推荐

  1. markdown与textile之间互相转换

    markdown与textile之间互相转换 redmine中默认使用的是textile那么从别的地方复制过来的markdown格式的内容需要进行转换 找到一款工具叫做pandoc http://jo ...

  2. 【WPF】Dispatcher及线程操作

    WPF 应用程序启动后,会有两个线程: 1. 一个是用来处理UI呈现(处理UI的请求,比如输入和展现等操作). 2. 一个用来管理 UI的 (对UI元素及整个UI进行管理). 像Winform一样,W ...

  3. Windows命令行语法说明

    摘自:http://lavasoft.blog.51cto.com/62575/1113234   Windows命令行语法说明   说来惭愧,用windows这么多年了,对其命令行语法看得似懂非懂, ...

  4. Android中的pix,sp,dp相关概念

    px( pixel) 像素,可以简单的理解为一个点或方块,用以颜色的显示(单位),一般指印刷品或屏幕设置设备的颜色显示定义. dip(device independent pixels)设备独立像素. ...

  5. Mvc学习笔记(4)

    上文我介绍了如何将控制器里的值传递给视图,但是是如何传递的呢?原理是什么? 视图 page.cshtml在编译的时候也会编译成一个类,然而这个类会继承于WebViewPage<object> ...

  6. Re-installation failed due to different application signatures./package name has exist

    http://www.cnblogs.com/qianxudetianxia/archive/2011/04/09/2010468.html

  7. delphi xe5 android 开发数据访问server端(一)

    第一篇我们破解并安装了xe5 第二篇我们搭建了开发环境 接下来我们开发一个三层的android程序 建立一个webservices  stand-alone vcl application 作为手机访 ...

  8. 批量建立EXCHANGE邮件帐号建立三部曲

    第一步:从AD里导出用户名(可以基于OU),将输出的CSV的DN列删除,并去除可能的测试及其它用途用户名. csvde -f users-gz.csv -d "ou=MKT gz,dc=xm ...

  9. 【HDU 3435】 A new Graph Game (KM|费用流)

    A new Graph Game Problem Description An undirected graph is a graph in which the nodes are connected ...

  10. JSON数据与JavaScript对象转换

    使用JSON时,最基本的工作就是JSON数据与JavaScript对象之间的互相转换.如浏览器 从服务器端获得JSON数据,然后转换为JavaScript对象在网页输出. SON: JavaScrip ...