关键词：DMA、sync、async、SIGIO、F_SETSIG。

DMA本身用于减轻CPU负担，进行CPU off-load搬运工作。

在DMA驱动内部实现有同步和异步模式，异步模式使用dma_async_issue_pending()，然后在callback()中发送SIGIO信号，用户空间收到SIGIO进行handler处理视为一个周期完成。

同步模式，采用dma_sync_wait()进行等待，期间并没有释放CPU给其他进程使用。

在一个项目中，发现DMA相关占用率高的问题，后来发现是因为其使用了同步模式。然后，将其改成异步模式，并对其进行详细的分析，记录如下。

那么当初为什么没有使用async IO模式呢？

原来是因为同一进程中其他线程也是用了async IO设备，由于kill_fasync()发送SIGIO信号，在一个进程内无法多个handler。

权宜措施使用了同步DMA，造成占用率高。

然后通过fcntl(fd, F_SETSIG, sig);解决了kill_fasync()发送相同SIGIO信号的冲突问题。

1. 问题发现：DMA同步模式占用率高

抓数据命令：

perf record -a -e cpu-clock  -- sleep 60

perf report

perf report -s comm

不同数据量，不同CMA处理方式下的top和perf结果：

Item	1 cma		per cma
Item	top	perf	top	perf
4K 25fps	15%	84.43% swapper [kernel.kallsyms] [k] __sched_text_end 11.51% main [kernel.kallsyms] [k] dma_cookie_status 2.81% main [kernel.kallsyms] [k] dma_sync_wait 0.20% main [kernel.kallsyms] [k] uart_write 0.13% swapper [kernel.kallsyms] [k] cache_op_range 0.12% swapper [kernel.kallsyms] [k] __dma_tx_complete 0.06% swapper [kernel.kallsyms] [k] dw_dma_tasklet 0.04% ksoftirqd/0 [kernel.kallsyms] [k] finish_task_switch 0.03% perf [kernel.kallsyms] [k] raw_copy_from_user 0.02% swapper [kernel.kallsyms] [k] __softirqentry_text_start	61%	45.93% main [kernel.kallsyms] [k] dcache_wb_line 36.79% swapper [kernel.kallsyms] [k] __sched_text_end 4.86% main [kernel.kallsyms] [k] dma_cookie_status 4.06% main [kernel.kallsyms] [k] free_hot_cold_page 1.28% main [kernel.kallsyms] [k] dma_sync_wait 1.28% main [kernel.kallsyms] [k] skip_ftrace 0.66% main [kernel.kallsyms] [k] _mcount 0.58% main [kernel.kallsyms] [k] unset_migratetype_isolate 0.51% main [kernel.kallsyms] [k] __free_pages 0.41% main [kernel.kallsyms] [k] start_isolate_page_range
1080p 50fps	9%	89.82% swapper [kernel.kallsyms] [k] __sched_text_end 5.63% main [kernel.kallsyms] [k] dma_cookie_status 1.48% main [kernel.kallsyms] [k] dma_sync_wait 0.49% ksoftirqd/0 [kernel.kallsyms] [k] finish_task_switch 0.24% swapper [kernel.kallsyms] [k] dw_dma_tasklet 0.13% swapper [kernel.kallsyms] [k] __dma_tx_complete 0.10% swapper [kernel.kallsyms] [k] tasklet_action 0.10% main [kernel.kallsyms] [k] do_futex 0.06% main [kernel.kallsyms] [k] raw_copy_from_user 0.06% main [kernel.kallsyms] [k] restore_from_user_fp	44%	53.49% swapper [kernel.kallsyms] [k] __sched_text_end 30.73% main [kernel.kallsyms] [k] dcache_wb_line 3.65% main [kernel.kallsyms] [k] free_hot_cold_page 3.36% main [kernel.kallsyms] [k] dma_cookie_status 1.03% main [kernel.kallsyms] [k] skip_ftrace 0.85% main [kernel.kallsyms] [k] dma_sync_wait 0.56% main [kernel.kallsyms] [k] _mcount 0.48% main [kernel.kallsyms] [k] unset_migratetype_isolate 0.38% main [kernel.kallsyms] [k] __free_pages 0.33% main [kernel.kallsyms] [k] isolate_migratepages_range

问题的分析：

1. skip_trace和_mcount两个是因为ftrace引入的负荷，不合理。此时不应该有这些。----需要推动csky修改成Dynamic function/function_graph。

2. dcache_wb_line/free_hot_cold_page是CMA操作引起的。-----------------------------------这里需要修改处理方式，CMA不需要重复申请释放。

3. dma_cookie_status/dma_sync_wait是DMA操作引起的。------------------------------------这里可以通过修改DMA异步信号触发来降低占用率。

分析总结：

1. 从上面的测试结果看，应该尽量避免内存申请释放。csky内存处理效率很低。

2. 同步模式效率非常低，4K单路占用率达到15%，如果4K双路就没法使用了。

所以必须要使用异步模式，这也是使用DMA的初衷。

1.1 不同DMA size对性能影响

多大的传输使用DMA获得的收益最高呢？做了个实验，结果如下，横轴单位是B，纵轴单位是MB/s、

可以看出，DMA size大小越大效率越高，size接近3MB的时候，以及以后吞吐率就比较稳定了。

2. 分析问题：让DMA异步起来

int axidma_memcpy(dma_addr_t src, dma_addr_t dst, unsigned int len)

{

    struct dma_async_tx_descriptor *tx = NULL;

    dma_cookie_t        cookie;

    unsigned long  flags;

    bool sync_wait = false;-------------------------------------------------------------------true表示同步等待模式；false表示异步模式，和callback()配合。

    int err = ;

    flags = DMA_CTRL_ACK | DMA_PREP_INTERRUPT;

    tx = xxxxxx->dma.chan->device->device_prep_dma_memcpy(xxxxxx->dma.chan, dst, src, len, flags);

    if (!tx)

    {

        pr_err("Fail to prepare memcpy.\n");

        return -;

    }

    tx->callback = axidma_callback;

    tx->callback_param = xxxxxx;

    cookie = tx->tx_submit(tx);

    if (dma_submit_error(cookie))

    {

        pr_err("Fail to submit axi dma.\n");

        return -;

    }

    if (!sync_wait) {

        dma_async_issue_pending(dma_dev->dma.chan);------------------------------------------发送DMA传输请求，然后退出。这里不会等待操作结果。

    } else {

        if (dma_sync_wait(dma_dev->dma.chan, cookie) == DMA_COMPLETE) {

            err = ;

        } else {

            err = -EIO;

        }

    }

    return err;

}

enum dma_status dma_sync_wait(struct dma_chan *chan, dma_cookie_t cookie)

{

    enum dma_status status;

    unsigned long dma_sync_wait_timeout = jiffies + msecs_to_jiffies();-------------------超时5000ms，足够大了。

    dma_async_issue_pending(chan);------------------------------------------------------------和之前同样功能，发送DMA传输请求。只是下面会进行等待，并有超时动作。

    do {

        status =dma_async_is_tx_complete(chan, cookie, NULL, NULL);--------------------------pool DMA传输状态。

        if (time_after_eq(jiffies, dma_sync_wait_timeout)) {

            dev_err(chan->device->dev, "%s: timeout!\n", __func__);

            return DMA_ERROR;-----------------------------------------------------------------超时退出。

        }

        if (status != DMA_IN_PROGRESS)

            break;

        cpu_relax();--------------------------------------------------------------------------让出CPU执行。

    } while ();

    return status;

}

static inline enum dma_status dma_async_is_tx_complete(struct dma_chan *chan,

    dma_cookie_t cookie, dma_cookie_t *last, dma_cookie_t *used)

{

    struct dma_tx_state state;

    enum dma_status status;

    status = chan->device->device_tx_status(chan, cookie, &state);

    if (last)

        *last = state.last;

    if (used)

        *used = state.used;

    return status;

}

然后在callback()中发送SIGIO信号：

static void axidma_callback(void *arg)

{

    if(dma_dev->async)

    {

        pr_debug("axidma callback: chan=%s.\n", dma_chan_name(dma_dev->dma.chan));

        pr_debug("axidma_callback: magic=0x%08x pid_type=%d\n", dma_dev->async->magic, dma_dev->async->fa_file->f_owner.pid_type);

        kill_fasync(&dma_dev->async, SIGIO, POLL_IN);--------------------------------在传输完成后，异步发送SIGIO信号。

    }

}

3. 解决问题：DMA异步传输

为了排除其他进程影响，单独构造3个试用例：1. 4K 25fps；2. 1080p 2路 25fps；3. 1080p 4路 25fps。

然后改成DMA异步模式，CPU占用率是否明显下降？

测试程序如下：

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

#include <stdio.h>

#include <poll.h>

#include <signal.h>

#include <sys/types.h>

#include <unistd.h>

#include <fcntl.h>

#include <time.h>

#include <pthread.h>

#include <sys/prctl.h>

#include <sys/syscall.h>

#include <sys/ioctl.h>

#include "IFMS_MemCMA_API.h"

int fd;

unsigned int handle_count = ;

volatile unsigned int dmatest_exit = ;

volatile sigio_received = ;

#define LOOP_COUNT 10000

#define DMA_MEMCPY    0

#define DMA_FILE "/dev/dpeye1000_axidma"

#define DPEYE1000_AXIDMA_IOC_MAGIC  'd'

#define DPEYE1000_AXIDMA_REQUEST_CHNN   _IOW(DPEYE1000_AXIDMA_IOC_MAGIC, 1, int)    //Request channel.

#define DPEYE1000_AXIDMA_RELEASE_CHNN   _IOW(DPEYE1000_AXIDMA_IOC_MAGIC, 2, int)    //Release channel.

#define DPEYE1000_AXIDMA_MEMCPY         _IOW(DPEYE1000_AXIDMA_IOC_MAGIC, 3, int)    //Do 1d memcpy.

//#define PERFORMANCE_DEBUG

struct axidma_dma

{

    struct dma_chan *chan;

    unsigned long    src;

    unsigned long    dst;

    // for memcpy

    unsigned int      len;

    unsigned int    n_channels;

};

struct thread_para

{

    unsigned int size;

    unsigned int expries;

    struct cma_block cma_block1;

    struct cma_block cma_block2;

};

static struct axidma_dma axidma_dma;

struct thread_para t_para;

int dmacopy_tid = ;

void trigger_dma_copy(void)

{

    int ret;

    #ifdef PERFORMANCE_DEBUG

    struct timespec time_0, time_1;

    unsigned long duration;

    float throughput = 0.0;

    clock_gettime(CLOCK_REALTIME, &time_0);

    #endif

    axidma_dma.src = (unsigned long)t_para.cma_block1.addr_p;

    axidma_dma.dst = (unsigned long)t_para.cma_block2.addr_p;

    axidma_dma.len = t_para.size;

    ret = ioctl(fd, DPEYE1000_AXIDMA_MEMCPY, &axidma_dma);

    if(ret < )

    {

        printf("fail to ioctl DPEYE1000_AXIDMA_MEMCPY!!!\n");

    }

    #ifdef PERFORMANCE_DEBUG

    clock_gettime(CLOCK_REALTIME, &time_1);

    duration = (time_1.tv_sec-time_0.tv_sec)* + (time_1.tv_nsec-time_0.tv_nsec);

    throughput = (float)t_para.size/*/duration;

    printf("%ld.%ld %d %d, %ld, %f\n", time_1.tv_sec, time_1.tv_nsec, handle_count, t_para.size, duration, throughput);

    #endif

}

void sigint_handler(int sig)

{

    if(sig == SIGINT)

    {

        printf("%s SIGINT\n", __func__);

        dmatest_exit = ;

    }

}

void sigio_handler(int sig)

{

    if(sig == SIGIO)

    {

        sigio_received = ;

    }

}

static void pthread_func(void *arg)

{

    int ret;

    int Oflags;

    struct f_owner_ex owner_ex;

    struct timespec time1, time2;

    struct sigaction sa, sa2;

    sigset_t set, oldset;

    long long duration;

    unsigned int mode = DMA_MEMCPY;

    ret = IFMS_MemCMAAlloc(t_para.size, &t_para.cma_block1);

    if(ret<)

    {

        printf("CMA alloc failed.\n");

        return -;

    }

    ret=IFMS_MemCMAAlloc(t_para.size, &t_para.cma_block2);

    if(ret<)

    {

        printf("CMA alloc failed.\n");

        return -;

    }

//===========================================================================================

//Set thread name.

    prctl(PR_SET_NAME,"sigio");

    dmacopy_tid = syscall(SYS_gettid);

    printf("sigio thread tid=%ld %ld.\n", syscall(SYS_gettid), getpid());

//Set SIGIO actiong.

    memset(&sa, , sizeof(sa));

    sa.sa_handler = sigio_handler;

    sa.sa_flags |= SA_RESTART;

    sigaction(SIGIO, &sa, NULL);

//Set proc mask.

    sigemptyset(&set);

    sigprocmask(SIG_SETMASK, &set, NULL);

    sigaddset(&set, SIGIO);

    fd = open(DMA_FILE, O_RDWR);

    if (fd < )

    {

        printf("Can't open %s!\n", DMA_FILE);

    }

    //If set F_SETOWN_EX, SIGIO will send to this thread only.

    owner_ex.pid = syscall(SYS_gettid);

    owner_ex.type = F_OWNER_TID;

    fcntl(fd, F_SETOWN_EX, &owner_ex);

    Oflags = fcntl(fd, F_GETFL);

    fcntl(fd, F_SETFL, Oflags | FASYNC);

    clock_gettime(CLOCK_REALTIME, &time1);

    ret = ioctl(fd, DPEYE1000_AXIDMA_REQUEST_CHNN, &mode);

    if(ret < )

    {

        printf("fail to ioctl DPEYE1000_AXIDMA_REQUEST_CHNN!!!\n");

    }

    while(!dmatest_exit)

    {

        if(t_para.expries > )

            usleep(t_para.expries);

        trigger_dma_copy();     //Send DMA copy request.        while(!sigio_received)

        while(!sigio_received)

        {

            pthread_sigmask(SIG_BLOCK, &set, &oldset);

            //sigprocmask(SIG_BLOCK, &set, &oldset);

            sigsuspend(&oldset);    //Will pause here, and will be waked up by SIGIO.

            pthread_sigmask(SIG_UNBLOCK, &set, NULL);

            //sigprocmask(SIG_UNBLOCK, &set, NULL);

            handle_count++;

        }

        sigio_received = ;

    }

    clock_gettime(CLOCK_REALTIME, &time2);

    duration = (long long)(time2.tv_sec-time1.tv_sec)* + (time2.tv_nsec-time1.tv_nsec);

    sleep();

    printf("End time %lld.%09lld count=%d fps=%lld.\n", duration/, duration%, handle_count, (long long)handle_count*/duration);

    ioctl(fd, DPEYE1000_AXIDMA_RELEASE_CHNN, NULL);

    if(ret < )

    {

        printf("fail to ioctl DPEYE1000_AXIDMA_RELEASE_CHNN!!!\n");

    }

    close(fd);

//===========================================================================================

    ret=IFMS_MemCMAFree(t_para.cma_block1);

    if(ret<)

    {

        printf("CMA free failed.\n");

        return -;

    }

    ret=IFMS_MemCMAFree(t_para.cma_block2);

    if(ret<)

    {

        printf("CMA free failed.\n");

        return -;

    }

    pthread_exit();

}

void main(int argc, char **argv)

{

    pthread_t tidp;

    sigset_t set;

    unsigned int size = , expries = ;

    struct sigaction sa;

    if(argc != )

    {

        printf("Usage: %s size(B) expries(us).\n", argv[]);

        return -;

    }

    size = atoi(argv[]);

    if(!size)

    {

        printf("Please input right size.\n");

        return -;

    }

    expries = atoi(argv[]);

    if(!expries)

    {

        printf("Please input right expries time.\n");

        return -;

    }

    t_para.size = size;

    t_para.expries = expries;

    memset(&sa, , sizeof(sa));

    sa.sa_handler = sigint_handler;

    sa.sa_flags |= SA_RESTART;

    sigaction(SIGINT, &sa, NULL);

    sigemptyset(&set);

    sigaddset(&set, SIGIO);

    sigprocmask(SIG_BLOCK, &set, NULL);

    if(pthread_create(&tidp, NULL, pthread_func, NULL) == -)

    {

        printf("Create pthread error.\n");

        return;

    }

    if(pthread_join(tidp, NULL))

    {

        printf("Join pthread error.\n");

        return;

    }

    printf("Main exit.\n");

    return;

}

3.1 DMA异步和同步在不同场景下对比测试

dma_thread测试不同分辨率、不同帧率下的性能对比：

Case

同步DMA

异步DMA

top -d 5

perf record -a -e cpu-clock -- sleep 60

top -d 5

perf record -a -e cpu-clock -- sleep 60

1080p 50fps

dma_thread 3110400 20000

7.5%

单次耗时：1.6ms

91.12% swapper [kernel.kallsyms] [k] __sched_text_end
6.29% main [kernel.kallsyms] [k] dma_cookie_status
1.70% main [kernel.kallsyms] [k] dma_sync_wait
0.05% swapper [kernel.kallsyms] [k] tick_nohz_idle_enter
0.04% perf [kernel.kallsyms] [k] skip_ftrace
0.04% perf [kernel.kallsyms] [k] raw_copy_from_user

91.22% swapper

8.04% main
0.43% perf
0.11% jbd2/mmcblk1p2-
0.08% mmcqd/1

dma_sigio 3110400 20000

0.3%

单次耗时：135us

98.57% swapper
0.53% perf
0.46% sleep
0.21% mmcqd/1
0.15% jbd2/mmcblk1p2-
0.04% kworker/u2:2
0.03% sigio

1080p 100fps

dma_thread 3110400 10000

14.1%

单次耗时：1.6ms

84.27% swapper [kernel.kallsyms] [k] __sched_text_end
11.78% main [kernel.kallsyms] [k] dma_cookie_status
3.13% main [kernel.kallsyms] [k] dma_sync_wait
0.04% perf [kernel.kallsyms] [k] skip_ftrace
0.03% perf [kernel.kallsyms] [k] raw_copy_from_user

84.30% swapper
14.98% main
0.45% perf
0.10% jbd2/mmcblk1p2-
0.09% mmcqd/1

dma_sigio 3110400 10000

0.5%

单次耗时：135us

98.48% swapper
0.63% perf
0.50% sleep
0.21% mmcqd/1
0.11% jbd2/mmcblk1p2-
0.05% kworker/u2:1
0.02% sigio

4k 25fps

dma_thread 13271040 40000

14.5%

单次耗时：6.7ms

84.71% swapper [kernel.kallsyms] [k] __sched_text_end
11.35% main [kernel.kallsyms] [k] dma_cookie_status
2.88% main [kernel.kallsyms] [k] dma_sync_wait
0.04% perf [kernel.kallsyms] [k] skip_ftrace

84.75% swapper
14.53% main
0.43% perf
0.10% jbd2/mmcblk1p2-
0.07% mmcqd/1

dma_sigio 13271040 40000

0.2%

单次耗时：135us

98.51% swapper
0.56% perf
0.48% sleep
0.23% mmcqd/1
0.15% jbd2/mmcblk1p2-
0.04% kworker/u2:0
0.03% sigio

分析总结：

1. 同步模式下，CPU占用率跟数据量大小强相关，基本成正比；影响CPU占用率的最大因素是DMA传输同步等待，即上面dma_sync_wait()和dma_cookie_status()两个函数。

2. 异步模式下，请求发送后，交出CPU，在收到信号后继续下一次发送，期间不会占用CPU。CPU占用率跟DMA请求次数强相关，主要是发送请求，以及sigsuspend()和SIGIO信号处理占用。

3. 帧的吞吐率受DMA传输的帧大小影响。

3.2 那么异步模式的极限在哪里？

明显DMA的异步极限帧率，同样受限于DMA传输效率，并不会增大吞吐率。

那么看看不同帧率下的CPU情况：

Case	异步DMA
Case	top -d 5	perf record -a -e cpu-clock -- sleep 60
1080p 550 fps (max)	2.6%	96.50% swapper 1.93% sigio 0.62% perf 0.57% sleep 0.21% mmcqd/1
1080p 375 fps	1.8	98.44% swapper 0.56% perf 0.51% sleep 0.22% mmcqd/1 0.16% jbd2/mmcblk1p2- 0.08% sigio
1080p 273 fps	1.2%	98.43% swapper 0.58% perf 0.51% sleep 0.24% mmcqd/1 0.14% jbd2/mmcblk1p2- 0.05% sigio
4K 145 fps (max)	0.8%	98.45% swapper 0.55% perf 0.45% sleep 0.23% mmcqd/1 0.14% sigio

所以DMA极限帧率，主要受DMA传输大小和传输速度影响。

3.3 kernelshark对比DMA同步/异步模式

分别看看上面3个场景下同步模式下，kernelshark输出可以看出1080p执行时间是1.67ms，4k时间是6.88ms；每次时间间隔跟fps设置也对应。

1080p 50fps、1080p 100fps、4k 25fps三种占用率应该是1.67/21.67=7.7%、1.67/11.67=14.3%、6.88/46.88=14.7%。

再来看一下异步情况下的输出，这时候越是大尺寸DMA传输CPU占用率的收益越大。4k的时候

下面以1080p和4k对比看一下异步的收益。

1080p的DMA传输占用时间从1.65，降到了1.65-1.57=0.08，收益率95%。

可以看出4k情况下异步DMA的CPU占用时间从6.70，降到6.70-6.64=0.06，收益率达到99%。

4. 同进程多SIGIO冲突解决

当测试通过，进入方案的时候遇到SIGIO无法接收到的问题。

检查得知，原来是存在多个设备kill_fasync()。而一个进程范围内，SIGIO只能有一个handler。

通过fcntl()设置F_SETSIG可以定义sig代提SIGIO发送信号。

操作如下：

#define SIGDMA (SIGRTMIN+1)--------------------------定义一个实时信号

    fcntl(fd, F_SETSIG, SIGDMA);---------------------使用SIGDMA代提SIGIO作为async信号。

    memset(&sa, , sizeof(sa));

    sa.sa_sigaction = sigdma_handler;----------------一定要修改为sa_sigaction，对应的sigdma_handler参数也需要修改。

    sa.sa_flags = SA_RESTART | SA_SIGINFO;-----------一定要增加SA_SIGINFO。

    sigaction(SIGDMA, &sa, NULL);

除了有上面的好处之外，实时信号还能排队，这就比非实时信号更不会丢失。除非队列溢出。

5. 实际场景提升效果

在实际场景中，每40ms来一帧数据进行DMA搬运，

那么这段时间内，整个线程占用多少时间呢？2.303-0.225=2.078ms，对应的CPU占用率应该是5.2%。

再看看异步DMA实际效果如何？可以看出copy线程，中间调度出去的时间增大不小。

那么此时CPU占用率多少呢？2.288-1.177-0.431=0.68ms，对应的CPU占用率应该是1.7%。

从计算来看CPU占用率能降低3%左右。

6. 其他方案

1. 使用AXI DMA两通道，能否提高DMA吞吐率？相当于DMA并发，copy双线程？------------硬件双通道，如何构造同时触发的双通道case？

2. 如何标识每一次DMA传输，通过netlink port端口？--------------------------------------------------修改异步触发方式，port和channel绑定

一款DMA性能优化记录：异步传输和指定实时信号做async IO的更多相关文章

React性能优化记录（不定期更新）
React性能优化记录(不定期更新) 1. 使用PureComponent代替Component 在新建组件的时候需要继承Component会用到以下代码 import React,{Componen ...
Mysql 性能优化记录
记录工作中有关mysql性能优化的心得和经验 1. where条件中的字段尽量建立索引 2. where条件中的查询条件等号左边尽量不做处理如查询日期相关字段,尽量不使用date_fromat 或 ...
web性能优化之--合理使用http缓存和localStorage做资源缓存
一.前言开始先扯点别的: 估计很多前端er的同学应该遇到过:在旧项目中添加新的功能模块.或者修改一些静态文件时候,当代码部署到线上之后,需求方验收OK,此时你送了一口气,当你准备开始得意于自己的ma ...
SSD性能优化记录
在上一篇博文中,我设计了一个优化方法,方法从业务角度出发,将切图操作涉及到的性能路径剖析出来,分别进行优化,效果显著. 眼下的情况是:一张ArcGIS武汉市城市影像图.该操作由79小时缩短至当前的67 ...
Webpack 性能优化（一）（使用别名做重定向）
前言 Webpack 是 OneAPM 前端技术栈中非常重要的一部分.它非常好用,假设你还不了解它,建议你阅读这篇Webpack 入门指迷,在 OneAPM 我们用它完毕静态资源打包.ES6 代码的转 ...
Yslow网站性能优化工具
Yslow是一款网站性能优化的插件:
前端性能优化（三）——传统 JavaScript 优化的误区
注:本文是纯技术探讨文,无图无笑点,希望您喜欢一.前言软件行业极其缺乏前端人才这是圈内的共识了,某种程度上讲,同等水平前端的工资都要比后端高上不少,而圈内的另一项共识则是--网页是公司的脸面! 几 ...
Oracle性能优化1-总体思路和误区
最近在看梁敬彬老师关于Oracle性能优化的一些案例,在这里做一些简单的总结 1.COUNT(*)与COUNT(列)哪个更快 drop table t purge; create table t as ...
Yahoo关于性能优化的N条规则
本来这是个老生常谈的问题,上周自成又分享了一些性能优化的建议,我这里再做一个全面的Tips整理,谨作为查阅型的文档,不妥之处,还请指正: 一. Yahoo的规则条例: 谨记:80%-90%的终端响应时 ...

随机推荐

web进修之—Hibernate起步（1）（2）
想开始写博客了,尝试了CSDN和cnblog之后还是觉得cnblog更加简洁.专注(不过cnblog不支持搬家),所以把刚刚写的两篇学习博客链接放在这儿,这样这个系列也算是完整了: web进修之—Hi ...
linux为什么不可以添加硬链接
假设有个文件夹1 文件夹1里面还有个文件夹2 文件夹2里面还有个文件夹3 然后发现哎呀直接文件夹3放到文件夹1下就行了访问多方便. 也就是文件夹1下有文件夹2和文件夹3,然后问题就来了文件夹1下的文件 ...
【Java并发编程】Callable、Future和FutureTask的实现
启动线程执行任务,如果需要在任务执行完毕之后得到任务执行结果,可以使用从Java 1.5开始提供的Callable和Future 下面就分析一下Callable.Future以及FutureTask的 ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...
《CLR via C#》读书笔记（一）——CLR的执行模式
前言万事开头难,很早之前就想写博客记录些东西,迟迟未行动,甚是遗憾.原因诸多,大体上无非都是懒.没意志力等等.这次从自己的读书笔记开始,兴许能够有所改变. 一.CLR概念 CLR(Common La ...
【AutoFac】依赖注入和控制反转的使用
在开始之前首先解释一下我认为的依赖注入和控制反转的意思.(新手理解,哪里说得不正确还请指正和见谅) 控制反转:我们向IOC容器发出获取一个对象实例的一个请求,IOC容器便把这个对象实例“注入”到我们的 ...
Maven项目POM文件错误，提示“Plugin execution not covered by lifecycle configuration”的解决方案
一. 问题 Plugin execution not covered by lifecycle configuration: org.apache.maven.plugins:maven-depend ...
vue 新版本 webpack 代理跨域设置
旧版本中:dev-server.js 这段去掉 var apiRoutes = express.Router() //getList apiRoutes.get('/getDiscList', fun ...
Registrator中文文档
目录快速入门概述准备运行Registrator 运行Redis 下一步运行参考运行Registrator Docker选项 Registrator选项 Consul ACL令牌注册URI ...
pwn with glibc heap（堆利用手册）
前言对一些有趣的堆相关的漏洞的利用做一个记录,如有差错,请见谅. 文中未做说明均是指 glibc 2.23 相关引用已在文中进行了标注,如有遗漏,请提醒. 简单源码分析本节只是简 ...

一款DMA性能优化记录：异步传输和指定实时信号做async IO

1. 问题发现：DMA同步模式占用率高

1.1 不同DMA size对性能影响

2. 分析问题：让DMA异步起来

3. 解决问题：DMA异步传输

3.1 DMA异步和同步在不同场景下对比测试

3.2 那么异步模式的极限在哪里？

3.3 kernelshark对比DMA同步/异步模式

4. 同进程多SIGIO冲突解决

5. 实际场景提升效果

6. 其他方案

一款DMA性能优化记录：异步传输和指定实时信号做async IO的更多相关文章

随机推荐

热门专题