ARM Mali T860 GPU核心与C66x DSP核心的OpenCL计算性能对比测试

DSP GPU OpenCL

xukejing

关注

发布时间: 2019-05-03

丨

阅读: 26214

最近几年，支持GPU、DSP和FPGA加速的OpenCL通用计算框架非常热门。瑞芯微RK3399是现在比较热门的一款ARM处理器芯片，其中的ARM Mali T860 GPU核心支持OpenCL计算框架。德州仪器推出了集成DSP核心的ARM芯片，其中的C66x DSP核心也支持OpenCL。

GPU或DSP，它们跑OpenCL，到底谁更快呢？

今天我们来测试一下单核C66x DSP和4核T860 GPU的计算性能。这个测试，我们已经期待了快一年了。

我们先说说瑞芯微RK3399处理器芯片，该芯片的ARM Cortex-A72 2.0G Hz核心（总共2个A72，4个A53）和Mali T860 MP4 GPU给我留下了深刻印象。RK3399上面集成的T860是4核的，并且支持OpenCL。以下是RK3399的GPU信息。

3399的T864GPU.JPG

德州仪器的AM5708处理器的CPU和GPU其实并不起眼，单核ARM Cortex-A15 1G Hz，SGX544 GPU（不支持OpenCL）；然而却神奇地集成了两个双核Cortex-M4的IPU模块和一个单核的Ti C66x DSP核心。

怎么把Mali T860和C66x放在一起比呢？

由于GPU和DSP是完全不同的平台，所以，我们也要找一个通用的计算框架（比如OpenCL）来对性能进行统一的量化。

于是，本人设计了测试方案，使用gcc以默认优化编译一个opencl做冒泡法数列排序的例子，并通过程序记录跑算法过程的消耗时间。

单核C66x DSP竟然要跟4核T860 GPU比OpenCL啦，谁更胜一筹呢？

首先出场的是Mali T860 GPU，通过clinfo命令，我们可以知道它是个4核800Mhz的GPU，并且支持OpenCL 1.2。如果估算每个GPU核心有25GFLOPS的算力，4个核心就是将近100GFLOPS了。

RK3399的clinfo.JPG

下面我们编译一下这个OpenCL算法；因为引用了CL库，所以要加-lOpenCL；然后连续跑两次。

rk3399的ocl速度.JPG

上面这个算法做的事情是用冒泡法把一个数组里面的元素进行从大到小的排序。计算耗时大约在1.7到1.8毫秒左右。

下面，我们再有请C66x出场，通过命令可以知道Ti AM5708处理器里的这个C66x是个781MHz的DSP核心，支持OpenCL 1.1。从频率上看，并没有达到 Ti C66x 常见的1GHz。也就是说，是个残血的DSP（估计算力大约是16GFLOPS）。Ti的另一款产品，TMS320C6678 DSP是8核C66x 1GHz的，总算力可以达到160GFLOPS（每核心20GFLOPS）。