C114通信网  |  通信人家园

资讯
2022/9/3 13:19

天翼云刘禄仁:采用FPGA+CPU架构自研DPU,DPU1.0产品已上线

C114通信网  南山

C114讯 9月3日消息(南山)在昨日举办的第二届SmartNIC & DPU技术创新峰会上,天翼云资深研发专家、自研DPU技术负责人刘禄仁发表演讲表示,引入DPU有多种架构,典型的有CPU Based、NP Based、ASIC+CPU、FPGA+CPU四种架构,天翼云选择了基于FPGA+CPU的架构。

原因包括多个方面。一是天翼云作为公有云,网络需求零散且动态化,很难将不同的需求抽象化成具有共性的研发需求,而DPU研发天然耗时周期长,在满足快速交付层面将会存在难题。二是一些DPU厂商已经开发的POC解决方案,与天翼云的实际商业化落地需求的差异越来越大。三是从DPU不同场景的测试稳定性来看,离实际需求存在较大差距。

DPU的需求来源于产品方案,涉及到产品经理、架构师和系统解决方案工程师,会覆盖存储、计算、安全、运维等多方面的问题。通俗的说,就是高度定制化。基于此,天翼云决定以SoC+IPC架构作为切入点,打造自研DPU,将计算、存储、安全和运维全部迁移到新一代体系结构中,实现了自主可控“一云多星”的能力。

天翼云已成功研发出天翼云DPU1.0产品,并以DPU云核为基础打造了为云而生的全新云计算体系结构。在具体实践上,天翼云一是在网络卸载方面,实现了满足裸金属、云主机和容器三种场景的需求,达到了400万流表,转发性能可以达到4000万PPS。天翼云DPU1.0还将传统运行在主机侧的应用转到DPU云核上,减少大量的适配工作,在主机不同算力核和不同架构上做到即插即用。

在存储卸载方面,天翼云针对经常出现的SoC异常重启、SPDK异常重启、热迁移丢IO等现象,将SoC侧软件的正常行为和异常行为进行统一,组件启动时统一发送msg信息给硬件,硬件收到该msg会解析其内容,进而从硬件保存的queue指针信息进行分析,在用户无感状态下实现全部异常的统一化处理。

在高性能网络上,天翼云也进行了调研,认为基于Cridet+时延+ECN的报文,将成为未来RDMA拥塞算法的演进趋势。天翼云建立了以博士为主的研发团队,博采众家之长,推出了全新自研的拥塞算法。

刘禄仁强调,DPU的价值不止是卸载。天翼云除了端侧的工作,也推出了自研交换机。在交换机上部署自研算法,使交换机同样具备主动拥塞通知能力和主动发包能力,可以有效降低端到端响应时延,同时简化建模和配置复杂度,提高系统的可扩展性。

在场景落地上,天翼云打造了多款产品,包括具有特色的天翼云弹性裸金属服务器。通过将网络、存储等功能卸载至DPU卡,可极大降低物理机侧CPU和内存等资源消耗,最终算力远超普通云主机。目前,在天翼云虚拟化、大数据、核心数据库以及金融行业等应用场景,已有很多资源池上线。

给作者点赞
0 VS 0
写得不太好

版权说明:C114刊载的内容,凡注明来源为“C114通信网”或“C114原创”皆属C114版权所有,未经允许禁止转载、摘编,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。编译类文章仅出于传递更多信息之目的,不代表证实其描述或赞同其观点;翻译质量问题请指正

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141