速安GeChe手游下载站_最新手机游戏下载门户网站!

游戏更新 | 安卓游戏 | 苹果游戏 | 推荐游戏 | 软件更新 | 文章更新 | 热门文章
您的位置: 首页  →  攻略 → 《深度系统优化工具(阿里云十年铸器,容器服务迈入智能化时代)

深度系统优化工具(阿里云十年铸器,容器服务迈入智能化时代)

2023-01-26 14:32:43      小编:网络整理      我要评论

深度系统优化工具文章列表:

深度系统优化工具(阿里云十年铸器,容器服务迈入智能化时代)

阿里云十年铸器,容器服务迈入智能化时代

国际权威咨询机构Forrester在今年发布的《The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022》报告中,阿里云位列全球公共云容器平台「领导者」象限,这是中国云计算厂商首次进入该象限。

对于阿里云而言,这已经不是其容器服务第一次闯入国际榜单,在此之前,阿里云容器服务(ACK)已经连续多年入选Gartner公共云容器竞争格局,阿里云ACK的产品丰富度与成熟度已经不言而喻。

2022年是阿里云容器技术发展的第十一年,也是在这一年,阿里云再次将容器服务带入智能化时代。

12月28日,在阿里云与Intel主办、天池平台承办的第三届云原生实战峰会上,阿里云资深技术专家汤志敏分享了容器服务助力云原生稳定性的主题演讲,并介绍了容器AIOps套件,助力企业做好故障预防与定位。从2015年提供容器服务至今,阿里云如何布局与推动容器服务发展,使其立于国际领先位置,我们不妨回顾下容器的发展历程。

阿里云铸「器」

2010年,在遥远的大洋彼岸,几位IT技术男成立了一家名为dotCloud的公司,这家公司主要产品是一个PaaS平台,主要业务是为开发者提供技术服务,不过,在当年巨头环伺的云计算赛道,dotCloud的日子并不好过,直到他们将自己的核心引擎进行开源。

2013年3月,dotCloud创始人Solomon Hykes向全世界宣布开源内部项目Docker,由此也就有了容器技术的十年热潮。

阿里巴巴第一个容器项目始于2011年,当时无论是Docker,还是后来的K8s(Kubernetes)这些国际标准都还在酝酿之中,整个行业尚处于前容器时代,那些具有远见的科技公司在触达容器领域时是完全靠自研,阿里这一年灰度上线的内部代号为T4的产品同样是集成了LXC,并在内核上加入了资源可见性隔离的patch,纯靠自研一手打造的容器项目。

T4项目更多解决的是容器调度问题,也是阿里在容器技术领域的一次技术尝试,阿里云容器服务(ACK)正式公测上线是在2015年年底,彼时阿里云ACK的大规模集群管理、容器集群编排技术已经经过内部业务验证,开始对外提供技术服务。汤志敏告诉至顶网,“在阿里内部,新技术一般都会选择先在核心业务落地,2015年,阿里核心业务已经开始转向容器化部署。”

2019年,CNCF在这年8月发布的调研报告中指出,在生产环境中的云原生应用和项目增长已经超过了200%;来自Gartner的预测数据也显示,到2022年将会有75%的全球化企业在生产中使用容器化应用。也是在这一年的阿里云栖大会上,汤志敏认为,“云原生拐点已至。”

容器技术是云原生的一项核心技术,阿里云的一个判断是,容器 K8s将成为云计算的新界面。正因如此,阿里云在容器技术风起云涌的这些年里,一边积极拥抱K8s,将阿里云容器技术与K8s社区进行整合;一边基于阿里云ACK做全链路优化,在超大规模集群、无损性能、极致弹性、智能运维、安全可信等方面进行深度优化,构建阿里云ACK差异化竞争力。

以极致弹性为例,作为全民级社交媒体平台,微博日活用户已经达到2.5亿,微博每天在做的事情是根据用户兴趣为每个人推送不同的内容,面对突发性新闻事件,微博经常需要应对瞬时流量高峰,这就需要有极致的弹性扩容能力。微博很早就开始拥抱容器技术,而为其提供容器技术支持的正是阿里云ACK,在极致弹性能力上,阿里云ACK能够实现30秒扩容3000Pod,从而保证了微博客户端稳定运行。

实际上,容器技术已经成为当下企业数字化转型的首选底座,阿里云ACK也已经服务了电商、游戏、互娱等一众互联网新兴企业,以及诸多跨国企业。

汤志敏告诉至顶网,“无论是新兴互联网企业,还是传统企业,都在积极拥抱云原生、拥抱容器化。”

企业拥抱容器化

以某电商平台为例,随着近几年电商业务的蓬勃发展,为了支撑这样庞大的业务体系,构建容器化云计算底座就成了一条必由路径。基于阿里云容器服务ACK,将在线业务,大数据、人工智能等新兴业务纷纷转向容器化部署,已经成为互联网企业的常规操作。

为什么会选择容器化业务部署?

汤志敏基于服务不同企业的观察,对此给出了三点解释:

第一,容器化已经成为大势所趋,无论是从人才体系,还是从长期技术发展角度来看,容器化部署业务都是当下最优选项;

第二,容器化部署可以帮助企业实现研发运维标准化,从而降低运维成本,实现企业业务降本增效;

第三,容器技术可以帮助企业充分用好云,在企业数字化转型过程中,如何充分、经济地用好云是一项艰巨的任务,基于容器化部署,可以在资源管理、调度、弹性等方面做到更细粒度,帮助企业实现成本优化。

以智能运维为例,通过应用阿里云ACK的容器AIOps套件、容器智能网络诊断工具Skoop,可以让企业在运维过程中定位一个问题的时间,从之前的数周缩短到当下的几个小时。

由于疫情原因,云上大型体育赛事再次成为全球焦点,而要支撑这样的全球化项目、进行多地域支持,可迁移、可复制、支持跨地域管理的容器技术就成了首选的基础设施。

在过去几年里,阿里云ACK稳定支撑起了多个大型体育赛事的核心业务系统。

票务系统往往是大型体育赛事体验的关键一环,体育赛事场馆闸机数量庞大,相隔较远,借助阿里云边缘容器服务(ACK@Edge)云边一体能力,以及针对边缘场景叠加的边缘自治、单元化部署等能力,可以实现了多地所有赛事场馆票务系统的统一管理和运维。

而新闻发布会平台承接了体育赛事发布会的直播、导播、点播等核心功能。如果基于自建的K8s进行业务部署,往往会在同城容灾、敏捷运维上遇到诸多问题。通过阿里云ACK进行容器化部署后,能够轻松助力云上大型体育赛事实现业务快速上云和迁云,以及同城多数据中心级别的高可用和容灾能力。

一份来自CNCF的调研报告显示,2020年容器技术使用率相较2016年增长了300%,容器技术的规模化商用,一方面加速了企业数字化转型,另一方面也对容器技术提出了新要求。

ACK迈入智能化时代

2020年是容器技术产业应用元年,在之后两年里,容器技术在产业应用上一个明显趋势是:越来越多企业针对自身业务开启了全栈容器化进程。

原来只是简单部署应用,随着企业数字化转型进入深水区,一些企业基于K8s进行的内部功能扩展,进一步增加了K8s master的压力。而云服务底层处理器架构的多样性,也使得基于K8s进行统一调度管理时保障运行的稳定性变得更加复杂。

“如今在稳定性上面临的挑战已经在多层次、全链路出现了一次「大爆炸」。”

为此,阿里云凭借过去十年在容器技术上的积累,再次对阿里云ACK进行了一次全面升级,具体而言:

在全景可观测方面,阿里云ACK支持从应用层、容器层到节点层的全景可观测。全新的Prometheus For ACK Pro将K8s master内部核心组件的监控事件、异常请求通过可交互大盘完全展现出来,避免了以往数据不可观测为企业带来的疑虑,在节点层结合eBPF实现了无侵入式应用监测,并针对高基数长周期的监控查询实现了5倍的性能优化。

在智能运维方面,阿里云ACK容器AIOps套件凭借10年大规模容器运维经验沉淀,自动化诊断能力能够覆盖90%的运维问题。例如企业在业务升级过程中经常遇到的K8s版本较老,基于各种顾虑不敢升级的问题,阿里云ACK可以自动识别出应用是否在使用K8s老版本废弃的API、集群资源是否足够,帮助企业规避升级过程中遇到的风险。

在智能诊断方面,阿里云ACK通过容器智能网络诊断工具Skoop能够帮助企业自动进行网络报文构建,模拟立体网络拓扑,自动分析诊断网络情况并降低网络异常情况。

在数据安全方面,为避免在对数据进行分析、处理、交换时,带来的安全、隐私、合规问题,需要对数据进行加密。业内通常是通过机密计算技术,保证数据在处理过程中始终维持一个加密或隔离的状态,来保证数据的安全和隐私。英特尔的SGX是一个非常成熟的机密计算技术,从2018年开始,阿里云与英特尔合作推出了可信的执行环境,为了进一步普及这项技术,阿里云和蚂蚁金服一起开源了加密计算容器,提升加密计算应用的开发效率,降低使用门槛。

如今,阿里云ACK这些容器智能化工具已经应用于得物、易签宝等诸多企业实际业务中,极大地提升了企业云计算资源利用率、运维效率,成为企业数字化转型过程中降本增效的利器。

在过去十年里,容器技术屏蔽了云计算的底层技术架构,让企业数字化转型过程中能够更快捷实现核心业务上云,大部分企业吃到了第一波数字化红利。汤志敏告诉至顶网,面对当下数字化转型进程,开始出现两类企业:

第一类企业需要易用的面向容器的Serverless底座,他们是容器技术的使用者,对于这些用户而言,底层技术复杂度是不可见的,需要我们不断提升Serverless容器平台的智能化程度,做好企业的稳定的基础技术底座;

第二类企业基于自身业务需求,需要在阿里云ACK上进行更多灵活性的扩展和自定义,我们需要提供更多像全景可观测、容器AIOps套件等工具,帮助企业做好云原生落地。

无论是哪类企业,对于容器技术的智能化需求已经日益加剧。实际上,在成为云计算新界面之后,智能化再次成为容器技术一个重要发展方向,而如今的阿里云ACK,已经走在了这条路上。

文末福利:阿里云资深技术专家汤志敏云原生实战峰会演讲PPT下载链接如下:https://ftps.zhiding.cn/files/3/27793.pdf



从浪潮登顶NuScenes榜首解读自动驾驶AI感知技术的发展

导读:

“自动驾驶是集感知、决策、交互于一体的技术

环境感知能力作为自动驾驶的第一个环节,是车辆与环境交互的纽带

通过“摄像头、毫米波雷达、超声波雷达、激光雷达”等各类传感器设备,感知环境的手段日趋多元化

同时,在平台层面感知决策处理能力的提升,平台算力和感知算法的效率提升和创新,也成为了车企发展智能驾驶能力的关键。

NuScens挑战赛,作为检验感知算法在自动驾驶领域相关任务性能的试金石,自数据集公开以来,吸引了来自全球各地的研究团队的结果提交。

在最新一期所公布的竞赛测评榜单中,全球领先级AI算力基础设施提供商----浪潮信息凭借Inspur-DABNeT4D登顶自动驾驶数据集NuScenes 纯视觉3D目标检测任务榜单,并将关键性指标NuScenes Detection Score(NDS)提高至62.4% 。

除传统的自动驾驶创业公司和造车企业之外,人工智能平台厂商、算力厂商也开始逐步关注和投入自动驾驶的技术研发。那么,未来自动驾驶感知技术究迈向如何的路径发展, 逐步实现大规模的量产落地?

本文试图从浪潮信息在NuScenes榜单上的感知模型解读出发,来一窥自动驾驶的感知技术发展。

从自动驾驶的分级来看,当前的自动驾驶技术,隐隐可以看出2个流派,一个是以直接实现L4级自动驾驶为目标的激进派,一个是从L2级辅助驾驶开始,逐步提升自动驾驶等级的渐进派。但无论是L2级的辅助驾驶还是L4级的自动驾驶,从整体架构上看,都可以大致分为感知、决策和控制3部分。感知是自动驾驶汽车的眼睛,和人类的眼睛为大脑提供了70%以上的信息类似,感知系统也为自动驾驶车辆提供了车辆外部环境信息输入。自动驾驶的感知依赖于各种车载传感器的信息输入,包括摄像头、超声波雷达、毫米波雷达和激光雷达等。其中最核心的就是摄像头和激光雷达。

自动驾驶面对的是一个3维的环境空间,甚至于我们可以说,因为自动驾驶车辆要在环境空间中移动,且环境空间中其他的行人、车辆等也会移动,则可以看作自动驾驶面对的是一个3维空间 1维时间的4维时空体系。自动驾驶车辆需要在三维空间中判断周围的人、车、物的距离远近,在此基础上还要判断他们是静态或者动态的,以及移动的方向和速度等信息,我们一般称之为3D目标检测任务。3D目标检测任务可以看作是自动驾驶中最核心的感知任务。当然,除此之外,其他的感知任务还包括识别红绿灯、交通标识、车道线、斑马线等道路信息。

图 1:3D目标检测示意图, 3D目标被定义为一个长方体,(x,y,z)是长方体的中心坐标,(l,w,h)是长宽高信息,θ是航向角,比如长方体在地平面的偏航角,class是3D目标的类别。vx、vy描述3D目标在地面上沿x轴和y轴方向的速度。

长期以来,激光雷达一直被认为是自动驾驶车辆不可或缺的零部件之一,因为激光雷达能提供对车辆周围环境最精确的三维感知。激光雷达采集的点云信息天然就存储了三维空间信息,因此基于激光点云信息的3D目标检测来说,算法设计就简单了许多,也诞生了一系列的经典模型,比如PointPillar、SECOND、SASSD等等。但是激光雷达的成本问题也成为了自动驾驶落地最大的瓶颈。早期的激光雷达价格,比如激光雷达鼻祖Velodyne推出的高精度激光雷达的价格达到了8万美元。雷达比车贵的现实问题成为了激光雷达上车和量产的最大阻碍。虽然今年随着技术的进步,激光雷达的价格下降明显,但是能满足L4级自动驾驶需求的激光雷达的价格依然偏高。

摄像头是自动驾驶车辆的另外一个非常重要的传感器,因为激光雷达采集的点云信息没有色彩和纹理,因此无法识别对于人类来说可以轻松辨别的红绿灯、交通标识、车道线、斑马线等道路信息。因此还是需要摄像头作为补充。而这又会带来额外的多个模态的信息融合难题。简单来说,激光雷达主要擅长三维空间中的车辆、行人等的三维时空信息感知,而摄像头主要擅长除此之外的红绿灯、车道线等视觉纹理特征比较丰富的信息感知。另外,在量产成本和价格上,摄像头也有无可比拟的优势。比如Tesla搭载的单颗单目摄像头的成本仅为25美元,整车8个摄像头的价格也才200美元。相比于整车价格来说,几乎可以忽略不计。如果仅使用摄像头,在强大AI算法的加持下,就能实现精确的3D目标检测任务,那意味着不使用激光雷达的自动驾驶也不无可能。

在计算机视觉领域,近年诞生了大量的分类、检测、分割模型,比如ResNet、YOLO、Mask RCNN等,这些AI模型已经广泛的应用于安防、交通、以及自动驾驶领域。但有一个核心的问题是,这些模型都是针对2D图像设计的,无法直接适用于3D目标检测任务。基于图像进行3D目标检测的核心问题就是如何精确的估计图像中物体的深度。因为摄像头拍摄的照片和视频是把3D空间投射到了2D平面中,丢失了深度信息,如何对这些深度信息进行还原就是一个机器学习领域所谓的“病态问题”。即,问题的解可能不是唯一的。因此长期以来,基于图像的3D目标检测算法性能一直远低于基于激光雷达的3D目标检测性能。

自从Tesla使用纯摄像头方案的辅助驾驶系统取得一定的成功之后,基于纯视觉的自动驾驶感知方案受到了业界越来越多的关注。同时随着数据、算法、算力等多个方面的进步,纯视觉的自动驾驶感知方案在3D目标检测任务上的性能在最近一年和激光雷达的差距有了明显的改观。

在数据方面,出现了搭载传感器更多,采集时间更长的自动驾驶道路数据集。比如2019年由Motional(由现代汽车集团和Aptiv资成立的一家无人驾驶公司)的团队开发和开源的NuScenes数据集采集于波士顿和新加坡两个城市的实际道路。收集了大约15小时的驾驶数据,精心选择驾驶路线以捕捉具有挑战性的场景数据。数据场景覆盖了城市、住宅区、郊区、工业区各个场景,也涵盖了白天、黑夜、晴天、雨天、多云等不同时段不同天气状况。采集车上配备了完善的传感器,包括了6个相机、1个激光雷达、5个毫米波雷达、以及GPS和IMU,具备360°的视野感知能力。NuScenes数据集是第一个提供自动汽车全套传感器数据的大型数据集。不同传感器在车辆上放置如下图所示。

图 2:NuScenes数据集的采集车安装的传感器位置示意图。搭载了6个相机,1个激光雷达和5个毫米波雷达。

除了NuScenes之外,业界还有Waymo、ONCE等开源数据集。但目前NuScenes是被使用最多的数据集。自公开以来,NuScenes数据集已经被论文引用超2000次。NuScenes挑战赛也成为了检验感知算法在自动驾驶相关任务性能的试金石。吸引了来自全球各地的研究团队的220余次结果提交,不仅有百度、华为、商汤、旷视等知名企业,还涵盖了卡内基梅隆大学、加利福尼亚大学伯克利分校、MIT、清华大学、香港科技大学、上海交通大学、中国科学技术大学等国内外重点高校。近期,鉴智机器人、纵目科技、亿咖通等车企研发团队也出现在了NuScenes的榜单上。

NuScenes数据集提供了包括 3D 目标检测、3D 目标跟踪、预测轨迹 、激光雷达分割、全景分割和跟踪在内的多个评测任务。其中3D目标检测任务的目标是检测NuScenes数据集上的10种不同类别的检测对象,包括标出3D目标框,并且估计相应类别的属性信息和当前的速度信息等。这10种检测对象具体包括汽车、卡车、公交车、行人、摩托车、自行车、锥桶、路障等,检测的信息包括物体的三维位置、大小、方向、速度等。NuScenes 提出了一个综合指标NDS,即NuScenes 检测分数(NuScenes Detection Score, NDS),这个指标由平均精度(mAP)、平均平移误差(ATE)、平均尺度误差(ASE)、平均方向误差(AOE)、平均速度误差(AVE)和平均属性误差(AAE)综合计算得到。

图 3:NuScenes数据集中车身6个摄像头采集画面示意图。

NuScenes提供了一个常年更新的榜单,在纯视觉 3D目标检测任务榜单[1]上,目前一共有50次提交,其中大多数的提交发生在2022年。目前排名第一的是浪潮信息的AI团队在22年10月提交的DABNet4D算法,实现了综合检测精度NDS 0.624的检测效果。而在2022年初排名第一的BEV3D算法的NDS精度是0.474。也就是说在不到一年的时间内,NuScenes 纯视觉3D目标检测的NDS指标提升了15个点。相比之下,基于激光雷达的3D目标检测精度,仅从年初的0.685提升到0.728,提升约4个点。而基于纯视觉算法和激光雷达算法的精度差距也从年初的45%缩小到17%。这主要得益于纯视觉3D检测算法优化带来的性能提升。

图 4:NuScenes评测榜单截图。

浪潮此次所提交的算法DABNet4D是Depth-awared BEVNet 4D的缩写,即深度感知的四维鸟瞰图(bird’s eye view, BEV)神经网络。其核心思想就是构建了鸟瞰图(BEV)神经网络,并使用了时空融合的4D感知和深度预测优化。由于单个摄像头的视角有限,仅使用单个摄像头很难实现对车身周围360度的感知。前期自动驾驶算法模型一般是基于车身不同位置的摄像头分别进行环境感知,然后进行融合。但是这一方案存在一些潜在的问题,比如对于像大卡车这类比较大的车辆挨着自动驾驶车辆时,会在自动驾驶车辆的多个摄像头中出现卡车的不同部位,会导致算法出现错误检测和漏检的情况。最近融合模型架构,通过先对不同摄像头或其他传感器的信息进行融合,然后在一个统一的融合的空间进行3D目标感知和检测,能够有效的解决这些问题,是目前感知技术发展的一大趋势。

图 5:把不同视角的图像转换到统一的鸟瞰图(BEV)视角空间。

所谓鸟瞰图,就是从天空俯视自动驾驶车辆及其周围环境,也就是所谓的上帝视角。自动驾驶车辆的摄像头都是水平视角,如果把不同水平视角的图像融合成一个统一的以自动驾驶车辆为中心的俯视视角的特征图,那么就可以提供最清晰和完整的自动驾驶车辆周围环境空间的视觉表征,从而也就方便从这统一的视觉表征中进行3D目标检测以及其他的检测、分类、分割等视觉感知任务。但是,如何基于AI算法构建这统一鸟瞰图视觉表征是一个很大的挑战。

图 6:多相机融合算法架构图。先使用特征提取神经网络对不同视角的图像进行特征提取,并融合到统一的BEV空间,并基于统一BEV空间进行障碍物检测、车道线检测和道路检测等检测任务。

在2022年初,浪潮团队构建了一个基于Transformer架构的多视角特征融合模型CBTR。CBTR以经过卷积神经网络提取的图像特征作为输入,并经过标准Transformer架构的特征融合和特征变换,实现了高效稳定的BEV特征输出。以CBTR构建的BEV特征为基础,团队在NuScenes数据集上实现了在精度和速度上都最优的车道线检测算法。相关成果发表在CVPR 2022 WAD上。在DABNet4D中,团队进一步优化了BEV特征的提取网络,以实现更好的特征提取效果。

图 7:浪潮团队研发的基于Transformer架构的多视角特征融合模型CBTR的架构图。

考虑到车辆所处的环境是一个动态变化的三维空间,引入历史空间数据对于目标的速度和方向的预测将会有比较大的帮助。为了进一步引入车辆所处的动态环境中的历史信息,浪潮团队基于NuScenes中的多帧数据,分别进行BEV特征提取,并使用专门的特征融合模块对时序的特征进行融合,构建了MASTER(Multi-camerA Spatial and Temporal feature ExtractoR,多相机时空特征提取器)算法。2022年7月,团队在NuScenes榜单提交了MASTERv2版本的3D目标检测结果,实现了NDS 0.576的检测精度。位列当前同类型算法第一。

在此基础上,如何进一步提高纯视觉3D目标检测的精度,其核心还是进一步优化模型的深度估计性能。在MASTER算法的基础上,团队进一步引入了深度估计网络,来强化模型的深度感知性能。最终的完整网络架构如下图所示。

图 8:浪潮团队研发的DABNet4D模型架构图。

除此之外,多种数据增强算法的应用,也对DABNet4D的性能提升有比较大的帮助,这主要是因为虽然NuScenes数据集在目前开源的自动驾驶测评数据集中,已经算是比较大的规模,但是其相对于真实的自动驾驶场景来说,数据集的规模还是比较有限,比如有的目标检测类别,在整个数据集中,只出现了很少的次数。这种不同类别目标在数据集中的不均衡性,对于模型整体检测效果的提升,有较大的不利影响。因此DABNet4D使用了图像数据增强、BEV特征增强和样本贴图增强等多尺度的数据增强技术,来提升模型的检测效果。

在此基础上,使用性能更优的特征提取网络对于整体的性能提升也有一定的帮助。团队测试了EfficientNet系列、Swin Transformer系列、ConvNeXt系列等多个典型的视觉特征提取网络,并最终选用了ConvNeXt网络架构以期获得最佳的特征提取性能。

在集合了上述算法和工程化方法上的创新之后,DABNet4D最终实现了NuScenes评测榜单上当前业界最佳的纯视觉3D目标检测精度。

需要提到的是,完善的算力基础设施也在这一工作过程中起到了举足轻重的作用。和训练2D目标检测模型比如YOLO系列相比,DABNet4D的训练需要更多的算力以及更好的算力平台支撑。

本次构建的DABNet4D-tiny和DABNet4D-base两个模型,其参数量分别是59.1M和166.6M。虽然参数量不是特别大,但是由于使用的输入数据分辨率达到了1600x900,远大于ImageNet、COCO等数据集训练2D目标检测网络的图片尺寸,这意味着模型训练过程中的特征图输出也会大很多,从而需要更多的显存空间来存储。与此同时,多相机视角的引入以及时序数据的引入,意味着模型训练需要更大的批尺寸。举例来说,NuScenes数据集有6个相机,如果仅使用连续3帧的时序数据,也意味着模型的输入批尺寸是18。这进一步增大了对训练设备的显存需求。实际上,浪潮团队训练模型使用的是搭载了NVIDIA Ampere 架构40GB和80GB显存的多台5488A5 GPU服务器平台。其中GPU之间使用了NV-Switch全互联架构,来满足模型训练的高显存需求,以及模型并行训练的高通信带宽需求。除此之外,服务器上部署的AISTATION资源管理系统,对于整个任务中的资源管理和分布式训练优化,对于整个模型训练的效率提升,也起到了很大的帮助。

另外,数据的丰富程度对于纯视觉3D目标检测模型的感知性能提升作用明显。这也是为什么在DABNet4D的优化过程中,团队使用了较多的数据增强算法。因为相对于真实的自动驾驶场景和数据集来说,NuScenes数据集的规模还是太小了。比如公开资料表明,Tesla 训练其FSD自动驾驶系统使用了 100万的 8-camera 36fps 10-second videos作为训练数据,其规模远大于NuScenes数据集。DABNet4D使用了大约2000 GPU hours。做同比换算的话,Tesla的FSD的训练需求大约是316 台5488A5服务器训练约1周的时间。其计算需求之大,可见一斑。

在自动驾驶落地的产业化进程中,感知技术作为自动驾驶的核心技术模块,既是起点也是基石。而未来,面向自动驾驶感知算法的研发,也将会投入更为强大的人工智能计算平台予以支撑。作为全球领先的算力提供商,浪潮信息始终践行多角度切入,发挥融合算力、算法等全栈解决方案能力优势,推动自动驾驶领域的技术创新型发展。从NuScenes榜单技术的快速迭代来看,我们有理由相信,随着算力、算法的持续型突破,自动驾驶产业化落地进程也将多一层“腾飞动力之源”。

    https://www.nuscenes.org/object-detection?externalData=no&mapData=no&modalities=Camera ↑

数智融合时代,联想凌拓提出数矩觉醒能力立方战略

当前,我们已经开启并步入到了数智融合新时代,于此同时数据智能管理面临三大挑战,包括随着数据量飞速增长,数据规模空前庞大;数据利用率偏低,成为限制数据价值发挥的重要因素以及充分发挥数据价值,真正实现从数据资源化到数据资产化的跃升,需要全面提升数据存储能力、数据洞察能力、数据流动能力以及数据管理能力。面对三大挑战,数矩觉醒DATA FABRIC INSIGHT-联想凌拓全新一代存储系列产品发布会举办,为数智融合时代新挑战提出自己的解题思路。

联想凌拓提出数矩觉醒双轮驱动的“能力立方”战略

在发布会上,联想凌拓提出数矩觉醒双轮驱动的“能力立方”战略来应对新的挑战。联想凌拓首席执行官陆大昕表示研发和服务两大基础能力是联想凌拓生存与发展的基石,同时也是联想凌拓获取进一步发展的动力核心与源泉。两大基础能力相互作用,产生源源不断的动力,驱动产品技术不断创新,我们称之为产品驱动。与之相对应的,创新的产品在助力客户应对更为复杂的任务时,表现将更加游刃有余。我们称之为业务驱动。联想凌拓通过双轮驱动效应,不断收集、整理、归纳客户需求,通过研发及服务的共同助力,不断迭代出更加满足客户需求的产品与技术,来为客户提供端到端的服务,基于客户业务痛点,部署整体解决方案。

一直以来,联想凌拓业务推进有三个重点方向,分别是:自研产品;承袭于母公司的产品和技术;以及云服务相关的产品和技术。研发与服务两大基础能力,将直接或间接地赋能这三个主要业务方向。具体表现在,自研产品方面,立足于自主知识产权和自主核心技术,为客户提供全栈式客户支持。承袭产品方面,进行完善的本土化,并针对中国市场进行服务优化。在云服务方面,进行深化的服务构建,并逐步落地服务运营。

基于研发与服务两大能力核心,践行全方位赋能策略,以自身能力的提高为根本,以助力客户成功为己任,联想凌拓将开启全新征程,不断超越自我!

在数据管理产品方面,联想凌拓作为这一领域的提供商,以Data Fabric为核心,聚焦技术创新;通过本地研发资源,不断优化自研产品;深入探索云及软件前沿的战略。秉承这一核心策略,联想凌拓此次推出了企业级闪存存储系统ThinkSystem DE 6400/6600系列、升级并优化全自研MagnaScale 数据管理平台、以及与全球云计算的开创者和引领者亚马逊云科技强强联手,为更多企业提供创新的云端存储与数据管理服务。

聚焦NVMe潜能,推出企业级闪存存储系统ThinkSystem DE 6400/6600系列

联想凌拓产品管理与营销高级总监林佑声分享了新产品的具体特性。此次推出的联想凌拓企业级闪存存储系统ThinkSystem DE 6400/6600系列首次在入门级DE系列存储中提供NVMe解决方案。基于DE系列存储稳定、高效等特性,加上NVMe闪存系统的性能加持,ThinkSystem DE 6400/6600为更高要求的工作负载提供了更为出色的性能与可靠性,同时兼顾经济性帮助客户降低总体拥有成本、提升存储管理使用效率。

具体而言,在性能方面,ThinkSystem DE 6400/6600的性能相较于上一代产品实现了两倍优化,在企业级存储关键指标IOPS及延迟性方面,可达到2M IOPS以及毫秒级的延迟;在存储协议类型方面,支持更丰富的存储接口类型,其中包括100Gb~200Gb NVMe/IB, NVMe/RoCE 100Gb iSER/IB, SRP/IB /32 Gb NVMe/FC/32Gb FC /25Gb iSCSI等;在扩展性方面,支持2U12、2U24、4U60三款规格的SAS 扩展柜,满足不同类型的客户对于数据存储与管理要求。此外,针对ThinkSystem DE6400/6600系列产品的保障服务,联想凌拓也进行了优化升级,其中包括将服务响应标准提升至3年*7*24*4,及无忧安装服务,且所有服务支持将由原厂专业工程师提供。

一系列参数的优化与性能的提升使得ThinkSystem DE 6400/6600系列能够更加从容地应对企业在数据管理中具有挑战性的工作,尤其是在高性能计算、人工智能等领域,产品在通过NVMe确保存储性能的同时利用SAS扩展柜确保最大可用容量,在存储端,给予了需要InfiniBand及应用并行文件系统环境下复杂工作负载的有力支持。

全新升级MagnaScale 数据管理平台实现广泛部署

MagnaScale数据管理平台基于云原生系统要求设计和开发,提供了高性能、高可靠性、高可扩展性和强大的生态适应能力,同时兼顾容量灵活配置,按需部署,随时扩展,可以保证在超大规模文件存储应用环境中,应对数据管理的各项挑战。此次新升级的MagnaScale 数据管理平台在原有性能基础上实现了进一步升级,可广泛部署在联想凌拓自研ThinkSystem DXN 企业级分布式软件定义存储系统中。

相较于上一版本,升级后的MagnaScale数据管理平台更是加强了用户体验,在常见分布式存储产品中遇到的文件创建和删除缓慢等问题上进行了深度优化,在分钟级内就能帮助客户完成了百万级文件的创建和删除。

在功能上,MagnaScale数据管理平台更是进一步优化了 S3 对象存储能力,传统对象存储系统中小对象的处理是个难题,空间利用率低,性能差,对此,MagnaScale 数据管理平台提供了小对象在线聚合能力,不但优化了存储空间,更是将小对象处理的性能提升了3倍以上;同时,客户也可以通过对象多版本、生命周期管理、对象ACL、配额、对象策略、元数据搜索等等一系列功能实现数据的更加精细化管理,新升级的MagnaScale数据管理平台是支持快速增长的非结构化数据的优秀选择,它具有可扩展性、灵活性、云存储兼容性、健壮的元数据,并且帮助用户节约大量成本

携手亚马逊云科技为云端数据添活力

联想凌拓持续探索云及软件的前沿技术应用,联想凌拓携手亚马逊云科技创新的将云存储与自有数据中心无缝连接,为用户提供云上、云下、云间协同的便利体验。通过双方的深度合作,为用户提供安全、经验证的,具备ONTAP全部功能的统一云存储服务,将数据控制、重复数据删除和数据压缩等企业级存储功能与云平台弹性资源的供给集于一体,最大限度提升存储效率和发挥创新型云服务在数据管理方面的优势,满足云环境下数据访问及资产管理的需要,帮助用户应对广泛的工作负载。

可以看到联想凌拓全新升级的系列产品与服务将为更高要求的工作负载带来一系列性能的提升,以及更加灵活广泛的产品部署,赋能千行百业与新场景、新赛道融合。凭借传统存储到软件定义,再到云的完整产品布局,联想凌拓将持续为中国企业塑造创新驱动的发展新动能新优势,助力企业在数字化道路上勇毅前行,以数字动能推进数字中国建设。

2022年呼吸科领域万篇论文大数据分析:40本投稿期刊、研究热点等

根据pubmed检索,2000年以来,呼吸科(关键词:Pulmonology or Respiratory)领域相关研究共发表754,611篇(统计时间2022/12/28),从2016年起年发表量超过2万篇,近三年平均每年发表呼吸科相关研究超过8-9万篇。

我们根据呼吸科科最新发表的近10000篇论文(N=8954)进行大数据分析,其中包括2021(1篇)、2022(8,489篇)、2023(464篇)。

01.2022年呼吸科领域发文·全球大数据分析

2022年,呼吸科领域最新发表的近10000篇论文中:

①发表数量TOP5的国家分别为:美国、中国、日本、意大利和印度。

②发表数量TOP5的科研机构为:首都医科大学(57)、四川大学(42)、广州医科大学附属第一医院(33)、浙江大学(29)、华中科技大学(28)。

发表数量TOP5的医院为:华西医院(41)、梅奥诊所(35)、广州医科大学附属第一医院(33)、上海肺科医院(27)、北京协和医院(20)。

③总影响因子TOP5的科研机构为:牛津大学(716.2)、伦敦大学学院(409.8)、四川大学(351.6)、Fondazione Policlinico Universitario A (324.9)、广州医科大学附属第一医院(263.7)。

总影响因子TOP5的医院为:华西医院(312.5)、Massachusetts General Hospital (281.5)、广州医科大学附属第一医院(263.7)、梅奥诊所(207.0)、上海肺科医院(193.1).

02.2022年呼吸科领域发文·研究热点基因和疾病

2022年,呼吸科领域最新发表的近10000篇论文中,

研究的热点基因TOP5为:ACE2、EGFR、MTOR、PICS、NLRP3;

研究的热点疾病TOP5为:新冠肺炎、肺癌、哮喘、肺结核和睡眠。

03.2022年呼吸科领域发文·40本投稿期刊分析

每一位作者投稿及选择期刊时,都需要考虑到各种因素,比较常见的关注点如:期刊研究范畴,影响因子,分区等,在发表时间比较紧张时,期刊的稿件接收周期也是影响期刊选择的关键因素之一。

2022年,呼吸科领域最新发表的近10000篇论文中,我们根据期刊发表量、分区、影响因子、审稿周期、审稿周期标准差、用来统计的论文样本量进行分析。

01.全球数据分析

表格注释:

标记为红色的期刊为发表呼吸科领域SCI研究数量最多的期刊;

标记为绿色的期刊为发表呼吸科领域SCI研究审稿周期较快的期刊;

IF = 0,表示该期刊尚未被SCI收录。

02.国人数据分析

2022年以来,国人在呼吸科领域最新发表的近10000篇论文中,我们根据期刊发表量、分区、影响因子、审稿周期、审稿周期标准差、用来统计的论文样本量进行分析。

Frontiers系列期刊依然是国人最热衷投稿的期刊,在期刊前十名中有8本便是:Front Immunol (IF=8.8) 、Front Oncol (IF=5.7) 、Front Pharmacol (IF=6) 、Front Med (Lausanne) (IF=5.1) 、Medicine (Baltimore) (IF=1.8) 、Front Public Health (IF=6.5) 、Front Microbiol (IF=6.1) 、Front Cardiovasc Med (IF=5.8) 、Evid Based Complement Alternat Med (IF=2.7)、 Front Cell Infect Microbiol (IF=6.1)

好消息:

Hiplot官网又更新啦,新增【期刊查询】云工具

step1:进入网址https://hiplot.com.cn,点击云工具

step2:点击【期刊查询】

step3:右侧输入期刊名称,点击提交,即可获得期刊详情

— END —

2019年,科研猫团队发起Hiplot项目。科研猫与多方共建的学术版Hiplot,相关成果发表在Briefings in Bioinformatics杂志;为深度优化用户体验、扩展平台功能,科研猫于2022年11月正式上线Hiplot Pro,全线197个绘图和分析工具,永久免费。网址:https://hiplot.com.cn/

图像预处理库CV-CUDA开源了,打破瓶颈,提升推理吞吐量20多倍

机器之心原创

作者:思

当 CPU 图像预处理成为视觉任务的瓶颈,最新开源的CV-CUDA,将为图像预处理算子提速百倍。

在如今信息化时代中,图像或者说视觉内容早已成为日常生活中承载信息最主要的载体,深度学习模型凭借着对视觉内容强大的理解能力,能对其进行各种处理与优化。

然而在以往的视觉模型开发与应用中,我们更关注模型本身的优化,提升其速度与效果。相反,对于图像的预处理与后处理阶段,很少认真思考如何去优化它们。所以,当模型计算效率越来越高,反观图像的预处理与后处理,没想到它们竟成了整个图像任务的瓶颈。

为了解决这样的瓶颈,NVIDIA 携手字节跳动机器学习团队开源众多图像预处理算子库CV-CUDA,它们能高效地运行在 GPU 上,算子速度能达到 OpenCV(运行在 CPU)的百倍左右。如果我们使用 CV-CUDA 作为后端替换OpenCV 和 TorchVision,整个推理的吞吐量能达到原来的二十多倍。此外,不仅是速度的提升,同时在效果上 CV-CUDA 在计算精度上已经对齐了OpenCV,因此训练推理能无缝衔接,大大降低工程师的工作量。

以图像背景模糊算法为例,将CV-CUDA替换 OpenCV作为图像预/后处理的后端,整个推理过程吞吐量能加20 多倍。

如果小伙伴们想试试更快、更好用的视觉预处理库,可以试试这一开源工具。

图像预/后处理已成为 CV 瓶颈

很多涉及到工程与产品的算法工程师都知道,虽然我们常常只讨论模型结构和训练任务这类「前沿研究」,但实际要做成一个可靠的产品,中间会遇到很多工程问题,反而模型训练是最轻松的一环了。

图像预处理就是这样的工程难题,我们也许在实验或者训练中只是简单地调用一些API 对图像进行几何变换、滤波、色彩变换等等,很可能并不是特别在意。但是当我们重新思考整个推理流程时会发现,图像预处理已经成为了性能瓶颈,尤其是对于预处理过程复杂的视觉任务。

这样的性能瓶颈,主要体现在 CPU 上。一般而言,对于常规的图像处理流程,我们都会先在CPU 上进行预处理,再放到 GPU 运行模型,最后又会回到 CPU,并可能需要做一些后处理。

以图像背景模糊算法为例,常规的图像处理流程中预后处理主要在 CPU 完成,占据整体 90% 的工作负载,其已经成为该任务的瓶颈。

因此对于视频应用,或者 3D 图像建模等复杂场景,因为图像帧的数量或者图像信息足够大,预处理过程足够复杂,并且延迟要求足够低,优化预/后处理算子就已经迫在眉睫了。一个更好地做法,当然是替换掉 OpenCV,使用更快的解决方案。

为什么 OpenCV 仍不够好?

在 CV 中,应用最广泛的图像处理库当然就是长久维护的OpenCV 了,它拥有非常广泛的图像处理操作,基本能满足各种视觉任务的预/后处理所需。但是随着图像任务负载的加大,它的速度已经有点慢慢跟不上了,因为OpenCV 绝大多数图像操作都是 CPU 实现,缺少 GPU 实现,或者 GPU 实现本来就存在一些问题。

在NVIDIA与字节跳动算法同学的研发经验中,他们发现OpenCV 中那些少数有 GPU 实现的算子存在三大问题:

    部分算子的 CPU 和 GPU 结果精度无法对齐;

    部分算子 GPU 性能比 CPU 性能还弱;

    同时存在各种CPU算子与各种 GPU 算子,当处理流程需要同时使用两种,就额外增加了内存与显存中的空间申请与数据迁移/数据拷贝;

比如说第一个问题结果精度无法对齐,NVIDIA与字节跳动算法同学会发现,当我们在训练时OpenCV 某个算子使用了 CPU,但是推理阶段考虑到性能问题,换而使用OpenCV对应的GPU 算子,也许CPU 和 GPU 结果精度无法对齐,导致整个推理过程出现精度上的异常。当出现这样的问题,要么换回 CPU 实现,要么需要费很多精力才有可能重新对齐精度,是个不好处理的难题。

既然 OpenCV 仍不够好,可能有读者会问,那Torchvision 呢?它其实会面临和 OpenCV 一样的问题,除此之外,工程师部署模型为了效率更可能使用 C 实现推理过程,因此将没办法使用Torchvision而需要转向 OpenCV 这样的 C 视觉库,这不就带来了另一个难题:对齐Torchvision与OpenCV的精度。

总的来说,目前视觉任务在 CPU 上的预/后处理已经成为了瓶颈,然而当前OpenCV 之类的传统工具也没办法很好地处理。因此,将操作迁移到GPU 上,完全基于CUDA实现的高效图像处理算子库 CV-CUDA,就成为了新的解决方案。

完全在 GPU 上进行预处理与后处理,将大大降低图像处理部分的CPU 瓶颈。

GPU 图像处理加速库: CV-CUDA

作为基于 CUDA 的预/后处理算子库,算法工程师可能最期待的是三点:足够快、足够通用、足够易用。NVIDIA 和字节跳动的机器学习团队联合开发的 CV-CUDA 正好能满足这三点,利用 GPU 并行计算能力提升算子速度,对齐OpenCV 操作结果足够通用,对接 C /Python 接口足够易用。

CV-CUDA的速度

CV-CUDA的快,首先体现在高效的算子实现,毕竟是NVIDIA 写的,CUDA 并行计算代码肯定经过大量的优化的。其次是它支持批量操作,这就能充分利用GPU设备的计算能力,相比 CPU 上一张张图像串行执行,批量操作肯定是要快很多的。最后,还得益于CV-CUDA 适配的 Volta、Turing、Ampere 等 GPU 架构,在各 GPU 的 CUDA kernel 层面进行了性能上的高度优化,从而获得最好的效果。也就是说,用的 GPU 卡越好,其加速能力越夸张。

正如前文的背景模糊吞吐量加速比图,如果采用CV-CUDA 替代 OpenCV 和 TorchVision 的前后处理后,整个推理流程的吞吐率提升20 多倍。其中预处理对图像做 Resize、Padding、Image2Tensor 等操作,后处理对预测结果做的Tensor2Mask、Crop、Resize、Denoise 等操作。

在同一个计算节点上(2x Intel XeonPlatinum 8168 CPUs,1x NVIDIA A100 GPU),以 30fps 的帧率处理 1080p 视频,采用不同 CV 库所能支持的最大的并行流数。测试采用了 4 个进程,每个进程 BatchSize 为 64。

对于单个算子的性能,NVIDIA和字节跳动的小伙伴也做了性能测试,很多算子在GPU 上的吞吐量能达到 CPU 的百倍。

图片大小为 480*360,CPU 选择为 Intel(R) Core(TM)i9-7900X,BatchSize 大小为 1,进程数为 1

尽管预/后处理算子很多都不是单纯的矩阵乘法等运算,为了达到上述高效的性能,CV-CUDA 其实做了很多算子层面的优化。例如采用大量的 kernel 融合策略,减少了 kernel launch 和 global memory 的访问时间;优化访存以提升数据读写效率;所有算子均采用异步处理的方式,以减少同步等待的耗时等等。

CV-CUDA的通用与灵活

运算结果的稳定,对于实际的工程可太重要了,就比如常见的 Resize 操作,OpenCV、OpenCV-gpu 以及 Torchvision 的实现方式都不一样,那从训练到部署,就会多很多工作量以对齐结果。

CV-CUDA在设计之初,就考虑到当前图像处理库中,很多工程师习惯使用 OpenCV 的 CPU 版本,因此在设计算子时,不管是函数参数还是图像处理结果上,尽可能对齐 OpenCV CPU 版本的算子。因此从OpenCV 迁移到 CV-CUDA,只需要少量改动就能获得一致的运算结果,模型也就不必要重新训练。

此外,CV-CUDA是从算子层面设计的,因此不论模型的预/后处理流程是什么样的,其都能自由组合,具有很高的灵活性。

字节跳动机器学习团队表示,在企业内部训练的模型多,需要的预处理逻辑也多种多样有许多定制的预处理逻辑需求。CV-CUDA 的灵活性能保证每个 OP 都支持 stream 对象和显存对象(Buffer和Tensor类,内部存储了显存指针)的传入,从而能更加灵活地配置相应的 GPU 资源。每个 op 设计开发时,既兼顾了通用性,也能按需提供定制化接口,能够覆盖图片类预处理的各种需求。

CV-CUDA的易用

可能很多工程师会想着,CV-CUDA 涉及到底层 CUDA 算子,那用起来应该比较费劲?但其实不然,即使不依赖更上层的 API,CV-CUDA本身底层也会提供 Image 等结构体,提供Allocator 类,这样在 C 上调起来也不麻烦。此外,往更上层,CV-CUDA 提供了 Pytorch、OpenCV 和 Pillow 的数据转化接口,工程师能快速地以之前熟悉的方式进行算子替换与调用。

此外,因为CV-CUDA同时拥有 C 接口与 Python 接口,它能同时用于训练与服务部署场景,在训练时用Python 接口跟快速地验证模型能力,在部署时利用C 接口进行更高效地预测。CV-CUDA免于繁琐的预处理结果对齐过程,提高了整体流程的效率。

CV-CUDA进行 Resize 的 C 接口

实战,CV-CUDA怎么用

如果我们在训练过程中使用CV-CUDA的 Python 接口,那其实使用起来就会很简单,只需要简单几步就能将原本在 CPU 上的预处理操作都迁移到 GPU 上。

以图片分类为例,基本上我们在预处理阶段需要将图片解码为张量,并进行裁切以符合模型输入大小,裁切完后还要将像素值转化为浮点数据类型并做归一化,之后传到深度学习模型就能进行前向传播了。下面我们将从一些简单的代码块,体验一下CV-CUDA 是如何对图片进行预处理,如何与Pytorch进行交互。

常规图像识别的预处理流程,使用CV-CUDA将会把预处理过程与模型计算都统一放在GPU 上运行。

如下在使用 torchvision 的 API 加载图片到 GPU之后,Torch Tensor 类型能直接通过 as_tensor 转化为CV-CUDA 对象 nvcvInputTensor,这样就能直接调用CV-CUDA 预处理操作的 API,在 GPU 中完成对图像的各种变换。

如下几行代码将借助 CV-CUDA 在 GPU 中完成图像识别的预处理过程:裁剪图像并对像素进行归一化。其中resize() 将图像张量转化为模型的输入张量尺寸;convertto()将像素值转化为单精度浮点值;normalize()将归一化像素值,以令取值范围更适合模型进行训练。

CV-CUDA 各种预处理操作的使用与 OpenCV 或 Torchvision中的不会有太大区别,只不过简单调个方法,其背后就已经在 GPU 上完成运算了。

现在借助借助 CV-CUDA 的各种 API,图像分类任务的预处理已经都做完了,其能高效地在GPU 上完成并行计算,并很方便地融合到PyTorch 这类主流深度学习框架的建模流程中。剩下的,只需要将CV-CUDA对象nvcvPreprocessedTensor 转化为Torch Tensor 类型就能馈送到模型了,这一步同样很简单,转换只需一行代码:

通过这个简单的例子,很容易发现CV-CUDA 确实很容易就嵌入到正常的模型训练逻辑中。如果读者希望了解更多的使用细节,还是可以查阅前文CV-CUDA的开源地址。

CV-CUDA对实际业务的提升

CV-CUDA实际上已经经过了实际业务上的检验。在视觉任务,尤其是图像有比较复杂的预处理过程的任务,利用 GPU 庞大的算力进行预处理,能有效提神模型训练与推理的效率。CV-CUDA 目前在抖音集团内部的多个线上线下场景得到了应用,比如搜索多模态,图片分类等。

字节跳动机器学习团队表示,CV-CUDA 在内部的使用能显著提升训练与推理的性能。例如在训练方面,字节跳动一个视频相关的多模态任务,其预处理部分既有多帧视频的解码,也有很多的数据增强,导致这部分逻辑很复杂。复杂的预处理逻辑导致 CPU 多核性能在训练时仍然跟不上,因此采用CV-CUDA将所有 CPU 上的预处理逻辑迁移到 GPU,整体训练速度上获得了 90%的加速。注意这可是整体训练速度上的提升,而不只是预处理部分的提速。

在字节跳动 OCR 与视频多模态任务上,通过使用CV-CUDA,整体训练速度能提升 1 到 2 倍(注意:是模型整体训练速度的提升)

在推理过程也一样,字节跳动机器学习团队表示,在一个搜索多模态任务中使用 CV-CUDA 后,整体的上线吞吐量相比于用 CPU 做预处理时有了 2 倍多的提升。值得注意的是,这里的 CPU基线结果本来就经过多核高度优化,并且该任务涉及到的预处理逻辑较简单,但使用 CV-CUDA 之后加速效果依然非常明显。

速度上足够高效以打破视觉任务中的预处理瓶颈,再加上使用也简单灵活,CV-CUDA 已经证明了在实际应用场景中能很大程度地提升模型推理与训练效果,所以要是读者们的视觉任务同样受限于预处理效率,那就试试最新开源的CV-CUDA吧。

  • 最新游戏
  • 发表评论
手游排行 新游中心 热门专区 手机软件APP下载
网游排行榜 游戏攻略 网游下载 安卓软件APP下载
单机排行榜 手游礼包 单机下载 苹果ios应用下载
安卓排行榜 新游视频 手游下载
苹果排行榜