想象一下,你正在智能手机上编辑视频,需要为其添加合适的音效;或是你想要生成自定义声音,用于设置铃声、闹钟或发布社交媒体帖子。你无需在网上搜索或购买音频片段,只需输入一段描述,例如“日落时的轻柔海浪声”,几秒钟后,你的设备就会为你生成合适的声音,甚至无需联网就可实现。得益于Arm和Stability AI的新合作,这种完全在端侧直接生成音频的技术已变为现实。
Arm与Stability AI携手合作,加快文本转音频的响应速度
Stability AI是一家专注于图像、视频、3D和音频领域人工智能(AI)模型开发的公司。而Arm KleidiAI能够提供专门针对Arm CPU的经优化的性能关键例程(即微内核)。通过KleidiAI与XNNPack库和ExecuTorch框架的集成,以及Stability AI自身的优化,为Stability AI的文本转音频开放模型“Stable Audio Open”带来了显著的AI性能提升。
令人惊叹的结果包括文本转音频的AI生成时间从几分钟大幅缩短至几秒钟,响应速度提高了30倍。Stable Audio Open模型完全在基于Arm CPU的智能手机上运行,且无需联网,对于文本转音频AI来说是首创之举。
Stability AI利用KleidiAI自动加速功能,加快模型的响应速度,从而在不影响质量的情况下提升了端侧AI性能。KleidiAI带来的性能提升,无需Stable Audio Open模型用户额外投入开发精力,节省了时间和成本。Arm和Stability AI将继续合作,以实现更多性能的跃升,带来更为出色的AI用户体验。
显著的性能提升表明,具有针对性的硬件和软件集成,使过往无法实现的AI应用在移动端变得可行,从而推动了未来的创新机遇。Arm技术驱动了全球99%的智能手机,这也意味着数十亿智能手机用户现可取得先进的AI音频功能。
共同应对复杂的AI挑战
Stable Audio Open模型具备出色的效率,但在智能手机的CPU上直接由端侧运行该模型仍非易事。在初期尝试时,单个音频样本的生成时间超过四分钟,这对终端用户而言不太能接受。
通过与Arm合作,Stability AI将模型的训练参数量蒸馏到适合移动端的规模。然后,通过新的蒸馏模型,并利用XNNPack与ExecuTorch集成带来的KleidiAI性能加速,实现了在移动端Arm CPU上几秒内就生成音频片段。
Stability AI首席执行官Prem Akkaraju表示:“随着越来越多的专业创意工作者和企业采用生成式AI来帮助提升其生产流程,我们的模型和工作流必须随处可得,以供构建者和创作者使用,这一点至关重要。我们很高兴能就此与Arm合作。从服务器到智能手机,Arm平台在整个生态系统中应用普及,并且Arm通过将Arm Kleidi集成到软件栈中,致力于加速各类主流框架中的AI模型,因此Arm是我们的不二之选。”
文本转音频AI的兴起
自2022年以来,Stability AI始终立于生成式AI发展的前沿,曾凭借行业领先的图像模型Stable Diffusion引起轰动。依托Stable Diffusion的成功,该公司随后推出了Stable Audio,这是首个完全获得授权的音频模型之一,专为通过文本提示词生成高质量的音乐和音效而设计。这些AI模型在Hugging Face等主要平台上均排名前茅,拥有多达数百万规模的用户数,构成了一个活跃的技术社区。
人人皆可享先进的音频AI体验
这一成果仅仅只是双方合作的开始,Arm和Stability AI已规划了更多的性能优化举措,旨在为用户带来更加出色的使用体验。通过携手合作,Arm正在为音频、图像、视频和3D领域的端侧AI打好基础,重塑每个人创作内容和与数字媒体互动的方式。通过蒸馏先进的模型并利用经过优化的软件,部署到人们常用的硬件设备上,从而为未来铺平道路,实现人人都能通过口袋里的设备直接享受先进的AI应用、模型和体验。