Arm 携手 Stability AI通过 Arm Kleidi 实现端侧音频生成速度 30 倍提升

想象一下，你正在智能手机上编辑视频，需要为其添加合适的音效；或是你想要生成自定义声音，用于设置铃声、闹钟或发布社交媒体帖子。你无需在网上搜索或购买音频片段，只需输入一段描述，例如“日落时的轻柔海浪声”，几秒钟后，你的设备就会为你生成合适的声音，甚至无需联网就可实现。得益于Arm和Stability AI的新合作，这种完全在端侧直接生成音频的技术已变为现实。

Arm与Stability AI携手合作，加快文本转音频的响应速度

Stability AI是一家专注于图像、视频、3D和音频领域人工智能(AI)模型开发的公司。而Arm KleidiAI能够提供专门针对Arm CPU的经优化的性能关键例程（即微内核）。通过KleidiAI与XNNPack库和ExecuTorch框架的集成，以及Stability AI自身的优化，为Stability AI的文本转音频开放模型“Stable Audio Open”带来了显著的AI性能提升。

令人惊叹的结果包括文本转音频的AI生成时间从几分钟大幅缩短至几秒钟，响应速度提高了30倍。Stable Audio Open模型完全在基于Arm CPU的智能手机上运行，且无需联网，对于文本转音频AI来说是首创之举。

Stability AI利用KleidiAI自动加速功能，加快模型的响应速度，从而在不影响质量的情况下提升了端侧AI性能。KleidiAI带来的性能提升，无需Stable Audio Open模型用户额外投入开发精力，节省了时间和成本。Arm和Stability AI将继续合作，以实现更多性能的跃升，带来更为出色的AI用户体验。

显著的性能提升表明，具有针对性的硬件和软件集成，使过往无法实现的AI应用在移动端变得可行，从而推动了未来的创新机遇。Arm技术驱动了全球99%的智能手机，这也意味着数十亿智能手机用户现可取得先进的AI音频功能。

共同应对复杂的AI挑战

Stable Audio Open模型具备出色的效率，但在智能手机的CPU上直接由端侧运行该模型仍非易事。在初期尝试时，单个音频样本的生成时间超过四分钟，这对终端用户而言不太能接受。

通过与Arm合作，Stability AI将模型的训练参数量蒸馏到适合移动端的规模。然后，通过新的蒸馏模型，并利用XNNPack与ExecuTorch集成带来的KleidiAI性能加速，实现了在移动端Arm CPU上几秒内就生成音频片段。

Stability AI首席执行官Prem Akkaraju表示：“随着越来越多的专业创意工作者和企业采用生成式AI来帮助提升其生产流程，我们的模型和工作流必须随处可得，以供构建者和创作者使用，这一点至关重要。我们很高兴能就此与Arm合作。从服务器到智能手机，Arm平台在整个生态系统中应用普及，并且Arm通过将Arm Kleidi集成到软件栈中，致力于加速各类主流框架中的AI模型，因此Arm是我们的不二之选。”

文本转音频AI的兴起

自2022年以来，Stability AI始终立于生成式AI发展的前沿，曾凭借行业领先的图像模型Stable Diffusion引起轰动。依托Stable Diffusion的成功，该公司随后推出了Stable Audio，这是首个完全获得授权的音频模型之一，专为通过文本提示词生成高质量的音乐和音效而设计。这些AI模型在Hugging Face等主要平台上均排名前茅，拥有多达数百万规模的用户数，构成了一个活跃的技术社区。

人人皆可享先进的音频AI体验

这一成果仅仅只是双方合作的开始，Arm和Stability AI已规划了更多的性能优化举措，旨在为用户带来更加出色的使用体验。通过携手合作，Arm正在为音频、图像、视频和3D领域的端侧AI打好基础，重塑每个人创作内容和与数字媒体互动的方式。通过蒸馏先进的模型并利用经过优化的软件，部署到人们常用的硬件设备上，从而为未来铺平道路，实现人人都能通过口袋里的设备直接享受先进的AI应用、模型和体验。

你可能也会喜欢...

旋转魔术碟片分离机的奇迹运作

化工设备安全管理-防爆装置与应急响应系统的优化配置

脱水机我是如何用它让自己不再担心夏日炎炎的