當(dāng)AI遇上語音：重塑未來的交互體驗

2024-11-29 10:43| 發(fā)布者: admin| 查看: 129| 評論: 0

摘要: 最近，WebRTC 的早期創(chuàng)建者之一，F(xiàn)ixie.ai 聯(lián)合創(chuàng)始人兼 CTO Justin Uberti 近日宣布加入 OpenAI，領(lǐng)導(dǎo)實時 AI 項目的開發(fā)。他認(rèn)為語音交互是AI的未來，我們正在回歸對話式的社會。JustinUberti加入OpenAI這個決策現(xiàn) ...

最近，WebRTC 的早期創(chuàng)建者之一，F(xiàn)ixie.ai 聯(lián)合創(chuàng)始人兼 CTO Justin Uberti 近日宣布加入 OpenAI，領(lǐng)導(dǎo)實時 AI 項目的開發(fā)。他認(rèn)為語音交互是AI的未來，我們正在回歸對話式的社會。

JustinUberti加入OpenAI這個決策現(xiàn)在看起來順理成章。早在今年5月，OpenAI發(fā)布第一個端到端voice-in, voice-out的大模型GPT-4o，十年前電影《Her》描述的場景開始照進(jìn)現(xiàn)實。低延遲、高智能的AI，憑借信息秒回、不會失聯(lián)、7×24h情感陪伴、隨時提供情緒價值的能力，讓AI的角色超越了簡單的生產(chǎn)工具，開始深入地融入生活的方方面面。

事實上，近兩年時間里，AI從“能說話”到“會說話”，能力越來越強(qiáng)，有關(guān)AI的討論也不再局限于“AI助手”，話題甚至開始頻繁出現(xiàn)"AI男友/女友"，AI陪伴成為社交應(yīng)用的主要發(fā)展趨勢之一。根據(jù) A16Z 的8月份最新報告，Top100的app中，16%的產(chǎn)品為 AI 陪伴類產(chǎn)品，且占top20中的6個。

當(dāng)AI陪伴應(yīng)用廣闊的市場空間以及巨大的發(fā)展?jié)摿Φ玫绞袌鰪V泛認(rèn)可之時，其中一個值得關(guān)注的重點是，語音交互成為了當(dāng)下最為關(guān)鍵的入口。

不管是星野、Character.AI、筑夢島、Poly.AI等原生AI應(yīng)用，還是國內(nèi)頭部泛娛樂app包括TT語音、Soul等推出 AI 分身、 AI 寵物、AI 伴侶玩法……不同應(yīng)用的玩法和設(shè)計上雖然各有千秋，但核心要素都是以對話為主要交互方式，為用戶提供情感體驗。

上述現(xiàn)象背后潛藏著一個趨勢性變化：隨著AI陪伴應(yīng)用市場的不斷發(fā)展，也將激發(fā)用戶對更優(yōu)質(zhì)的語音交互體驗的強(qiáng)烈需求。而在AI技術(shù)引領(lǐng)的時代變革中，如何緊跟用戶日新月異的需求，提升產(chǎn)品體驗？

近日，「即構(gòu)科技」發(fā)布的自研音頻引擎——Purio AI音頻引擎，給到市場一個新的解決方案。該方案通過三大核心技術(shù)：AI降噪、AI回聲消除和音量均衡技術(shù)，為用戶打造純凈、保真、舒適的聽覺體驗。不僅支撐社交應(yīng)用用戶獲得更好的音質(zhì)體驗，還能配合最新的AI陪伴方案，讓AI陪伴更擬真。

「即構(gòu)科技」發(fā)布的自研音頻引擎——Purio AI音頻引擎

當(dāng)語音成為交互的關(guān)鍵入口

毫無疑問，語音作為人類做自然便捷的溝通方式，是智能時代人機(jī)交互的關(guān)鍵入口。

一方面，通過RTC技術(shù)應(yīng)用，低延時的快速響應(yīng)讓人與AI的互動更接近真實。另一方面，通過語音識別，讓機(jī)器識別人的情緒、語調(diào)成為可能，最終輸出更精準(zhǔn)、更智能的回答。

從各大AI廠商的產(chǎn)品發(fā)展趨勢亦可看到，語音是不可或缺的一環(huán)。比如GPT-4o發(fā)布以來，端到端實時多模態(tài)成為國內(nèi)外廠商跟進(jìn)的新方向，其中國外AI廠商Character.AI推出通話功能、微軟AI表示年底將擁有實時語音界面，國內(nèi)豆包8月宣布大模型已支持實時語音通話新功能、10月份Kimi發(fā)布語音通話功能……

可以預(yù)見，語音交互也將成為未來對話式多模態(tài)大模型交互的終極形態(tài)。

不過，語音交互對用戶而言并不陌生，在已經(jīng)成為生活中的點點滴滴的智能家居、手機(jī)、車載、智能穿戴、機(jī)器人等領(lǐng)域，語音交互技術(shù)已經(jīng)實現(xiàn)快速滲透和落地，多數(shù)時候，只需張張嘴，機(jī)器能代替人類完成一系列任務(wù)。

并且，語音交互因其在促進(jìn)陌生人社交關(guān)系以及提升熟人溝通效率方面具有顯著效應(yīng)，使其在社交、辦公等場景被廣泛運用，成為應(yīng)用的基礎(chǔ)能力?；訄鼍盎谡Z音通話快速創(chuàng)新，比如游戲開黑、語聊派對、在線K歌、直播、教育等各類新穎、豐富、個性化的實時互動體驗，滲透到用戶的日常。

便捷性更是使得語音互動在隨時隨地發(fā)生，比如通勤時參與線上會議、用餐時與搭子遠(yuǎn)程嘮嗑或者戶外來一場直播等。隨時隨地互動的便捷習(xí)慣，也帶來了比以往更復(fù)雜的通話環(huán)境，音質(zhì)問題也比以往更加頻繁了。

比如在人機(jī)互動中，嘈雜環(huán)境將明顯降低識別準(zhǔn)確率；多人會議中，任意用戶攜帶明顯噪音上麥，將沖擊多人房氛圍，不好的反饋也會影響用戶本身的發(fā)言欲望，嘈雜的表現(xiàn)更會導(dǎo)致觀眾流失；K歌應(yīng)用在復(fù)雜的環(huán)境下，人聲音質(zhì)也將變得“沉悶渾濁”甚至“漏回聲”“吞音”，用戶體驗欠佳……

用戶如何才能在復(fù)雜環(huán)境中擁有“絲滑”的交互體驗？語音互動關(guān)鍵技術(shù)的創(chuàng)新突破是關(guān)鍵一環(huán)，重點在于如何在不失真的情況下盡量的把噪聲去除的更干凈，保證用戶聽的更清晰。

在這樣的背景下，「即構(gòu)科技」發(fā)布Purio AI音頻引擎，通過升級AI降噪的算法效果、推出全新的的AI回聲消除算法、動態(tài)響度均衡算法等核心算法，為用戶帶來純凈、保真、極致舒適的聽覺體驗。

用創(chuàng)新，為用戶帶來優(yōu)質(zhì)體驗

Purio AI是「即構(gòu)科技」專注于音質(zhì)增強(qiáng)的最新技術(shù)。

據(jù)悉，「即構(gòu)科技」從2015年就開始走上自研音頻引擎創(chuàng)新之路，其中2015年自研3A音頻引擎、2018年服務(wù)互聯(lián)網(wǎng)頭部客戶超70%，并不斷推出適合各行業(yè)的一鍵接入語音互動解決方案、在2021年首發(fā)打通音樂版權(quán)商的全套KTV解決方案，技術(shù)上首創(chuàng)場景化AI降噪、K歌專業(yè)AEC算法、首家支持單房間萬人連麥的規(guī)模等等。

在2022年，「即構(gòu)科技」正式發(fā)布AI降噪功能，彼時AI降噪在海外市場已經(jīng)被廣泛運用，而國內(nèi)相對保守，根本原因在于國內(nèi)對安靜互動環(huán)境暫不依賴。然時過境遷，隨著用戶時常遇到噪音干擾，大到公共場所、戶外鬧市的人車嘈雜，室內(nèi)場所的電視、音樂，小到鍵盤敲擊、插拔耳機(jī)、咳嗽、吞咽等。

因此，好的語音互動體驗，也就成為用戶當(dāng)下最迫切的需求。換言之，如何實現(xiàn)音質(zhì)的提升，即主要的3A能力優(yōu)化：降噪、回聲消除、自動增益控制，成為解決用戶痛點的核心能力。

首先，以降噪技術(shù)為例，傳統(tǒng)降噪沒法有效抑制瞬態(tài)噪聲、傳統(tǒng)回聲消除對人聲損傷較大等，也就存在環(huán)境適應(yīng)能力差的問題。AI技術(shù)的發(fā)展與加入，通過其較強(qiáng)的泛化能力，正好彌補(bǔ)傳統(tǒng)方式在復(fù)雜環(huán)境中的適應(yīng)能力。

不僅如此，AI的能力讓降噪和回聲消除不僅能夠適應(yīng)用戶多變的環(huán)境，有效抑制干擾同時還原人聲，還能具備場景的識別能力，比如AI能充分理解“干擾”和“人聲”的區(qū)別，做到精準(zhǔn)分離；也能做到不同場景智能切換效果，比如進(jìn)場音樂不是噪音、會議場景中掌聲不是噪音等。

實際應(yīng)用中，比如最早把AI引入到的移動社交產(chǎn)品的公司之一——趣丸科技，通過「即構(gòu)科技」音頻技術(shù)，保障2億用戶順暢、優(yōu)質(zhì)的連麥體驗，也持續(xù)為用戶創(chuàng)造新的語音社交玩法。

趣丸科技2022年上線的“在線K歌”玩法，便是結(jié)合即構(gòu)Purio AI音頻引擎技術(shù)，實現(xiàn)了K歌場景效果的顯著突破：動態(tài)響度均衡能力帶來了精準(zhǔn)人聲伴奏對齊，解決K歌過程中人聲與伴奏相互沖突的問題；K歌打分技術(shù)提供了準(zhǔn)確且及時反饋的演唱評分系統(tǒng)，能夠結(jié)合音高、節(jié)奏、吐字、氣息等多維度，對用戶的唱歌水平進(jìn)行更加全面、客觀的評價……

當(dāng)AI遇上語音：重塑未來的交互體驗

TT語音×即構(gòu)科技合作案例

值得注意的是，AI的加入，實際上也為語音交互帶來了新的挑戰(zhàn)，其中最突出的影響莫過于模型復(fù)雜，性能消耗巨大，給實時場景交付提出了很大的挑戰(zhàn)。即在時延和功耗方面，落地到中低端機(jī)型里面不僅延遲高功耗大，容易發(fā)熱，應(yīng)用很難運用AI能力。

為解決此類由AI加入所產(chǎn)生的拖后腿問題，「即構(gòu)科技」通過重參數(shù)化、參數(shù)共享、模型量化等多種技術(shù)手段，實現(xiàn)低開銷、低延時、高保真的效果。新品Purio AI音頻引擎依然保持以往超低延遲、輕量化特性，在延遲方面AI級算法

在過往的基礎(chǔ)上，Purio AI具有全場景400+噪音種類識別與消除技術(shù)，相比2022年版本抑制效果提升52%。在多重高精度AI技術(shù)加持下，抽絲剝繭剔除噪音，精準(zhǔn)還原人聲，人聲保真度客觀指標(biāo)達(dá)到業(yè)界領(lǐng)先水平。同時，其還具備場景化AI降噪能力，能夠智能調(diào)節(jié)AI降噪策略；AI算法能夠智能識別并消除高達(dá)99.9%的音頻回聲，多重高精度AI技術(shù)分離近端信號與回聲信號，確保精準(zhǔn)還原音質(zhì)……

如今，「即構(gòu)科技」音質(zhì)增強(qiáng)技術(shù)已廣泛用于直播、聽歌、社交、電臺等泛娛樂社交應(yīng)用，以及金融雙錄、在線教育、視頻會議、智能硬件等行業(yè)應(yīng)用中。