最近,WebRTC 的早期創(chuàng)建者之一,F(xiàn)ixie.ai 聯(lián)合創(chuàng)始人兼 CTO Justin Uberti 近日宣布加入 OpenAI,領(lǐng)導(dǎo)實時 AI 項目的開發(fā)。他認(rèn)為語音交互是AI的未來,我們正在回歸對話式的社會。 JustinUberti加入OpenAI這個決策現(xiàn)在看起來順理成章。早在今年5月,OpenAI發(fā)布第一個端到端voice-in, voice-out的大模型GPT-4o,十年前電影《Her》描述的場景開始照進(jìn)現(xiàn)實。低延遲、高智能的AI,憑借信息秒回、不會失聯(lián)、7×24h情感陪伴、隨時提供情緒價值的能力,讓AI的角色超越了簡單的生產(chǎn)工具,開始深入地融入生活的方方面面。 事實上,近兩年時間里,AI從“能說話”到“會說話”,能力越來越強(qiáng),有關(guān)AI的討論也不再局限于“AI助手”,話題甚至開始頻繁出現(xiàn)"AI男友/女友",AI陪伴成為社交應(yīng)用的主要發(fā)展趨勢之一。根據(jù) A16Z 的8月份最新報告,Top100的app中,16%的產(chǎn)品為 AI 陪伴類產(chǎn)品,且占top20中的6個。 當(dāng)AI陪伴應(yīng)用廣闊的市場空間以及巨大的發(fā)展?jié)摿Φ玫绞袌鰪V泛認(rèn)可之時,其中一個值得關(guān)注的重點是,語音交互成為了當(dāng)下最為關(guān)鍵的入口。 不管是星野、Character.AI、筑夢島、Poly.AI等原生AI應(yīng)用,還是國內(nèi)頭部泛娛樂app包括TT語音、Soul等推出 AI 分身、 AI 寵物、AI 伴侶玩法……不同應(yīng)用的玩法和設(shè)計上雖然各有千秋,但核心要素都是以對話為主要交互方式,為用戶提供情感體驗。 上述現(xiàn)象背后潛藏著一個趨勢性變化:隨著AI陪伴應(yīng)用市場的不斷發(fā)展,也將激發(fā)用戶對更優(yōu)質(zhì)的語音交互體驗的強(qiáng)烈需求。而在AI技術(shù)引領(lǐng)的時代變革中,如何緊跟用戶日新月異的需求,提升產(chǎn)品體驗? 近日,「即構(gòu)科技」發(fā)布的自研音頻引擎——Purio AI音頻引擎,給到市場一個新的解決方案。該方案通過三大核心技術(shù):AI降噪、AI回聲消除和音量均衡技術(shù),為用戶打造純凈、保真、舒適的聽覺體驗。不僅支撐社交應(yīng)用用戶獲得更好的音質(zhì)體驗,還能配合最新的AI陪伴方案,讓AI陪伴更擬真。 「即構(gòu)科技」發(fā)布的自研音頻引擎——Purio AI音頻引擎 當(dāng)語音成為交互的關(guān)鍵入口毫無疑問,語音作為人類做自然便捷的溝通方式,是智能時代人機(jī)交互的關(guān)鍵入口。 一方面,通過RTC技術(shù)應(yīng)用,低延時的快速響應(yīng)讓人與AI的互動更接近真實。另一方面,通過語音識別,讓機(jī)器識別人的情緒、語調(diào)成為可能,最終輸出更精準(zhǔn)、更智能的回答。 從各大AI廠商的產(chǎn)品發(fā)展趨勢亦可看到,語音是不可或缺的一環(huán)。比如GPT-4o發(fā)布以來,端到端實時多模態(tài)成為國內(nèi)外廠商跟進(jìn)的新方向,其中國外AI廠商Character.AI推出通話功能、微軟AI表示年底將擁有實時語音界面,國內(nèi)豆包8月宣布大模型已支持實時語音通話新功能、10月份Kimi發(fā)布語音通話功能…… 可以預(yù)見,語音交互也將成為未來對話式多模態(tài)大模型交互的終極形態(tài)。 不過,語音交互對用戶而言并不陌生,在已經(jīng)成為生活中的點點滴滴的智能家居、手機(jī)、車載、智能穿戴、機(jī)器人等領(lǐng)域,語音交互技術(shù)已經(jīng)實現(xiàn)快速滲透和落地,多數(shù)時候,只需張張嘴,機(jī)器能代替人類完成一系列任務(wù)。 并且,語音交互因其在促進(jìn)陌生人社交關(guān)系以及提升熟人溝通效率方面具有顯著效應(yīng),使其在社交、辦公等場景被廣泛運用,成為應(yīng)用的基礎(chǔ)能力?;訄鼍盎谡Z音通話快速創(chuàng)新,比如游戲開黑、語聊派對、在線K歌、直播、教育等各類新穎、豐富、個性化的實時互動體驗,滲透到用戶的日常。 便捷性更是使得語音互動在隨時隨地發(fā)生,比如通勤時參與線上會議、用餐時與搭子遠(yuǎn)程嘮嗑或者戶外來一場直播等。隨時隨地互動的便捷習(xí)慣,也帶來了比以往更復(fù)雜的通話環(huán)境,音質(zhì)問題也比以往更加頻繁了。 比如在人機(jī)互動中,嘈雜環(huán)境將明顯降低識別準(zhǔn)確率;多人會議中,任意用戶攜帶明顯噪音上麥,將沖擊多人房氛圍,不好的反饋也會影響用戶本身的發(fā)言欲望,嘈雜的表現(xiàn)更會導(dǎo)致觀眾流失;K歌應(yīng)用在復(fù)雜的環(huán)境下,人聲音質(zhì)也將變得“沉悶渾濁”甚至“漏回聲”“吞音”,用戶體驗欠佳…… 用戶如何才能在復(fù)雜環(huán)境中擁有“絲滑”的交互體驗?語音互動關(guān)鍵技術(shù)的創(chuàng)新突破是關(guān)鍵一環(huán),重點在于如何在不失真的情況下盡量的把噪聲去除的更干凈,保證用戶聽的更清晰。 在這樣的背景下,「即構(gòu)科技」發(fā)布Purio AI音頻引擎,通過升級AI降噪的算法效果、推出全新的的AI回聲消除算法、動態(tài)響度均衡算法等核心算法,為用戶帶來純凈、保真、極致舒適的聽覺體驗。 用創(chuàng)新,為用戶帶來優(yōu)質(zhì)體驗Purio AI是「即構(gòu)科技」專注于音質(zhì)增強(qiáng)的最新技術(shù)。 據(jù)悉,「即構(gòu)科技」從2015年就開始走上自研音頻引擎創(chuàng)新之路,其中2015年自研3A音頻引擎、2018年服務(wù)互聯(lián)網(wǎng)頭部客戶超70%,并不斷推出適合各行業(yè)的一鍵接入語音互動解決方案、在2021年首發(fā)打通音樂版權(quán)商的全套KTV解決方案,技術(shù)上首創(chuàng)場景化AI降噪、K歌專業(yè)AEC算法、首家支持單房間萬人連麥的規(guī)模等等。 在2022年,「即構(gòu)科技」正式發(fā)布AI降噪功能,彼時AI降噪在海外市場已經(jīng)被廣泛運用,而國內(nèi)相對保守,根本原因在于國內(nèi)對安靜互動環(huán)境暫不依賴。然時過境遷,隨著用戶時常遇到噪音干擾,大到公共場所、戶外鬧市的人車嘈雜,室內(nèi)場所的電視、音樂,小到鍵盤敲擊、插拔耳機(jī)、咳嗽、吞咽等。 因此,好的語音互動體驗,也就成為用戶當(dāng)下最迫切的需求。換言之,如何實現(xiàn)音質(zhì)的提升,即主要的3A能力優(yōu)化:降噪、回聲消除、自動增益控制,成為解決用戶痛點的核心能力。 首先,以降噪技術(shù)為例,傳統(tǒng)降噪沒法有效抑制瞬態(tài)噪聲、傳統(tǒng)回聲消除對人聲損傷較大等,也就存在環(huán)境適應(yīng)能力差的問題。AI技術(shù)的發(fā)展與加入,通過其較強(qiáng)的泛化能力,正好彌補(bǔ)傳統(tǒng)方式在復(fù)雜環(huán)境中的適應(yīng)能力。 不僅如此,AI的能力讓降噪和回聲消除不僅能夠適應(yīng)用戶多變的環(huán)境,有效抑制干擾同時還原人聲,還能具備場景的識別能力,比如AI能充分理解“干擾”和“人聲”的區(qū)別,做到精準(zhǔn)分離;也能做到不同場景智能切換效果,比如進(jìn)場音樂不是噪音、會議場景中掌聲不是噪音等。 實際應(yīng)用中,比如最早把AI引入到的移動社交產(chǎn)品的公司之一——趣丸科技,通過「即構(gòu)科技」音頻技術(shù),保障2億用戶順暢、優(yōu)質(zhì)的連麥體驗,也持續(xù)為用戶創(chuàng)造新的語音社交玩法。 趣丸科技2022年上線的“在線K歌”玩法,便是結(jié)合即構(gòu)Purio AI音頻引擎技術(shù),實現(xiàn)了K歌場景效果的顯著突破:動態(tài)響度均衡能力帶來了精準(zhǔn)人聲伴奏對齊,解決K歌過程中人聲與伴奏相互沖突的問題;K歌打分技術(shù)提供了準(zhǔn)確且及時反饋的演唱評分系統(tǒng),能夠結(jié)合音高、節(jié)奏、吐字、氣息等多維度,對用戶的唱歌水平進(jìn)行更加全面、客觀的評價…… TT語音×即構(gòu)科技合作案例 值得注意的是,AI的加入,實際上也為語音交互帶來了新的挑戰(zhàn),其中最突出的影響莫過于模型復(fù)雜,性能消耗巨大,給實時場景交付提出了很大的挑戰(zhàn)。即在時延和功耗方面,落地到中低端機(jī)型里面不僅延遲高功耗大,容易發(fā)熱,應(yīng)用很難運用AI能力。 為解決此類由AI加入所產(chǎn)生的拖后腿問題,「即構(gòu)科技」通過重參數(shù)化、參數(shù)共享、模型量化等多種技術(shù)手段,實現(xiàn)低開銷、低延時、高保真的效果。新品Purio AI音頻引擎依然保持以往超低延遲、輕量化特性,在延遲方面AI級算法 在過往的基礎(chǔ)上,Purio AI具有全場景400+噪音種類識別與消除技術(shù),相比2022年版本抑制效果提升52%。在多重高精度AI技術(shù)加持下,抽絲剝繭剔除噪音,精準(zhǔn)還原人聲,人聲保真度客觀指標(biāo)達(dá)到業(yè)界領(lǐng)先水平。同時,其還具備場景化AI降噪能力,能夠智能調(diào)節(jié)AI降噪策略;AI算法能夠智能識別并消除高達(dá)99.9%的音頻回聲,多重高精度AI技術(shù)分離近端信號與回聲信號,確保精準(zhǔn)還原音質(zhì)…… 如今,「即構(gòu)科技」音質(zhì)增強(qiáng)技術(shù)已廣泛用于直播、聽歌、社交、電臺等泛娛樂社交應(yīng)用,以及金融雙錄、在線教育、視頻會議、智能硬件等行業(yè)應(yīng)用中。 |
19款電子扎帶
電路板識別電子標(biāo)簽