今年DeepSeek的橫空出世之后,整個AI圈可謂是直接變天了。 先是OpenAI打自己臉,表示閉源策略是“站在了歷史的錯誤一邊”。 隨后百度這邊也付出了實際行動。 這就很有節(jié)目效果。 DeepSeek一開源,天突然就亮了,風(fēng)突然就停了。 當(dāng)然啦,DeepSeek除了帶起了大模型開源的趨勢。 最近我還發(fā)現(xiàn),它還把很多家大廠的「推理模型」給“逼”出來了。 比如騰訊,前陣子就發(fā)布了自研的深度思考模型。 再到這兩天,豆包緊隨其后,開啟了自研深度思考模型的灰度測試。 很可惜的是,機(jī)哥沒被灰度上。 而阿里最新推出的—— QwQ-Max-Preview推理模型 目前倒是完全免費可用,而且也支持深度思考和聯(lián)網(wǎng)搜索兩大功能。 至于百度的「深度搜索」功能,雖說也基于自研的文心大模型4.0 Turbo。 但我發(fā)現(xiàn)它只提供一張免費權(quán)益卡。 也罷… 用來做個對比評測夠用了。 至此,百度、阿里、騰訊和字節(jié)跳動都有了自研的、且支持深度思考的推理模型。 此情此景,不來個賽博斗蛐蛐都說不過去了。 誰家推理模型更好用? 咱們就一塊看看,幾家推理模型的實際能力如何。 先來看很經(jīng)典的大模型翻車問題—— 9.11和9.9誰大 這問題對于人類來說,沒啥難度可言。 但很多大模型,往往會把小數(shù)點后的9和11用來比較,識別出11比9大,就得出9.11>9.9的結(jié)論。 屬于是聰明了,但只聰明了一半。 但說實話啊,現(xiàn)在各家的深度推理模型,基本就不會犯這樣的錯誤了。 因為推理模型本身就有很強(qiáng)的邏輯推理、自我反思能力。 比如這是阿里QwQ-Max-Preview推理模型,所給出的答案。 他的思考過程就很有意思,知道這個問題經(jīng)常會有大模型翻車,也知道要著重看小數(shù)點部分。 最終給出的答案也很準(zhǔn)確。 同樣的問題,我也扔給了騰訊元寶的混元T1推理模型。 實際體驗下來,混元T1推理模型的思考過程很快。 用時14秒,也有展示思維鏈,給出的答案準(zhǔn)確。 而論起思考的時長和深度,DeepSeek無疑是最詳細(xì)的。 答案沒啥毛病。 最后是百度文心一言的深度搜索。 有一說一,雖然它也提供了深度思考的過程。 但機(jī)哥總覺得,它這個思考過程太過繁雜,我看完都差點把自己繞進(jìn)去了。 大伙可以點開大圖,感受一下。 相較起來,阿里和混元的深度思考過程,確實簡潔明了不少。 比如它們都考慮到十分位和版本號等差異。 最后根據(jù)正確的數(shù)學(xué)數(shù)值對比,給出正確答案。 當(dāng)然從這輪測試能看出,“數(shù)字比較”對于推理模型已經(jīng)沒啥難度了。 那咱們再重點關(guān)注下,各家推理模型的聯(lián)網(wǎng)搜索和整合能力。 我的問題是: “幫我詳細(xì)匯總今年要發(fā)布的影像超大杯手機(jī)的配置、定位和特色”。 咱們先看看,阿里QwQ-Max-Preview模型的回答。 老樣子,它依舊給出了詳細(xì)、直觀且邏輯清晰的思考過程。 最后給出的答案,機(jī)哥自個兒是挺滿意的。 像是小米15 Ultra、vivo X200 Ultra、OPPO Find X8 Ultra和華為華為Pura 80 Ultra等超大杯的定位和核心出裝,都匯總得很到位。 騰訊元寶這邊,得益于優(yōu)質(zhì)的公眾號文章信源。 給出的回答甚至更勝一籌,對各家超大杯的配置、定位和特色,盤點得更加齊全。 咳咳,它甚至把機(jī)哥寫的文章當(dāng)作信源之一了。 而文心一言這邊。 說實話其他國產(chǎn)超大杯的配置,給出的信息都問題不大。 但唯獨這三星S25 Ultra吧。 我尋思這機(jī)子不都發(fā)布了么,怎么還寫著“發(fā)布時間未明確提及”。 最后是大家比較關(guān)心的,DeepSeek的表現(xiàn)。 只能說,還是熟悉的味道,一到下午就服務(wù)器繁忙。 總的來說,在聯(lián)網(wǎng)搜索這一塊,阿里的QwQ-Max-Preview和騰訊的混元T1表現(xiàn)都挺不錯。 平時懶得在傳統(tǒng)搜索引擎做主動篩選的機(jī)友。 其實可以找它們,來幫忙搜索和總結(jié)聯(lián)網(wǎng)信息。 文心一言的深度搜索,我體驗下來是能用的,但偶爾會掉下鏈子。 再看看它們的文案創(chuàng)作能力。 我測試下來,感覺阿里的推理模型,效果最接近DeepSeek。 機(jī)哥讓它用孫笑川吧吧友的語氣,銳評我自己。 它通過聯(lián)網(wǎng)搜索,結(jié)合深度思考過程,摸清了好機(jī)友的文風(fēng)和調(diào)性,銳評起來也是毫不留情。 什么“科技界的三和大神”。 什么“教人下個App都要配8張表情包”。 破防了家人們。 而騰訊元寶和文心一言的攻擊性,倒也不是說不夠強(qiáng)。 但機(jī)哥總感覺遣詞造句差點味道。 噴得不夠絲滑,不夠陰陽怪氣。 (騰訊元寶) (文心一言) 這一輪測試的結(jié)果,倒是符合機(jī)哥預(yù)期。 因為阿里的Qwen2.5-Max,在剛發(fā)布的時候,它在多個基準(zhǔn)測試中的性能,表現(xiàn)都比DeepSeek-V3更強(qiáng)。 非要比個孰優(yōu)孰劣的話。 Qwen2.5-Max更擅長數(shù)學(xué)和編程,DeepSeek-V3更擅長文案創(chuàng)作、解析和總結(jié)。 比如我讓Qwen2.5-Max畫一個貪吃蛇游戲。 它半分鐘不到就給我整出來了。 更多開源模型正在路上 當(dāng)然更讓人興奮的是。 阿里官方表示,后續(xù)會把QwQ-Max、Qwen2.5-Max這倆旗艦?zāi)P瓦M(jìn)行開源。 其中就包括,更適合端側(cè)運行的小尺寸模型。 這就讓我很好奇,iPhone吃上阿里大模型后,「蘋果牌AI」會有怎樣的表現(xiàn)。 不得不說,自從DeepSeek搞起了一輪“開源轟炸”后。 整個AI圈都或主動、或被動地加入到這股浪潮。 答案呈現(xiàn)更直觀、更嚴(yán)謹(jǐn)、更聰明的推理模型,成為了大廠們的必爭之地,目前騰訊、阿里、字節(jié)跳動和百度都出手了。 估計后續(xù)還會有更多廠商進(jìn)來玩。 而開源模型的不斷涌現(xiàn),肯定也更有利于,把大模型普及到各行各業(yè),乃至各個App。 想象一下。 打開美團(tuán),大模型自動幫你推薦合胃口的外賣。 閱讀微信文章,微信提供大模型一鍵總結(jié)摘要的功能。 去電商App買個手機(jī),大模型還能幫你匯總手機(jī)的配置和優(yōu)缺點。 嘖,想想就覺得很爽。 圖片來自網(wǎng)絡(luò) |
19款電子扎帶
電路板識別電子標(biāo)簽