今年是個(gè)熱鬧的AI年,年初的deepseekR1平地一聲雷,又一次掀起了全民的熱潮,做為一個(gè)AI行業(yè)的從業(yè)者,見(jiàn)證了23年AI的驚起到沉浸,再到24年的蓬勃發(fā)展,我想每個(gè)月進(jìn)錄一下在AI行業(yè)中發(fā)生的那些有趣的事情,就有了這份月報(bào)。 AI發(fā)展中最重要的一個(gè)事情莫過(guò)于模型能力&算力成本。 模型能力決定了AI到底有多強(qiáng),是洲際導(dǎo)彈還是弓箭;而算力成本決定了AI到底是個(gè)高大上的科研產(chǎn)品,還是普通人都可以日常使用的工具;AI月報(bào)的第一部分我們就來(lái)重點(diǎn)關(guān)注這個(gè)事情。 第二部分是有趣的AI產(chǎn)品,會(huì)帶著大家看看實(shí)用有趣的AI產(chǎn)品。 第三部分是落地實(shí)踐案例,我們?nèi)タ纯碅I在日常生活中有哪些非常棒的使用方法。 一、模型能力 & 算力成本1.1 閉源模型2月份新發(fā)布的模型:
模型排行榜參考Chatbot Arena LLM Leaderboard,它是業(yè)界公認(rèn)的最公正、最權(quán)威榜單之一,也是全球頂級(jí)大模型的最重要競(jìng)技場(chǎng)。 它們的模型成本對(duì)比如圖所示: 從成本上來(lái)看,OpenAI的4.5真是離譜到家的產(chǎn)品,價(jià)格比最貴的Claude貴10倍以上了;谷歌的Gemini模型繼續(xù)保持了量大便宜的慣例,Gemini和DeepSeek一樣都支持緩存命中,相同內(nèi)容的token成本還能再降低1/10。 以下是新模型發(fā)布值得關(guān)注的點(diǎn): 1)Claude 3.7:編程能力強(qiáng)到爆炸。 在單獨(dú)的模型編程榜中,Claude3.7無(wú)疑是遙遙領(lǐng)先了,其它模型跟它的差距變得更大了。 從代碼長(zhǎng)度測(cè)試下來(lái),600行的代碼它可以輕輕松松寫(xiě)下來(lái),1700行都能夠搞定;之前Claude3.5也就300行輕松,再多一點(diǎn)各種bug頻出了。 一句話寫(xiě)個(gè)網(wǎng)頁(yè)案例: 2)Grok3 是其它家沒(méi)有的功能;模型能力也非常強(qiáng),且沒(méi)啥太多的忌諱。 3)Gemini2.0 超強(qiáng)的上下文能力,支持100萬(wàn)token,保持了Gemini家族的慣性。 4)ChatGPT的4.5升級(jí)了 實(shí)在不知道它升級(jí)了點(diǎn)啥,目前只能200美刀一個(gè)月的會(huì)員才能用;從模型能力和測(cè)評(píng)上來(lái)看這個(gè)模型好像新版本強(qiáng)的有限。 來(lái)源:Twitter karminski-牙醫(yī) 經(jīng)典的草莓問(wèn)題還是數(shù)不對(duì),其它能力也看起來(lái)變化不大,具體的在等大家測(cè)試下來(lái)看看。 來(lái)源:Twitter Alex Northstar 1.2 開(kāi)源模型開(kāi)源模型上通義發(fā)布了3個(gè)開(kāi)源模型,他們分別是: 1)多模態(tài)識(shí)別模型 Qwen2.5-VL,有 3B、7B 和 72B 三個(gè)尺寸版本。 72B是比GPT4o和Claude3.5更強(qiáng)的視覺(jué)模型,能夠最多支持1個(gè)小時(shí)的視頻理解。 不錯(cuò)的多模態(tài)識(shí)別能力 2)超長(zhǎng)文本處理模型 Qwen2.5-1M,專門(mén)處理長(zhǎng)文本的AI模型;分為7B和14B兩個(gè)模型。在100萬(wàn)token的大海撈針中,有不錯(cuò)的表現(xiàn) 3)文生視頻模型:Wan2.1 有1.3B和14B兩個(gè)版本。視頻評(píng)測(cè)VBench中踩下Sora、Pika等國(guó)際對(duì)手(總分86.22%第一)。 comfyUI也接入這個(gè)模型,效果看起來(lái)還是很不錯(cuò)的 二、有趣的AI產(chǎn)品1. ima知識(shí)庫(kù)騰訊出品的一款基于deepseekR1的PC端知識(shí)庫(kù)產(chǎn)品,用來(lái)閱讀文章非常省事。 支持網(wǎng)站瀏覽器和傳文章等多種閱讀方式,還可以搜索公眾號(hào)的內(nèi)容,記得用的時(shí)候選R1模型。 用R1讀文章,讓它運(yùn)用深度思考的能力同時(shí)說(shuō)人話,可以快速抓到一個(gè)文章的重點(diǎn),然后自己根據(jù)需求再去判斷要不要繼續(xù)讀文章。 2. AI編程產(chǎn)品Cursor 3.7出來(lái)了,做產(chǎn)品更方便了,這兩款A(yù)I產(chǎn)品都適合用AI來(lái)寫(xiě)代碼。 Cursor:最新版以Agent模式為核心,對(duì)小白來(lái)說(shuō)用AI編程門(mén)檻又低了一些,之前的環(huán)境問(wèn)題都可以讓AI干活來(lái)搞定了;同時(shí)也支持Claude3.7,編程能力杠杠的。 字節(jié)的Tera:一款新上的AI編程工具,交互頁(yè)面更舒服一點(diǎn),目前還是免費(fèi)狀態(tài);支持3.5和3.7。 3. 用R1的一些渠道官網(wǎng)總是出現(xiàn)R1不干活的情況,2月份也有不少平替出來(lái),各家云廠商也都支持了R1的調(diào)用,大家可以按需進(jìn)行選擇;但需要注意云廠商的R1是沒(méi)有虛擬緩存的,對(duì)于批量打api的成本需要重新算成本。 云的話:硅基云、阿里云、火山云都可以,根據(jù)大家的需求選擇;官網(wǎng)也恢復(fù)充值了,但是看起來(lái)還是不穩(wěn)定,沒(méi)有1月份并發(fā)快。 本地化+API調(diào)用建議選擇chatbox+硅基流動(dòng),用起來(lái)體驗(yàn)還不錯(cuò) 4. 秘塔搜索研究模式把搜索變成了兩種不同的研究模式,用于提升搜索的準(zhǔn)確性,用起來(lái)體驗(yàn)還不錯(cuò) 我在做API價(jià)格對(duì)比的時(shí)候搜了一下,拋掉Gemini2沒(méi)找到信息源,整理的沒(méi)啥問(wèn)題 5. 可靈1.6的毛絨玩具把任何東西變成毛絨玩具,是個(gè)蠻好玩的特效功能;我試了試把滅霸轉(zhuǎn)化一下,看起來(lái)還不錯(cuò),而且生成的時(shí)候可靈還會(huì)給你加個(gè)好玩的配音。 三、落地實(shí)踐案例1. 簡(jiǎn)單方便用好R1的一個(gè)小技巧:加一句說(shuō)人話。就可以讓R1輸出的內(nèi)容更加接地氣,而不是高大上的一堆堆詞。 2. Claude 3.7的畫(huà)圖,以下是一些案例參考3. 飛書(shū)多維表格+R1是個(gè)很便捷不需要開(kāi)發(fā)就可以使用AI能力的文檔,下面是一些給大家找的參考案例 先介紹一下這個(gè)功能:飛書(shū)文檔在最近的多維表格里接入了R1模型,可以直接通過(guò)表格來(lái)調(diào)取火山云的API來(lái)實(shí)現(xiàn)AI功能,不需要編程只需要調(diào)一下文檔就可以了 Cynthia’s做的AI文獻(xiàn)速度神器: https://jih7kdah80b.feishu.cn/wiki/BpSIwQSyritC1eko1OKcIvDknKb?table=tblK1CVZBHe1zBY9&view=vewekYXv2s 木水醬的AI胃之書(shū):為了好好吃飯,我用飛書(shū)多維表格+DeepSeek做了個(gè)定制版胃之書(shū) 4. AI陪伴的總結(jié)文章:10 個(gè)月,5 萬(wàn) DAU,我們可能找到了 AI 陪伴的另一種可能 AI創(chuàng)業(yè)中一直難繞過(guò)去的一個(gè)問(wèn)題是token消耗,這和傳統(tǒng)互聯(lián)網(wǎng)時(shí)的邊際成本遞減完全反過(guò)來(lái)了,用戶用的越多消耗越多,特別是聊天類的產(chǎn)品形態(tài),還得把上下文包含進(jìn)來(lái)要么角色就傻了,這個(gè)成本增加的更厲害,AI陪伴產(chǎn)品也就很難盈利。 從王登科做的獨(dú)響,可以看到他們對(duì)社交本身的深刻認(rèn)知,然后打造了這樣一款有意思的AI陪伴產(chǎn)品,能夠產(chǎn)品有良性的增長(zhǎng)和盈利;對(duì)業(yè)務(wù)深度的洞察是做好一個(gè)產(chǎn)品的永恒的前提。 本文由人人都是產(chǎn)品經(jīng)理作者【云舒】,微信公眾號(hào):【云舒的AI觀察筆記】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。 題圖來(lái)自Unsplash,基于 CC0 協(xié)議。 |