近期火熱的字節(jié)跳動的“FORCE原動力大會”剛開完,給我們帶來了很多全新的AI產(chǎn)品,同時(shí)也讓我更加期待后續(xù)的AI給大家?guī)淼淖兓?/p> 說到這,我用簡短的一篇文章告訴大家什么是AI: 人工智能(簡稱“AI”)是一門研究如何使計(jì)算機(jī)能夠模擬和執(zhí)行人類智能任務(wù)的科學(xué)和技術(shù)領(lǐng)域。通俗來說就是,先讓計(jì)算機(jī)進(jìn)行學(xué)習(xí),然后讓計(jì)算機(jī)預(yù)測未知。 AI主要由三要素組成:算法、數(shù)據(jù)、算力。一張“AI果樹圖”來表示,詳見圖一。 圖一:“AI果樹” 現(xiàn)在大家所使用的AI大模型應(yīng)用,有文字的、有圖片的、有語音的、有視頻的······就像人類的五感一樣,例如視覺信息、聽覺信息;每一種信息就是一種模態(tài)。 單一文字、圖片、語音、視頻等都是單一模態(tài),而不同模態(tài)之間的轉(zhuǎn)換,則統(tǒng)稱為“多模態(tài)大模型”。 那么多模態(tài)之間是怎么轉(zhuǎn)換的,這里就不得不提到Large Language Model(大語言模型,簡稱“LLM”),LLM作為AI的核心“大腦”,不同模態(tài)的輸入(文本、圖像、音頻、視頻)通過各自的編碼器和映射層轉(zhuǎn)換成AI能理解的“數(shù)字語言”,并確保其現(xiàn)實(shí)的含義保持一致(如狗狗的圖片、聲音和文字描述,在AI眼中都指向同一個(gè)概念),再進(jìn)入LLM后將其都進(jìn)行語義理解,然后LLM輸出的內(nèi)容再通過映射層和擴(kuò)散模型,生成相應(yīng)的模態(tài)輸出。可以簡單理解為LLM是專業(yè)的翻譯官,它能分析其中的規(guī)律和聯(lián)系,就像人類理解看到狗狗的圖片,或者聽見別人說“狗”的概念一樣自然。 圖二:多模態(tài)轉(zhuǎn)換過程 LLM又是怎么理解的呢?可以想象一下大家在學(xué)英文單詞的時(shí)候,老師教會大家讀“Text”,你會讀了但是你不知道是什么意思,這個(gè)時(shí)候老師告訴你,text是文本的意思。給了你單詞和翻譯的語義,這個(gè)過程就是語義理解的過程。訓(xùn)練大模型的語義理解能力,主要是需要把理解好的數(shù)據(jù)丟給大模型學(xué)習(xí),就像給一本單詞書去學(xué)習(xí)一樣。 那為什么都叫大模型呢?其實(shí)大模型,都是由小模型組成,例如AI作畫里面包含了:語義理解、文字生成圖片、目標(biāo)檢測、人臉檢測等一眾小模型。 我們現(xiàn)在常用的大模型則是通過prompt(提示詞)去獲取自己想要的答案,簡單理解為“你問AI來答”。當(dāng)詢問的越精準(zhǔn),AI就回答的越準(zhǔn)確,樣例見圖三。 作為目前還在快速發(fā)展的AI進(jìn)化階段,大家在使用的時(shí)候最好是能夠把自己的要求說的盡可能清楚,寫好prompt,才能得到比較好的結(jié)果。 以上則是AI簡單的科普,歡迎大家有其他更高更深度的內(nèi)容一起留言評論區(qū)討論~ |
19款電子扎帶
電路板識別電子標(biāo)簽