歡迎來到科普中國特別推出的寒假精品欄目“給孩子的高新科技課”! 人工智能作為當(dāng)今最前沿的科技之一,正在以令人驚嘆的速度改變著我們的生活。從智能語音助手到無人駕駛汽車,從 AI 繪畫到機(jī)器學(xué)習(xí),它為我們打開了一個(gè)充滿無限可能的未來。本欄目將以通俗易懂的方式,用視頻和文字給孩子講述人工智能的原理、應(yīng)用及其對(duì)社會(huì)的深遠(yuǎn)影響。 快跟我們一起開啟這場(chǎng) AI 之旅吧! 以下為文字版本: (閱讀大約需要 5 分鐘) 這是一位英國小女孩蘇珊,這是她的爸爸,亞當(dāng)。在這對(duì)父女的照上有一個(gè)相同點(diǎn),仔細(xì)看一看他們的照片,你能找到這個(gè)共同點(diǎn)嗎? AI 生成圖片 好吧,揭曉答案。共同點(diǎn)就是,這兩張照片都是 AI 生成的,沒有什么蘇珊和亞當(dāng)父女,他們的身份是瞎編的。 看到這樣的照片,你可能會(huì)覺得有點(diǎn)驚訝,畢竟在過去,游戲、動(dòng)畫電影里的人物做的再逼真,還是能一眼看出這是 AI 合成的人像。但現(xiàn)在這兩張圖片上的人,看著幾乎跟真人差不多。 除了生成人類照片,AI 還可以根據(jù)我們的需求畫出各種各樣風(fēng)格的照片。今天這一集,我們就來說一說 AI 是怎么樣畫出這樣的圖片的? 生成式對(duì)抗網(wǎng)絡(luò) AI 生成圖像的背后,有一項(xiàng)非常重要的技術(shù)——GAN。 GAN 是 Generative Adversarial Networks 的首字母縮寫,意思是生成式對(duì)抗網(wǎng)絡(luò)。它是 2014 年,伊恩·古德菲洛和他的同事一起提出的。GAN 聽起來很高大上,但它的原理其實(shí)非常好理解。 假如我們要建立一個(gè) GAN,專門畫人臉照片。在這個(gè)網(wǎng)絡(luò)里面,有兩個(gè)重要的成員,生成器和鑒別器。 生成器的任務(wù)就是負(fù)責(zé)生成人像圖片,這些生成的圖片,會(huì)和真人的照片混在一起,讓鑒別器去做判斷。鑒別器要識(shí)別出,哪些是生成器生成的,哪些是真正的人類照片。 如果生成器生成的照片如果騙過了鑒別器,那么生成器就得分,反之就是鑒別器得分。 可以想象,最開始的時(shí)候,生成器生成的照片其實(shí)非常簡(jiǎn)單,放在真實(shí)照片里面一眼就能看出來。 但隨著成千上萬次的學(xué)習(xí)訓(xùn)練,生成器生成的圖片會(huì)越來越接近真實(shí)的人類照片。在這個(gè)過程中,鑒別器為了得分,也需要提升自己的鑒別能力。 而為了騙過越來越聰明的鑒別器,生成器又要繼續(xù)提升自己的能力,就這樣,經(jīng)過幾千萬次的訓(xùn)練,AI就能畫出極其逼真的人像了。 圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛 當(dāng)然了,除了畫人像,人們也可以讓 GAN 去畫不同風(fēng)格的圖像。 比如讓 GAN 生成畢加索風(fēng)格的畫,那它的鑒別器就不再需要判斷圖片是不是像真人了,而是需要判斷出哪些圖片是畢加索的真跡,哪些是 AI 生成的作品,在這樣的訓(xùn)練下,就可以畫出不同類型風(fēng)格的圖片了。Style GAN 模型做的就是這件事。 除了 GAN,還有一種圖像生成技術(shù)——Stable Diffusion。最近比較火的 MidJourney 就是通過這種模型生成的。簡(jiǎn)單地說,Stable Diffusion 能夠?qū)⒁欢央s亂無序的噪聲圖像一步步去噪聲,最終生成預(yù)期圖片的過程。 當(dāng)然了,我們今天熟悉的圖像生成軟件還有一個(gè)很重要的功能,根據(jù)自然語言描述的內(nèi)容生成圖像。 這個(gè)過程可不簡(jiǎn)單,但幸好有兩項(xiàng)技術(shù),讓這件事成為了可能。 首先是圖像識(shí)別技術(shù)。在過去幾十年里,無論是自動(dòng)駕駛、還是搜索圖片中的物品,它們都依賴于 AI 對(duì)圖像上內(nèi)容的識(shí)別。在這個(gè)過程中,人類已經(jīng)對(duì)大量圖片上的內(nèi)容進(jìn)行了標(biāo)注,并且用它們訓(xùn)練 AI,讓 AI 能夠識(shí)別出各種各樣的東西。 另一項(xiàng)重要技術(shù),就是自然語言識(shí)別了。在過去幾十年時(shí)間里,人們也一直在想辦法讓 AI 看得懂我們寫的字,了解我們?cè)谡f什么。這讓 AI 能夠更好地理解我們給定的文本的含義。 當(dāng)你說“樹上有只貓頭鷹”的時(shí)候,計(jì)算機(jī)能夠知道你說的是一種鳥,而不是樹上有一只“貓”一個(gè)“頭”,外加一只“鷹”。 在圖像識(shí)別和自然語言處理技術(shù)日趨成熟之后,一種叫做跨模態(tài)檢索的技術(shù)出現(xiàn)了。 模態(tài)說的是數(shù)據(jù)的存在形式,比如文本、圖像、視頻等形式??缒B(tài)檢索能夠?qū)⒉煌B(tài)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)對(duì)應(yīng),比如將文本中的“杯子”和圖片中杯子的圖像建立關(guān)聯(lián)。 在跨模態(tài)檢索技術(shù)的幫助下,AI 就可以把我們輸入的文本信息轉(zhuǎn)化成圖像信息了。 在今天,基于 GAN、stable diffusion 的 AI 圖像生成技術(shù)已經(jīng)有了非常多的應(yīng)用。除了在圖像生成上,在生成音樂、視頻、文字生成上面都有極其廣泛的應(yīng)用。 甚至從 2022 年末開始,很多公司就放出風(fēng)聲,要用 AI 畫師代替人類畫師。而在各種各樣的社交媒體上,我們也可能看到 AI 生成的圖片和視頻了。 當(dāng)然了,對(duì)于 AI 生成圖片、視頻之類的事情,有一些人也表示了擔(dān)憂,畢竟,它們生成的照片視頻實(shí)在是太逼真了,有些不懷好意的人,可能會(huì)拿這些照片進(jìn)行詐騙,或者造謠生事。 很多 AI 公司也考慮到了這一點(diǎn),開始對(duì)提供的 AI 服務(wù)做出了一些限制。而很多國家也紛紛開始考慮,要完善對(duì) AI 生成式內(nèi)容的法律法規(guī)。 相信隨著規(guī)則的健全以及技術(shù)的進(jìn)一步發(fā)展,AI 技術(shù)給我們帶來的利會(huì)遠(yuǎn)遠(yuǎn)超它們的弊,AI 終將會(huì)更好地為人類服務(wù)。 策劃制作 本文為科普中國-創(chuàng)作培育計(jì)劃作品 出品|中國科協(xié)科普部 監(jiān)制|中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司 作者丨北京云御紀(jì)文化傳播有限公司 審核丨秦曾昌 北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院 副教授 策劃丨符思佳 責(zé)編丨符思佳 審校丨徐來 林林 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽