AI 到底是如何將文字變影片?解析 Meta 最新 Make-A-Video 架構和技術突破

Meta (原 Facebook) 在 2022/09/29 發佈了最新的文字轉影片 AI,名稱叫做 Make-A-Video,我覺得算是一個滿值得研究的技術突破,也很好奇背後運作的原理,於是這次拜讀了他們發表的 Paper,大概了解一下整個 Text-to-Video (T2V) AI 的架構。

雖然說是文字轉影片,但其實主要的基底還是透過文字轉圖片的模型來實現,因為既然已經有模型可以將文字轉成圖片了,那就不用再造一個輪子去做文字轉影片的模型,畢竟影片也是建築在圖片之上,是由多個圖片所組成的。

由 Make-A-Video 產出的影片範例 (source: Make-A-Video)

過去技術上的瓶頸

研究中有提到,過去文字轉影片的技術一直遲遲無法有進展,有兩個主要原因

閱讀更多»
廣告