ChatGPT 照片風格化轉換 AnimateDiff workflow - paulip114/blog GitHub Wiki

概要

鑒於最近很熱門的吉卜力風格照片，有些人會把電影片段的關鍵幀 key frame 拿去喂給 ChatGPT 做吉卜力風格轉換，再拿去 Kling AI / Herda / Luma 之類的 AI 影片生成影片平臺，通過每一顆鏡頭的首尾兩幀生成吉卜力風格的影片。

如果手動操作的話，過程繁瑣，如果鏡頭比較多，需要轉換的關鍵幀會非常多，耗時很久。想試試看通過自動化工作流來解決這個問題

在查閲相關資料以後，發現 AI 影片生成影片平臺主要是使用 Stable Diffusion 的分支 AnimateDiff 在首尾兩幀圖片之間插幀，並在每幀推論人物背景的移動方式，生成出動畫。

由於目前已有 OpenAI API 可以使用，所以 Step 1 - 3 不是問題

UI 的部分可以用 Gradio，可以參考這個 Image to video MVP : image2video

AnimateDiff 還在研究中，考慮到如果將這個 workflow open to public 的話，會需要更有彈性的部署以及水平拓展方式，所以希望能夠 Dockerize

Reference: