ChatGPT 照片風格化轉換 AnimateDiff workflow - paulip114/blog GitHub Wiki
概要
鑒於最近很熱門的吉卜力風格照片,有些人會把電影片段的關鍵幀 key frame 拿去喂給 ChatGPT 做吉卜力風格轉換,再拿去 Kling AI / Herda / Luma 之類的 AI 影片生成影片平臺,通過每一顆鏡頭的首尾兩幀生成吉卜力風格的影片。
如果手動操作的話,過程繁瑣,如果鏡頭比較多,需要轉換的關鍵幀會非常多,耗時很久。想試試看通過自動化工作流來解決這個問題
Workflow 工作流:
- user 上傳兩張照片
首尾兩幀,Prompt用吉卜力風格重畫 - 開兩條 threads 將首尾兩幀 + Prompt 喂給 OpenAI API
- 等待 OpenAI API return 結果
兩張圖 - 將兩張圖喂給 AnimateDiff 生成影片
- 將影片結果 return 到 UI 以供下載
可行性:
在查閲相關資料以後,發現 AI 影片生成影片平臺主要是使用 Stable Diffusion 的分支 AnimateDiff 在首尾兩幀圖片之間插幀,並在每幀推論人物背景的移動方式,生成出動畫。
由於目前已有 OpenAI API 可以使用,所以 Step 1 - 3 不是問題
UI 的部分可以用 Gradio,可以參考這個 Image to video MVP : image2video
AnimateDiff 還在研究中,考慮到如果將這個 workflow open to public 的話,會需要更有彈性的部署以及水平拓展方式,所以希望能夠 Dockerize
Reference: