ChatGPT 照片風格化轉換 AnimateDiff workflow - paulip114/blog GitHub Wiki

概要

鑒於最近很熱門的吉卜力風格照片,有些人會把電影片段的關鍵幀 key frame 拿去喂給 ChatGPT 做吉卜力風格轉換,再拿去 Kling AI / Herda / Luma 之類的 AI 影片生成影片平臺,通過每一顆鏡頭的首尾兩幀生成吉卜力風格的影片。

如果手動操作的話,過程繁瑣,如果鏡頭比較多,需要轉換的關鍵幀會非常多,耗時很久。想試試看通過自動化工作流來解決這個問題

Workflow 工作流:

  1. user 上傳兩張照片 首尾兩幀,Prompt 用吉卜力風格重畫
  2. 開兩條 threads 將首尾兩幀 + Prompt 喂給 OpenAI API
  3. 等待 OpenAI API return 結果 兩張圖
  4. 將兩張圖喂給 AnimateDiff 生成影片
  5. 將影片結果 return 到 UI 以供下載

可行性:

在查閲相關資料以後,發現 AI 影片生成影片平臺主要是使用 Stable Diffusion 的分支 AnimateDiff 在首尾兩幀圖片之間插幀,並在每幀推論人物背景的移動方式,生成出動畫。

由於目前已有 OpenAI API 可以使用,所以 Step 1 - 3 不是問題

UI 的部分可以用 Gradio,可以參考這個 Image to video MVP : image2video

AnimateDiff 還在研究中,考慮到如果將這個 workflow open to public 的話,會需要更有彈性的部署以及水平拓展方式,所以希望能夠 Dockerize

Reference: