基于素材 AI 自动剪辑开源项目调研与最佳方案(2026)

基于素材 AI 自动剪辑开源项目全景调研与最佳方案(2026)

全面调研 GitHub 上所有基于素材 AI 自动剪辑/生成的开源项目,涵盖文生视频、素材混剪、长转短裁剪、AI 解说、智能切片、Agentic 视频生成等全部技术路线。按方法分类对比,给出不同场景下的最优方案。


一、项目全景(按 Star 排序)

Tier 1:万星级项目(>10k ⭐)

项目 ⭐Stars 语言 定位 关键特性
MoneyPrinterTurbo 88,205 Python 一键文生短视频 文案→素材匹配→TTS→字幕→合成,全流程自动
Pixelle-Video 22,720 Python AI 全自动短视频引擎 ComfyUI/API 生图生视频+TTS+BGM,模板化,支持数字人/动作迁移
VideoLingo 17,485 Python Netflix 级字幕/翻译/配音 全自动视频搬运,字幕切割精准到词
CogVideo 12,785 Python 文/图生视频模型 智谱AI出品,文本→视频扩散模型
HunyuanVideo 12,207 Python 腾讯视频生成模型 大规模视频生成框架
KrillinAI 10,294 Go AI 视频翻译配音 100+语言,全链路(下载→转录→翻译→配音→合成)
ViMax 10,115 Python Agentic 视频生成 Agent 充当导演/编剧/制片,All-in-One
Toonflow 10,047 TypeScript AI 短剧/动画创作 小说→分镜→角色→动画短剧,桌面端

Tier 2:千星级项目(1k-10k ⭐)

项目 ⭐Stars 语言 定位 关键特性
NarratoAI 9,844 Python AI 解说+自动剪辑 影视解说方向,一键生成解说视频
ShortGPT 7,405 Python Shorts/TikTok 自动化 实验性框架,YouTube/TikTok 内容自动化
MoneyPrinterPlus 6,530 Python 批量混剪+多平台分发 本地素材混剪,自动发布抖音/快手/小红书
InfiniteTalk 6,905 Python 无限时长数字人视频 图/视频生视频,数字人口播
FunClip 5,813 Python 语音驱动精准裁剪 阿里达摩院,FunASR+LLM 高光检测
AutoClip 5,657 Python AI 视频智能切片 YouTube/B站下载→AI分析→自动切片→合集
auto-editor 4,425 Nim 静音/无动作自动剪切 信号检测式剪辑,极轻量
HunyuanVideo-1.5 4,485 Python 轻量视频生成模型 腾讯混元,轻量化推理
AI-Youtube-Shorts-Generator 3,884 Python Opus Clip 开源替代 长视频→竖屏短视频,LLM 高光检测
pyJianYingDraft 3,543 Python Python 生成剪映草稿 构建全自动化混剪流水线的关键桥梁
ChopperBot 2,717 Java 直播智能切片机器人 虎牙/斗鱼/抖音/B站直播切片+自动发布

Tier 2.5:千星级新兴项目

项目 ⭐Stars 语言 定位 关键特性
Edit Mind 1,600 TypeScript/Python 本地视频知识库 & 语义搜索 YOLO+DeepFace+Whisper 多模态索引,自然语言检索素材,NLE 集成(DaVinci/FCP)

Tier 3:百星级潜力项目(100-1000 ⭐)

项目 ⭐Stars 语言 定位
videoWater 1,096 Go 视频批量处理(水印/字幕/混剪/全自动剪辑)
JJYB_AI 智剪 911 HTML 智能剪辑+AI解说(离线TTS/混剪)
MoneyPrinterAICreate 298 Python 基于 MoneyPrinterTurbo,接入万相通义 AI 文/图生视频
ClippedAI 167 Python OpusClip 开源替代,100% 免费无限制
短视频矩阵混剪系统 140 Java 分钟级千条不重复混剪+多账号分发
n8n-youtube-to-shorts 108 N/A n8n 工作流:长视频→多条 Shorts

二、技术路线分类

路线 A:AI 全自动文生视频(Text-to-Video Pipeline)

代表:Pixelle-Video(22.7k⭐)、MoneyPrinterTurbo(88k⭐)、ShortGPT(7.4k⭐)

核心流程

输入主题/文案
    ↓
LLM 生成视频脚本(分段 + 画面描述)
    ↓
AI 生成配图/视频(ComfyUI / DashScope / WAN2.1 / Kling / Seedance)
    ↓
TTS 语音合成(Edge-TTS / ChatTTS / Index-TTS / CosyVoice)
    ↓
添加字幕 + BGM
    ↓
FFmpeg 合成最终视频

技术差异

项目 画面来源 视频质量 扩展性
Pixelle-Video ComfyUI 生图/生视频 + 直连 API(DashScope/Kling/Seedance) ⭐⭐⭐⭐⭐ 模板系统 + 数字人 + 动作迁移
MoneyPrinterTurbo Pexels/Pixabay 库存素材 ⭐⭐⭐ 简单高效,批量生产
ShortGPT Pexels + DALL-E ⭐⭐⭐ 实验性,社区维护

关键差异:Pixelle-Video 用 AI 生成画面(Diffusion 模型),MoneyPrinterTurbo 从公共库匹配画面。前者画面独特但需 GPU,后者零 GPU 但素材同质化。


路线 B:素材混剪/二次创作(Material-Driven Remix)

代表:MoneyPrinterPlus(6.5k⭐)、pyJianYingDraft(3.5k⭐)、JJYB_AI(911⭐)、video-clip-agent(26⭐)

核心流程

自有素材库(视频/图片)
    ↓
AI 多模态分析(语音→文字、画面→标签、情绪→节奏)
    ↓
智能筛选与排列组合(去重、去水印、匹配主题)
    ↓
自动添加转场/特效/字幕/BGM
    ↓
输出成片(FFmpeg 或生成剪映草稿)

技术栈

核心优势:使用自有素材、原创度高、适合带货/短剧推广/矩阵分发


路线 C:长视频→短视频裁剪(Long-to-Short Clipping)

代表:FunClip(5.8k⭐)、AutoClip(5.7k⭐)、AI-Youtube-Shorts-Generator(3.9k⭐)、ChopperBot(2.7k⭐)

核心流程

长视频(直播录像/播客/访谈/影视)
    ↓
ASR 高精度转录(FunASR / Whisper)
    ↓
LLM 分析 → 识别高光时刻/精彩片段
    ↓
精准时间戳裁剪
    ↓
竖屏 9:16 重构(人脸追踪裁切)
    ↓
自动加字幕 + 封面生成
    ↓
输出短视频

项目差异

项目 输入源 AI 分析方式 输出
FunClip 任意视频 FunASR + LLM 语义分析 精准时间戳裁剪
AutoClip YouTube/B站 通义千问多模态分析 切片 + 智能合集
AI-Shorts-Generator YouTube Whisper + GPT 高光检测 竖屏 Shorts
ChopperBot 直播流 实时弹幕/礼物/高能检测 直播切片 + 自动发布

路线 D:AI 解说驱动(Narration-Driven)

代表:NarratoAI(9.8k⭐)、JJYB_AI(911⭐)

核心流程

原始影视片段
    ↓
AI 理解剧情/画面内容(多模态 LLM)
    ↓
自动生成解说文案
    ↓
TTS 配音(情感化语音)
    ↓
按解说节奏重新裁剪和编排原片
    ↓
成片输出

适用:影视解说、纪录片解说、游戏解说


路线 E:Agentic 视频生成(Agent 驱动的全流程)

代表:ViMax(10.1k⭐)、Toonflow(10k⭐)、video-clip-agent(26⭐)

核心思路:用 AI Agent 模拟影视制作团队的协作流程。

ViMax 架构

用户输入主题/需求
    ↓
┌───────────────────────────────────────┐
│  Director Agent(导演)→ 整体规划      │
│  Screenwriter Agent(编剧)→ 写剧本    │
│  Producer Agent(制片)→ 资源调度       │
│  Video Generator → 生成最终视频        │
└───────────────────────────────────────┘
    ↓
多镜头、多场景的完整视频

Toonflow 架构

小说/剧本文本
    ↓
AI 编剧(剧本适配)→ 智能分镜 → 角色生成 → 视频渲染
    ↓
动画短剧

核心特征


路线 F:视频翻译/搬运(Translation & Repurpose)

代表:VideoLingo(17.5k⭐)、KrillinAI(10.3k⭐)

核心流程

外语视频
    ↓
下载 → ASR 转录 → AI 翻译 → TTS 配音 → 字幕对齐 → 合成
    ↓
本地化视频(保留原画面,替换语音和字幕)

路线 G:信号检测式剪辑(Signal-Based Auto-Cut)

代表:auto-editor(4.4k⭐)

核心流程

原始录制视频
    ↓
音频波形分析(静音检测)+ 画面动作检测
    ↓
自动剪除静音/无动作片段
    ↓
输出紧凑视频

特点:零 AI 成本、确定性 100%、极快速。只做"减法"不做创意。


路线 H:视频知识库 & 素材语义检索(Video Knowledge Base)

代表:Edit Mind(1.6k⭐)

核心流程

本地视频素材库
    ↓
后台自动索引(监听文件夹新增)
    ↓
┌──────────────────────────────────────────────────┐
│ Whisper 语音转录(全文可搜)                       │
│ YOLO 物体检测(人/车/动物等)                      │
│ DeepFace 人脸识别(按人物搜索)                    │
│ 场景描述(LLM 生成自然语言描述)                    │
│ OCR 画面文字识别                                  │
└──────────────────────────────────────────────────┘
    ↓
多模态向量融合 → ChromaDB 本地向量数据库
    ↓
自然语言搜索("找到 @张三 在谈论 AI 的片段")
    ↓
精准定位到帧 → 一键发送到 NLE 时间线

技术架构

组件 技术栈
Web 服务 React Router V7 + TypeScript + Vite
后台任务 Node.js + Express + BullMQ(队列)
ML 服务 Python + PyTorch + Whisper + YOLO + DeepFace
向量数据库 ChromaDB
关系数据库 PostgreSQL(Prisma ORM)
NLP 推理 Ollama(本地)或 Google Gemini
部署 Docker Compose(支持 CUDA)

核心优势

局限性

与其他路线的关系:Edit Mind 本身不生成或剪辑视频,而是素材检索基础设施。它可以作为路线 B(素材混剪)和路线 C(长转短)的上游工具——先用 Edit Mind 高效找到目标素材,再用其他工具完成剪辑。


三、全维度对比矩阵

维度 文生视频(A) 素材混剪(B) 长→短(C) 解说驱动(D) Agent驱动(E) 翻译搬运(F) 信号裁切(G) 素材检索(H)
代表项目 Pixelle MPP+剪映 FunClip NarratoAI ViMax VideoLingo auto-editor Edit Mind
素材来源 AI 生成 自有素材 已有长视频 已有视频 AI 生成 外语视频 录制素材 自有素材库
是否需要自有素材
GPU 需求 高(生图/生视频) 中(ML推理)
原创度 高(AI生成) 高(自有素材) 低(搬运) N/A N/A(不生成)
批量能力 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ N/A
画面质量 ⭐⭐⭐⭐(AI生成) 取决于素材 ⭐⭐⭐⭐⭐(原片) ⭐⭐⭐⭐⭐(原片) ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐(原片) ⭐⭐⭐⭐⭐ N/A
技术门槛 极低 低(Docker)
适合场景 知识科普/口播 带货/短剧推广 直播切片/播客 影视解说 创意短剧 视频搬运 Vlog/教程 大量素材管理
成本 GPU + API LLM API ASR + LLM LLM + TTS GPU + LLM ASR + TTS 免费 硬件(本地)

四、最佳方案推荐

🏆 场景 1:短剧/带货素材混剪

最佳方案MoneyPrinterPlus + pyJianYingDraft

自有素材库(产品视频/图片/短剧片段)
        ↓
MoneyPrinterPlus
├── AI 分析素材内容和情绪
├── 智能选取和排列
├── 自动去重(感知哈希)
├── 配音 + 字幕生成
        ↓
pyJianYingDraft(生成剪映工程文件)
├── 专业级转场效果
├── 花字/贴纸/特效
├── 精准字幕样式
        ↓
剪映批量导出(可微调也可直接导出)

为什么是最优解


🏆 场景 2:AI 生成视频(零素材)

最佳方案Pixelle-Video(22.7k⭐)

输入主题关键词
        ↓
LLM 生成分段脚本 + 画面描述
        ↓
ComfyUI / DashScope / WAN2.1 生成 AI 配图或视频
        ↓
Edge-TTS / Index-TTS 语音合成
        ↓
自动合成(含字幕、BGM、模板风格)

为什么选 Pixelle-Video 而非 MoneyPrinterTurbo

MoneyPrinterTurbo 仍适合的场景:不需要 GPU、要求极简部署、对画面独特性要求不高。


🏆 场景 3:长视频切短视频(直播/播客切片)

最佳方案FunClip(阿里达摩院)+ AutoClip

FunClip(精准裁剪)

长视频 → FunASR 中文转录(业界领先精度)→ LLM 识别高光 → 精准裁剪

AutoClip(完整平台)

YouTube/B站 URL → 自动下载 → AI 分析 → 切片 → 智能合集 → Web 管理

选择建议


🏆 场景 4:影视解说

最佳方案NarratoAI

影视原片 → AI 理解剧情 → 生成解说文案 → 情感化 TTS → 按节奏剪辑 → 成片

🏆 场景 5:视频翻译/搬运

最佳方案VideoLingo(字幕精度最优)或 KrillinAI(语言覆盖最广)

维度 VideoLingo KrillinAI
字幕精度 ⭐⭐⭐⭐⭐(Netflix级) ⭐⭐⭐⭐
语言数量 多语言 100+
配音质量 CosyVoice 克隆 多 TTS 后端
部署 Python Go(轻量)
平台适配 通用 优化抖音/B站/YouTube

🏆 场景 6:前沿 Agentic 方案(创意短剧/高质量生成)

最佳方案ViMax(10.1k⭐)或 Toonflow(10k⭐)

ViMax:适合想让 AI 从零创作视频的场景,Agent 自主充当导演/编剧/制片。

Toonflow:适合小说/剧本→动画短剧的场景,集成 AI 编剧、智能分镜、角色与视频生成。


🏆 场景 7:终极组合方案(2026 最前沿)

组合LLM Agent + 多模态分析 + pyJianYingDraft + Pixelle-Video

用户描述需求
  "用这批产品素材 + AI 生成的场景视频,做 10 条 30 秒带货短视频,节奏要快"
        ↓
LLM Agent(剪辑决策大脑)
        ↓ 调用工具链
┌──────────────────────────────────────────────────┐
│ FunASR 转录 │ CLIP 画面分析 │ 情绪节奏检测        │
│ Pixelle-Video 生成补充画面                        │
│ WAN2.1 文/图生视频                               │
└──────────────────────────────────────────────────┘
        ↓
Agent 输出剪辑决策(结构化 JSON)
  - 时间轴:哪些片段、什么顺序
  - 转场:每个切点的转场方式
  - 字幕:样式、位置、动画
  - BGM:节奏点匹配
        ↓
pyJianYingDraft 生成剪映草稿
        ↓
剪映渲染 → 多平台分发

核心理念AI 做决策,专业软件做渲染。这是目前最高效的范式。


🏆 场景 8:海量素材管理与智能检索

最佳方案Edit Mind(1.6k⭐)

TB 级本地素材库(硬盘/NAS/外置盘)
        ↓
Edit Mind Docker 部署,后台持续索引
├── Whisper 转录所有语音内容
├── YOLO 检测画面中的物体
├── DeepFace 识别人脸(按人物搜索)
├── LLM 生成每个场景的自然语言描述
├── OCR 识别画面文字
        ↓
自然语言搜索:"@张三 在办公室讨论方案的片段"
        ↓
精准定位 → 一键发送到 DaVinci Resolve / Final Cut Pro 时间线

为什么选 Edit Mind

适合人群:拥有大量素材的专业剪辑师、工作室、纪录片团队、自媒体创作者

注意:Edit Mind 不做剪辑,定位是"剪辑师的第二大脑"。搭配路线 B 的混剪工具或场景 7 的终极方案可构建完整的 AI 剪辑工作流。


五、关键技术组件清单

组件类别 推荐方案 说明
语音识别 (ASR) FunASR(中文最优)/ Whisper(多语言) 一切分析的基础
文生图 Flux / SDXL / 通义万相 配合 ComfyUI 工作流
文生视频 WAN2.1 / Kling / CogVideo / HunyuanVideo 动态画面生成
图生视频 WAN2.1 / Seedance / Kling 静态图→动态视频
语音合成 (TTS) CosyVoice(克隆)/ ChatTTS / Edge-TTS / Index-TTS 多音色、情感化
视觉理解 CLIP / Gemini Vision / 通义千问 VL 画面语义分析
LLM 决策 GPT-4o / Claude / DeepSeek / 通义千问 脚本生成+剪辑决策
视频处理 FFmpeg(裁剪/合成)/ MoviePy 基础处理
高质量渲染 pyJianYingDraft→剪映 / pyCapCut→CapCut 专业特效/转场/字幕
工作流引擎 ComfyUI / RunningHub AI 生图/生视频的编排
人脸追踪 MediaPipe / RetinaFace 竖屏裁切人脸居中
人脸识别 DeepFace / InsightFace 按人物检索素材(Edit Mind)
物体检测 YOLOv8+ 画面内容标注与检索
向量数据库 ChromaDB / Milvus 多模态语义搜索基础设施
数字人 MuseTalk / SadTalker / Pixelle 数字人模块 口播类内容

六、技术趋势总结

2025→2026 的三大变化

  1. 从"匹配素材"到"生成素材"

    • 2025:从 Pexels/Pixabay 匹配库存视频
    • 2026:用 WAN2.1/Kling/Seedance 直接 AI 生成,画面独特不重复
  2. 从"管道式"到"Agent 式"

    • 2025:固定管道(ASR→LLM→FFmpeg)
    • 2026:多 Agent 协作(导演/编剧/剪辑师各司其职),支持迭代优化
  3. 从"代码渲染"到"借力专业软件"

    • 2025:FFmpeg/MoviePy 直出,效果粗糙
    • 2026:生成剪映/CapCut 工程文件,借用专业软件的渲染能力

核心结论

谁先把 Agent 的决策能力和剪映/达芬奇的渲染能力无缝打通,谁就赢了这个赛道。

pyJianYingDraft(3.5k⭐)是当前这个桥梁的最佳实现。它不生成视频,只生成"剪辑方案"——但这正是 AI 最擅长的事。


七、快速决策表

你的情况 推荐方案 上手难度
有自有素材,要批量混剪 MoneyPrinterPlus + pyJianYingDraft ⭐⭐
零素材,要 AI 生成视频 Pixelle-Video ⭐⭐
零素材,要最简单的方案 MoneyPrinterTurbo
有长视频,要切精彩片段 FunClip / AutoClip ⭐⭐
做影视解说 NarratoAI ⭐⭐
做直播切片 ChopperBot / AutoClip ⭐⭐⭐
视频翻译搬运 VideoLingo / KrillinAI ⭐⭐
录制视频去废话 auto-editor
小说→动画短剧 Toonflow ⭐⭐
TB 级素材库,快速找片段 Edit Mind ⭐⭐
最前沿 Agent 方案 ViMax / 自建 Agent + pyJianYingDraft ⭐⭐⭐⭐

Star 数据截至 2026 年 6 月 17 日,实际数字请以 GitHub 为准。

参考项目链接: