← 返回目录

使用AI来剪视频

📅 创建时间：2026年05月05日 18:54

🔄 最后更新：2026年05月07日 20:17

板块：未分类

1 SentrySearch，开源视频语义搜索工具

Gemini Embedding 2 的优势：

几乎无信息丢失：传统路径中，字幕模型经常“说不清”复杂动作（如“红色卡车突然切入盲区”），OCR 只能抓静态文字，STT 忽略语气、背景音、情绪。Gemini 直接从像素和波形学习，能捕捉视觉组成、运动轨迹、时序关系、音频非语言线索。
纯视觉场景更强：没有对话或文字的视频（如行车记录仪纯画面），传统路径容易生成泛化描述，而 Gemini 能直接“看懂”动作。
跨模态更自然：文本查询“绿灯左转时被后车追尾”能直接匹配视频片段，无需人工提示工程。

Hardware	Install command	Auto-detected model	Notes
Apple Silicon, 24 GB+ RAM	`uv tool install ".[local]"`	qwen8b	Full float16 via MPS
Apple Silicon, 16 GB RAM	`uv tool install ".[local]"`	qwen2b	8B won't fit; 2B uses ~6 GB
Apple Silicon, 8 GB RAM	`uv tool install ".[local]"`	qwen2b	Tight — may swap under load; Gemini API recommended instead
NVIDIA, 18 GB+ VRAM	`uv tool install ".[local]"`	qwen8b	Full bf16 precision (CUDA wheels pulled automatically on Linux/Windows)
NVIDIA, 8–16 GB VRAM	`uv tool install ".[local-quantized]"`	qwen8b	4-bit quantization (~6–8 GB)

就是配置要求有点高