1 SentrySearch,开源视频语义搜索工具

Gemini Embedding 2 的优势:

  • 几乎无信息丢失:传统路径中,字幕模型经常“说不清”复杂动作(如“红色卡车突然切入盲区”),OCR 只能抓静态文字,STT 忽略语气、背景音、情绪。Gemini 直接从像素和波形学习,能捕捉视觉组成、运动轨迹、时序关系、音频非语言线索。
  • 纯视觉场景更强:没有对话或文字的视频(如行车记录仪纯画面),传统路径容易生成泛化描述,而 Gemini 能直接“看懂”动作。
  • 跨模态更自然:文本查询“绿灯左转时被后车追尾”能直接匹配视频片段,无需人工提示工程。
Hardware Install command Auto-detected model Notes
Apple Silicon, 24 GB+ RAM uv tool install ".[local]" qwen8b Full float16 via MPS
Apple Silicon, 16 GB RAM uv tool install ".[local]" qwen2b 8B won't fit; 2B uses ~6 GB
Apple Silicon, 8 GB RAM uv tool install ".[local]" qwen2b Tight — may swap under load; Gemini API recommended instead
NVIDIA, 18 GB+ VRAM uv tool install ".[local]" qwen8b Full bf16 precision (CUDA wheels pulled automatically on Linux/Windows)
NVIDIA, 8–16 GB VRAM uv tool install ".[local-quantized]" qwen8b 4-bit quantization (~6–8 GB)

就是配置要求有点高