1 SentrySearch,开源视频语义搜索工具
Gemini Embedding 2 的优势:
- 几乎无信息丢失:传统路径中,字幕模型经常“说不清”复杂动作(如“红色卡车突然切入盲区”),OCR 只能抓静态文字,STT 忽略语气、背景音、情绪。Gemini 直接从像素和波形学习,能捕捉视觉组成、运动轨迹、时序关系、音频非语言线索。
- 纯视觉场景更强:没有对话或文字的视频(如行车记录仪纯画面),传统路径容易生成泛化描述,而 Gemini 能直接“看懂”动作。
- 跨模态更自然:文本查询“绿灯左转时被后车追尾”能直接匹配视频片段,无需人工提示工程。
| Hardware | Install command | Auto-detected model | Notes |
|---|---|---|---|
| Apple Silicon, 24 GB+ RAM | uv tool install ".[local]" |
qwen8b | Full float16 via MPS |
| Apple Silicon, 16 GB RAM | uv tool install ".[local]" |
qwen2b | 8B won't fit; 2B uses ~6 GB |
| Apple Silicon, 8 GB RAM | uv tool install ".[local]" |
qwen2b | Tight — may swap under load; Gemini API recommended instead |
| NVIDIA, 18 GB+ VRAM | uv tool install ".[local]" |
qwen8b | Full bf16 precision (CUDA wheels pulled automatically on Linux/Windows) |
| NVIDIA, 8–16 GB VRAM | uv tool install ".[local-quantized]" |
qwen8b | 4-bit quantization (~6–8 GB) |
就是配置要求有点高