Заметки: мультимодальные мосты LLM ↔ Vision
2026-03-15
#LLM#ComputerVision#PyTorch
Article
Заметки: мультимодальные мосты LLM ↔ Vision
Зачем мост
Объединяем текстовые и визуальные эмбеддинги в общее пространство.
Ограничения
- размер контекста
- латентность cross-attention
Код
pip install torch torchvision --index-url https://download.pytorch.org/whl/cpu
Дальше
Интеграция с FastAPI и кэширование эмбеддингов.