Neural Vision

Заметки: мультимодальные мосты LLM ↔ Vision

2026-03-15

#LLM#ComputerVision#PyTorch
Article

Заметки: мультимодальные мосты LLM ↔ Vision

Зачем мост

Объединяем текстовые и визуальные эмбеддинги в общее пространство.

Ограничения

  • размер контекста
  • латентность cross-attention

Код

pip install torch torchvision --index-url https://download.pytorch.org/whl/cpu

Дальше

Интеграция с FastAPI и кэширование эмбеддингов.