Merkliste
Die Merkliste ist leer.
Der Warenkorb ist leer.
Kostenloser Versand möglich
Kostenloser Versand möglich
Bitte warten - die Druckansicht der Seite wird vorbereitet.
Der Druckdialog öffnet sich, sobald die Seite vollständig geladen wurde.
Sollte die Druckvorschau unvollständig sein, bitte schliessen und "Erneut drucken" wählen.
Multimodal Foundation Models
ISBN/GTIN

Multimodal Foundation Models

From Specialists to General-Purpose Assistants
BuchKartoniert, Paperback
CHF147.00

Beschreibung

This monograph presents a comprehensive survey of the taxonomy and evolution of multimodal foundation models that demonstrate vision and vision-language capabilities, focusing on the transition from specialist models to general-purpose assistants.The focus encompasses five core topics, categorized into two classes; (i) a survey of well-established research areas: multimodal foundation models pre-trained for specific purposes, including two topics - methods of learning vision backbones for visual understanding and text-to-image generation; (ii) recent advances in exploratory, open research areas: multimodal foundation models that aim to play the role of general-purpose assistants, including three topics - unified vision models inspired by large language models (LLMs), end-to-end training of multimodal LLMs, and chaining multimodal tools with LLMs.The target audience of the monograph is researchers, graduate students, and professionals in computer vision and vision-language multimodal communities who are eager to learn the basics and recent advances in multimodal foundation models.
Weitere Beschreibungen

Details

ISBN978-1-63828-336-2
ProduktartBuch
EinbandartKartoniert, Paperback
Verlag/Label
Erscheinungsdatum06.05.2024
Seiten230 Seiten
SpracheEnglisch
Weitere Details

Autor:in

Weitere Artikel mit diesem Autorennamen: Li, Chunyuan

Weitere Artikel mit diesem Autorennamen: Gan, Zhe

Weitere Artikel mit diesem Autorennamen: Yang, Zhengyuan

Vorschläge

Kürzlich von mir besucht