Transformer 跨模态应用
从文本表征到多模态生成,理解 Transformer 如何适配文本、图像、音频和视频等不同模态的输入与输出。建议先完成「Transformer 核心机制」路径。
- 1
从文本到向量:Tokenization 与词嵌入
入门#tokenization#embedding#word2vec#nlp - 2
BERT 与 GPT:理解与生成的两条路线
中级#bert#gpt#pretraining#nlp#nlu#classification#generation - 3
句子嵌入:从 Token 级到语义检索
中级#sentence-embeddings#contrastive-learning#rag#retrieval#sbert - 4
Vision Transformer:当图像变成 Token 序列
中级#vision-transformer#vit#image-recognition#computer-vision - 5
多模态对齐:CLIP 与跨模态嵌入空间
中级#clip#multimodal#contrastive-learning#zero-shot#vision-language - 6
扩散模型基础:从噪声中生成
中级#diffusion#ddpm#generative-model#image-generation - 7
Diffusion Transformer:用 Transformer 做图像生成
高级#dit#diffusion#transformer#image-generation#stable-diffusion - 8
视频生成:时空注意力与 Sora 架构
高级#video-generation#sora#spatiotemporal-attention#dit#diffusion - 9
语音与 Transformer:从 Whisper 到 VALL-E
高级#audio#speech#whisper#vall-e#tts#transformer - 10
音乐生成:当 Transformer 学会作曲
高级#music-generation#musicgen#jukebox#transformer#audio