本站内容由 AI 生成，可能存在错误。如发现问题，欢迎到 GitHub Issues 反馈。

Transformer 跨模态应用

从文本表征到多模态生成，理解 Transformer 如何适配文本、图像、音频和视频等不同模态的输入与输出。建议先完成「Transformer 核心机制」路径。

1

从文本到向量：Tokenization 与词嵌入
入门

#tokenization#embedding#word2vec#nlp
2

BERT 与 GPT：理解与生成的两条路线
中级

#bert#gpt#pretraining#nlp#nlu#classification#generation
3

句子嵌入：从 Token 级到语义检索
中级

#sentence-embeddings#contrastive-learning#rag#retrieval#sbert
4

Vision Transformer：当图像变成 Token 序列
中级

#vision-transformer#vit#image-recognition#computer-vision
5

多模态对齐：CLIP 与跨模态嵌入空间
中级

#clip#multimodal#contrastive-learning#zero-shot#vision-language
6

扩散模型基础：从噪声中生成
中级

#diffusion#ddpm#generative-model#image-generation
7

Diffusion Transformer：用 Transformer 做图像生成
高级

#dit#diffusion#transformer#image-generation#stable-diffusion
8

视频生成：时空注意力与 Sora 架构
高级

#video-generation#sora#spatiotemporal-attention#dit#diffusion
9

语音与 Transformer：从 Whisper 到 VALL-E
高级

#audio#speech#whisper#vall-e#tts#transformer
10

音乐生成：当 Transformer 学会作曲
高级

#music-generation#musicgen#jukebox#transformer#audio