本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

Transformer 跨模态应用

从文本表征到多模态生成,理解 Transformer 如何适配文本、图像、音频和视频等不同模态的输入与输出。建议先完成「Transformer 核心机制」路径。

  1. 1

    从文本到向量:Tokenization 与词嵌入

    入门
    #tokenization#embedding#word2vec#nlp
  2. 2

    BERT 与 GPT:理解与生成的两条路线

    中级
    #bert#gpt#pretraining#nlp#nlu#classification#generation
  3. 3

    句子嵌入:从 Token 级到语义检索

    中级
    #sentence-embeddings#contrastive-learning#rag#retrieval#sbert
  4. 4

    Vision Transformer:当图像变成 Token 序列

    中级
    #vision-transformer#vit#image-recognition#computer-vision
  5. 5

    多模态对齐:CLIP 与跨模态嵌入空间

    中级
    #clip#multimodal#contrastive-learning#zero-shot#vision-language
  6. 6

    扩散模型基础:从噪声中生成

    中级
    #diffusion#ddpm#generative-model#image-generation
  7. 7

    Diffusion Transformer:用 Transformer 做图像生成

    高级
    #dit#diffusion#transformer#image-generation#stable-diffusion
  8. 8

    视频生成:时空注意力与 Sora 架构

    高级
    #video-generation#sora#spatiotemporal-attention#dit#diffusion
  9. 9

    语音与 Transformer:从 Whisper 到 VALL-E

    高级
    #audio#speech#whisper#vall-e#tts#transformer
  10. 10

    音乐生成:当 Transformer 学会作曲

    高级
    #music-generation#musicgen#jukebox#transformer#audio