Transformer 核心机制

从网络结构到注意力机制，深入理解 Transformer 的每一个组件