多头注意力计算中的矩阵维度分析

Posted on 2025-07-09 In 研零学习记录

本篇博客作为我的个人学习记录，详细梳理了标准实现与优化实现中的权重矩阵结构、维度变化过程，并结合我自己实现的 MultiHeadAttention 类深入分析了 PyTorch 中一些关键函数的作用，包括 view()、reshape()、contiguous() 等在实现过程中的实际含义与区别。

从实现看理解：多头注意力机制

Posted on 2025-07-07 Edited on 2025-07-09 In 研零学习记录

"We call our model the Transformer. The model architecture is shown in Figure 1."
—— Attention is All You Need, Vaswani et al., 2017

在 Transformer 中，多头注意力机制（Multi-Head Attention, MHA）是核心组件之一。论文中虽然只用了短短几页进行描述，但其实现中蕴含着大量工程智慧与数学原则。本文将结合我自己复现的transformer和 GPT 模型，站在一个研零初学者的视角上，从 mask 使用、softmax 数值稳定性 角度，学习《Attention is All You Need》中的一些小细节，并结合实际代码加以分析。

数据结构：划分树

Posted on 2024-06-18 Edited on 2024-09-21 In 数据结构

施工中，未完待续...

引入

划分树是一种来解决区间第大的一种数据结构，其常数、理解难度都要比主席树低很多。同时，划分树紧贴「第大」，所以是一种基于排序的一种数据结构。

在学习划分树之前，建议各位可以先了解主席树，笔者计划在之后的博客中也会介绍

贝尔曼算子(Bellman Operators)与动态规划

Posted on 2024-06-14 Edited on 2024-06-28 In 强化学习

这篇博客介绍了强化学习中的Bellman算子以及使用Bellman算子来解释动态规划的迭代过程。

原本内容来自Stanford大学Ashwin Rao老师的lecture ：Understanding (Exact) Dynamic Programming through Bellman Operators，本篇博客是这个lecture的翻译/整理/学习笔记，包括以下七个部分

值函数的向量描述
Bellman算子
算子的收缩性的单调性
策略评估
策略迭代
值迭代
策略最优性

Python单纯形表计算

Posted on 2024-06-05 Edited on 2024-06-14

使用python进行单纯形表的计算，解决线性规划问题

数据结构：区间最值操作与区间历史最值

Posted on 2024-06-05 Edited on 2024-09-21 In 数据结构

本文讲解吉老师在 2016 年国家集训队论文中提到的线段树处理历史区间最值的问题。

数据结构：李超线段树

Posted on 2024-05-28 Edited on 2024-09-21 In 数据结构

引入

首先看一道题目：

洛谷 4097 HEOI2013Segment 要求在平面直角坐标系下维护两个操作（强制在线）：

在平面上加入一条线段。记第条被插入的线段的标号为，该线段的两个端点分别为，。

给定一个数，询问与直线相交的线段中，交点纵坐标最大的线段的编号（若有多条线段与查询直线的交点纵坐标都是最大的，则输出编号最小的线段）。特别地，若不存在线段与给定直线相交，输出。

数据满足：操作总数，，。