原创 weekly report

20250219周报

发表于2025-02-19更新于2025-04-17

字数总计:549阅读时长:1分钟阅读量: 上海

20250219周报

风铃夜行2025-02-192025-04-17

周报 20250213~20250219

论文阅读及复现

正在阅读 Deepseek LLM

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

学习了 LlaMA 架构

pre-Norm 把归一层放前面(我在复现Transformers架构时好像也这么做了)

RMSNorm 一种更高效的归一层
与传统的Layer Norm相比，RMSNorm计算起来更加高效，因为它不需要对输入进行减去均值的操作，从而减少了计算量和内存占用。

给定一个输入向量(x)，RMSNorm的输出可以表示为：
[ y = \frac{x}{\sqrt{\mathbb{E}[x^2] + \epsilon}} \cdot \gamma ]

这里：

( \mathbb{E}[x^2] ) 表示输入向量(x)各元素平方的平均值。

( \epsilon ) 是一个小的常数，用于防止分母为零的情况，保证数值稳定性。

( \gamma ) 是一个可学习的参数，用于缩放归一化后的结果。

SwiGLU，一种具有门控机制的激活函数，增强模型非线性表达能力。

SwiGLU(x) = (Swish(xW) ⊙ xV) * b
Swish(x) = x * sigmoid(βx)

Rotary Embedding 将位置信息编码为旋转矩阵，作用于查询和键向量。
借助了复数的思想，通过绝对位置编码的方式实现了相对位置编码的效果

Grouped-Query Attention 将查询头分组，每组共享相同的键和值头。
可以在比较大的参数量时使用

超参选取实验

result:

好久不见，复杂度（这里计算了参数量）

在增加计算预算时，扩大模型规模比增加数据规模更有优势

MP5论文复现进度

总结：由于对虚拟机和docker等基本知识不够了解，浪费大量时间，因此几乎没有（

搞定了openai的api
minecraft agent的辅助库 minedojo 基于ubunto或macOS 尝试使用虚拟机搭建但不是很成功（虚拟机低手）
目前遇到不知道如何在虚拟机环境搭建代理的问题-平时使用的代理程序没有linux版本，正在寻找解决方案

其他

背单词
超前课堂进度自学操作系统中
在自己的虚拟机中尝试使用 rm /* 删除当前文件夹并成功重装（还好是空的虚拟机

风铃夜行

念念不忘，必有回响

原创 20250219周报

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Fengling's Blog！

weekly report11

喜欢这篇文章的人也看了

博客快捷键

shift K

关闭快捷键功能

shift A

打开/关闭中控台

shift M

播放/暂停音乐

shift D

深色/浅色显示模式

shift S

站内搜索

shift R

随机访问

shift H

返回首页

shift F

友链鱼塘

shift L

友链页面

shift P

关于本站

shift I

原版/本站右键菜单