作者小头像 Lv.5
更多个人资料
1617 成长值
36 关注
65 粉丝
+ 关注 私信

个人介绍

华为云云享专家,华为云HCDG核心贡献者、MindSpore资深开发者,Ascend优秀开发者,主要探索学习昇腾、昇思、CANN、华为计算、华为开源、华为云、书生大模型、AI Infra、AI4S

感兴趣或擅长的领域

鲲鹏、昇腾、软件开发、人工智能、云计算
个人勋章
  • 活跃之星
  • 考证狂人
成长雷达
1150
312
75
60
20

个人资料

个人介绍

华为云云享专家,华为云HCDG核心贡献者、MindSpore资深开发者,Ascend优秀开发者,主要探索学习昇腾、昇思、CANN、华为计算、华为开源、华为云、书生大模型、AI Infra、AI4S

感兴趣或擅长的领域

鲲鹏、昇腾、软件开发、人工智能、云计算

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • Datawhale
  • 昇腾
  • MindSpore
【Datawhale学习笔记】模型量化实战
模型量化实战 什么是量化量化,听起来是一个复杂的数学概念,但实际非常简单,就是用较少的信息来表示数据,在尽量不损失模型性能的前提下,降低资源开销。深度学习模型(无论是 CV 还是 NLP 领域)普遍表现出显著的参数冗余性。早在 1989 年,Yann LeCun 等人就在论文《Optimal Brain Damage》 中指出神经网络中存在大量参数可以被删除而不影响准确率;而后续著名的“彩...
机器学习
作者小头像 JeffDing 2026-01-28 11:53:34
3078
0
0
2026-01-28 11:53:34
999+
0
0
【Datawhale学习笔记】RLHF微调技术及实践
RLHF 技术详解有监督微调(Supervised Fine-tuning, SFT):即用成对的“(指令, 回答)”数据来训练模型SFT 的局限性:缺乏泛化能力:模型只能很好地响应数据集中出现过的指令模式,无法覆盖用户千奇百怪的真实意图。“对齐”不足:模型的回答可能在事实上正确,但在风格、语气、安全性或有用性上,并不符合人类的期望。它只知道“正确答案”,却不知道“更好的答案”。 SFT ...
人工智能
作者小头像 JeffDing 2026-01-25 10:07:08
419
0
0
2026-01-25 10:07:08
419
0
0
【Datawhale学习笔记】参数高效微调
PEFT 技术综述 技术发展脉络 Adapter TuningAdapter Tuning 是 PEFT 领域的开创性工作之一,由 Google 在 2019 年为 BERT 模型设计。其思路是在 Transformer 的每个块中插入小型的“适配器”(Adapter)模块。如图所示,左侧的 Transformer 层展示了 Adapter 模块是如何被集成进去的。Adapter 被插入到...
机器学习
作者小头像 JeffDing 2026-01-22 11:40:19
362
0
0
2026-01-22 11:40:19
362
0
0
【Datawhale学习笔记】深入大模型架构
手搓大模型体验 Llama2 架构总览Llama2 遵循了 GPT 系列开创的 Decoder-Only 架构。这意味着它完全由 Transformer 解码器层堆叠而成,天然适用于自回归的文本生成任务。 Llama2 的设计预归一化(Pre-Normalization):与经典 Transformer 的后归一化不同,输入在进入注意力层和前馈网络之前,都会先经过一次 RMS Norm。这...
网络
作者小头像 JeffDing 2026-01-18 15:47:41
386
1
0
2026-01-18 15:47:41
386
1
0
【Datawhale学习笔记】预训练模型实战
Bert Bert的工作范式预训练 (Pre-training)在一个庞大的、通用的文本语料库(如维基百科、书籍)上,通过特定的无监督任务来训练一个深度神经网络模型。这个阶段的目标不是为了完成某个具体的 NLP 任务,而是让模型学习语言本身的规律,比如语法结构、词语间的语义关系、上下文依赖等。训练完成后,就得到了一个包含了丰富语言知识的、参数已经训练好的预训练模型。微调 (Fine-tun...
机器学习
作者小头像 JeffDing 2026-01-16 10:28:53
1013
0
0
2026-01-16 10:28:53
999+
0
0
【Datawhale学习笔记】注意力机制及Transform代码实践
注意力机制 设计原理在解码器生成每一个词元时,不再依赖一个固定的上下文向量,而是允许它“回头看”一遍完整的输入序列,并根据当前解码的需求,自主地为输入序列的每个部分分配不同的注意力权重,然后基于这些权重将输入信息加权求和,生成一个动态的、专属当前时间步的上下文向量。通俗地理解为从“一言以蔽之”到“择其要者而观之”的转变 注意力机制详解 三部曲计算相似度使用解码器上一时刻的隐藏状态 ht−1...
神经网络
作者小头像 JeffDing 2026-01-13 12:02:57
478
0
0
2026-01-13 12:02:57
478
0
0
【Datawhale学习笔记】seq2seq代码实现
Seq2Seq 架构RNN 和 LSTM 处理序列数据。这些模型在三类任务中表现出色多对一(Many-to-One):将整个序列信息压缩成一个特征向量,用于文本分类、情感分析等任务。多对多(Many-to-Many, Aligned):为输入序列的每一个词元(Token)都生成一个对应的输出,如词性标注、命名实体识别等。一对多(One-to-Many):从一个固定的输入(如一张图片、一个类...
机器学习 神经网络
作者小头像 JeffDing 2026-01-13 10:34:59
406
0
0
2026-01-13 10:34:59
406
0
0
【Datawhale学习笔记】动手学RNN及LSTM
从零实现一个 RNN RNN 公式简化为了与后续的代码实现保持一致,此处采用一个不含偏置项(bias)的简化版 RNN,核心计算公式如下:ht=tanh⁡(Uxt+Wht−1)h_t = \tanh(U x_t + W h_{t-1})ht​=tanh(Uxt​+Wht−1​)其中, hth_tht​ 是当前时刻的隐藏状态, xtx_txt​ 是当前输入, ht−1h_{t-1}ht−1​...
Numpy 神经网络
作者小头像 JeffDing 2026-01-12 19:02:34
540
0
0
2026-01-12 19:02:34
540
0
0
【Datawhale学习笔记】基于Gensim的词向量实战
Gensim 简介Gensim (Generate Similar) 是一个功能强大且高效的Python库,专门用于处理原始的、非结构化的纯文本文档。它内置了多种主流的词向量和主题模型算法,如 Word2Vec、TF-IDF、LSA、LDA 等。 核心概念语料库:这是 Gensim 处理的主要对象,可以简单理解为训练数据集。分词后的文档通常表示为 list[list[str]];用于 TF...
机器学习 金融专区
作者小头像 JeffDing 2026-01-09 10:48:21
636
0
0
2026-01-09 10:48:21
636
0
0
【Datawhale学习笔记】Word2Vec
概述Word2Vec 通常被认为是一种浅层神经网络模型(Shallow Neural Network)。其"浅层"体现在网络结构的简单性上,它移除了传统神经概率语言模型(NNLM)中计算昂贵的非线性隐藏层,直接将投影层与输出层相连。这种简洁的设计使得 Word2Vec 的计算非常高效,从而能够在大规模语料库上进行训练。 目标与手段分离理解Word2Vec的关键在于区分其最终目标与实现手段。...
机器学习 神经网络
作者小头像 JeffDing 2026-01-09 10:30:01
660
0
0
2026-01-09 10:30:01
660
0
0
总条数:123
10
10
20
50
100
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 13

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注