马林梵多童话镇

总有一条蜿蜒在童话镇里七彩的河.

多CUDA版本共存

CUDA 多版本共存引言什么是 CUDA: CUDA(Compute Unified Device Architecture)是 NVIDIA 推出的通用并行计算平台和编程模型,通过利用 GPU 的处理能力提升计算性能,支持C、C++、Python等多种语言编程。CUDA 有两个API:Runtime API、Driver API,分别位于软件栈的不同层级,共同支撑 GPU 并行计算的实现 ......

Elasticsearch 之分页查询

Elasticsearch 之分页查询引言在搜索引擎应用中,分页查询是一种常见需求。Elasticsearch 提供了多种分页方式以应对不同场景。本文将结合实际应用场景,介绍三种常用的分页查询方法 From + Size 分页查询1234567891011121314151617GET /content_item_profile/_search{ "from": 0, "siz......

PDM:下一代 Python 包管理器

PDM:下一代 Python 包管理器引言Python Development Master (PDM) 是一款现代化的 Python 包管理器,旨在提供更高效、更灵活的项目依赖管理解决方案。与传统的包管理器(如 Pipenv、Poetry)不同,PDM 基于 PEP 582(Python 本地包目录)提案,不再强制依赖虚拟环境,从而有效避免了虚拟环境嵌套可能引发的冲突和管理复杂性。PDM ......

NCNN 模型 INT8 量化

NCNN 模型 INT8 量化在移动设备上部署深度学习模型时,模型的推理速度和内存占用是关键考虑因素。NCNN 作为腾讯开源的轻量级神经网络推理框架,为移动端优化提供了强大的支持。其中,INT8 量化技术是提升模型性能、降低资源消耗的重要手段。最近公司刚好也有业务需求,需要在手机端部署数字人,故探索了下 NCNN 的量化。本文将基于 NCNN 官方文档,详细介绍如何将浮点模型 F32 量化为......

FFmpeg 编译安装和静态安装

FFmpeg 编译安装和静态安装简介FFmpeg 是一个领先的多媒体框架,能够解码、编码、转码、复用、解复用、流化、过滤和播放几乎所有人类和机器创建的格式。本指南将详细介绍如何在 CentOS 8.5.2111 系统上从源代码编译并安装 FFmpeg 6.1.1 版本。从源代码编译安装可以确保您获得最新版本的功能,并可以根据您的特定需求进行定制。本博客主要依赖于 manus 生成,我通过 m......

DeepSeek 之 MTP(Multi-Token Prediction)

DeepSeek 之 MTP(Multi-Token Prediction)当前主流的 LLM 主要采用 Decoder-only 为基础的模型结构。这意味着无论是在训练还是推理阶段,序列的生成都是逐个 token 进行的。在生成每个 token 时,模型需要频繁地进行访存操作,加载 KV Cache,往往成为训练或推理过程中的瓶颈。MTP 通过优化解码阶段,可以将单个 token 的生成转......

DeepSeek 之 MoE(Mixture-of-Experts)

DeepSeek 之 MoE(Mixture-of-Experts)DeepSeek 团队通过引入 MoE(Mixture of Experts,混合专家) 机制,以“分而治之”的思想,在模型容量与推理成本之间找到了精妙的平衡点,其中的技术实现和细节值得剖思 Transformer 演变至 MoE标准的 Transformer 层T表示序列长度,Self-Att(·) 表示自注意力模块,FF......

LLM 中的 Decoder Only

LLM 中的 Decoder Only为什么现在的大模型大都是 decoder only 架构?这个问题想来稀松平常,经常能看到各大社区中的众多回答,但对于该问题的了解也非常碎片化,今天就系统的对该问题进行归纳梳理 Encoder 和 Decoder 的区别Encoder encoder 的主要功能是处理输入数据,并将其转换成向量化表示,这种表示捕捉了输入数据的重要特征。encoder 较为......

LLM 中的 Causal Decoder、Prefix Decoder 和 Encoder-Decoder

LLM 中的 Causal Decoder、Prefix Decoder 和 Encoder-DecoderMask 机制在 Transformer 模型中,mask 机制是一种用于在 self-attention 中的技术,用以控制不同 token 之间的注意力交互。 Mask 机制经常被用于NLP任务中,按照作用总体来说可以分成两类 Padding mask(填充掩码) 作用:用于处理非......

动态量化和静态量化

动态量化和静态量化量化神经网络中的计算通常以浮点数计算(Float32)进行,模型量化是指以较低的精度损失将这些浮点数计算近似为更低比特的计算,如Float16、Int8等。从而降低模型存储大小、降低显存占用、提升推理性能。在不同的需求下,选择不同的量化方案。 量化方案 线性量化与非线性量化 根据量化数据表示的原始数据范围是否均匀,可以将量化分为线性量化和非线性量化 对称量化与非对称量化......