
一文了解Transformer全貌(图解Transformer)
Jan 21, 2025 · Transformer整体结构(输入两个单词的例子) 为了能够对Transformer的流程有个大致的了解,我们举一个简单的例子,还是以之前的为例,将法语"Je suis etudiant"翻译成英 …
怎么训练自己的ai小模型? - 知乎
介绍 大语言模型(Large Language Model, LLM)的出现引发了全世界对AI的空前关注。 无论是ChatGPT、DeepSeek还是Qwen,都以其惊艳的效果令人叹为观止。 然而,动辄数百亿参数 …
为了实现大模型的本地部署,应该怎么配置电脑硬件? - 知乎
想要流畅运行,推荐配置: 7b的模型:16GB内存。 13b模型: 32GB内存。 70b模型:64GB内存,32也能跑,太卡。 测试时的显存我的是22GB的2080N卡,CPU就是群普通的i5。不过我没印象是 …
神经网络模型train_loss下降,val_loss一直上升是什么原因? - 知乎
变化趋势分析: train loss 不断下降,test loss不断下降,说明网络仍在学习;(最好的) train loss 不断下降,test loss趋于不变,说明网络过拟合; train loss 趋于不变,test loss不断下降,说 …
如何理解Benchmarks? - 知乎
在读The kitti benchmarks suite文章中,不知道benchmark倒是是什么意思?是数据集的意思吗?和dataset有…
微软的power automate对日常办公用户来说,如何帮助提升工作? …
Power Automate是微软的一款RPA工具,它需要使用微软的其他产品相互配合,工作效率提升的效果会更加明显。 首先需要了解一下微软的产品,除了日常使用的Office三件套以外,还 …
挑战 Transformer:全新架构 Mamba 详解
Jan 21, 2025 · 算法 2 展示了作者所使用的主要选择机制。 这一套的思路由来已久,Transformers 里面的 QKV、LSTM里面的、Gating 都是类似的思想。 S4 和 选择性 SSM 的核心区别在于, …
最新M4版本的Mac,尝试本地部署deepseek的话,32b的模型哪个 …
最新M4版本的Mac,尝试本地部署deepseek的话,32b的模型哪个版本的Mac可以跑起来?
如何最简单、通俗地理解Transformer? - 知乎
这个东西很难说到底有没有一种简单、通俗地理解方式。 你看这个问题下面现在有60多个回答,我大概翻看了一下,几乎都是长篇大论,原因很简单,Transformer就不是简单几句话就能讲得 …
有没有下载Hugging Face模型的国内站点? - 知乎
用Hugging Face的transformers时,需要下载模型,目前的下载站点是https://s3.amazonaws.com/models.hugg…