About 27 results
Open links in new tab
  1. 一文了解Transformer全貌(图解Transformer)

    Jan 21, 2025 · Transformer整体结构(输入两个单词的例子) 为了能够对Transformer的流程有个大致的了解,我们举一个简单的例子,还是以之前的为例,将法语"Je suis etudiant"翻译成英 …

  2. 怎么训练自己的ai小模型? - 知乎

    介绍 大语言模型(Large Language Model, LLM)的出现引发了全世界对AI的空前关注。 无论是ChatGPT、DeepSeek还是Qwen,都以其惊艳的效果令人叹为观止。 然而,动辄数百亿参数 …

  3. 为了实现大模型的本地部署,应该怎么配置电脑硬件? - 知乎

    想要流畅运行,推荐配置: 7b的模型:16GB内存。 13b模型: 32GB内存。 70b模型:64GB内存,32也能跑,太卡。 测试时的显存我的是22GB的2080N卡,CPU就是群普通的i5。不过我没印象是 …

  4. 神经网络模型train_loss下降,val_loss一直上升是什么原因? - 知乎

    变化趋势分析: train loss 不断下降,test loss不断下降,说明网络仍在学习;(最好的) train loss 不断下降,test loss趋于不变,说明网络过拟合; train loss 趋于不变,test loss不断下降,说 …

  5. 如何理解Benchmarks? - 知乎

    在读The kitti benchmarks suite文章中,不知道benchmark倒是是什么意思?是数据集的意思吗?和dataset有…

  6. 微软的power automate对日常办公用户来说,如何帮助提升工作? …

    Power Automate是微软的一款RPA工具,它需要使用微软的其他产品相互配合,工作效率提升的效果会更加明显。 首先需要了解一下微软的产品,除了日常使用的Office三件套以外,还 …

  7. 挑战 Transformer:全新架构 Mamba 详解

    Jan 21, 2025 · 算法 2 展示了作者所使用的主要选择机制。 这一套的思路由来已久,Transformers 里面的 QKV、LSTM里面的、Gating 都是类似的思想。 S4 和 选择性 SSM 的核心区别在于, …

  8. 最新M4版本的Mac,尝试本地部署deepseek的话,32b的模型哪个 …

    最新M4版本的Mac,尝试本地部署deepseek的话,32b的模型哪个版本的Mac可以跑起来?

  9. 如何最简单、通俗地理解Transformer? - 知乎

    这个东西很难说到底有没有一种简单、通俗地理解方式。 你看这个问题下面现在有60多个回答,我大概翻看了一下,几乎都是长篇大论,原因很简单,Transformer就不是简单几句话就能讲得 …

  10. 有没有下载Hugging Face模型的国内站点? - 知乎

    用Hugging Face的transformers时,需要下载模型,目前的下载站点是https://s3.amazonaws.com/models.hugg…