现在的大模型里神经元会有多少

水木社区手机版

主题:现在的大模型里神经元会有多少
楼主|prog2000|2025-10-11 11:52:07|只看此ID
deepseek满血版 671b，是可以处理6710亿个参数
但结点数或叫神经元的数量一般会有多少？
人脑有800多亿个神经元
现在的大模型还达不到这么多吧？
--
FROM 39.165.250.*
1楼|prog2000|2025-10-11 11:57:39|只看此ID
是叫维数吗？
【在 prog2000 的大作中提到: 】
: deepseek满血版 671b，是可以处理6710亿个参数
: 但结点数或叫神经元的数量一般会有多少？
: 人脑有800多亿个神经元
: ...................
--
FROM 39.165.250.*
2楼|cut188|2025-10-11 12:00:17|只看此ID
蚂蚁的神经元有多少个？为啥一定要搞成人呢，我看搞成个蚂蚁就能把世界翻个底朝天了。
--
FROM 124.64.17.*
3楼|adamhj|2025-10-11 12:24:02|只看此ID
deepseek的回答：

方法二：手动计算（理解模型结构）

要手动计算，你需要了解模型的基本架构。我们以典型的 Transformer 模型（如 GPT 系列）为例。

首先，明确两个概念：

    参数：包括权重和偏置。这是模型需要学习的内容。

    神经元/节点：通常指一层中计算输出的单元数量。一层的节点数通常等于该层的输出维度。

总节点数的计算公式可以近似为：
总节点数 ≈ (总参数量 - 嵌入层参数量 - 输出层参数量) / 2

为什么除以2？因为在一个全连接层中，连接N个输入节点和M个输出节点，需要 N * M 个权重和 M 个偏置。参数量是 N*M + M。而节点数就是 M。当 M 很大时，N*M 远大于 M，所以平均下来，每个节点大约对应 N 个参数（主要是权重）。一个更简单的估算方式是：对于两个紧密相连的层，它们的参数量主要存在于它们之间的权重矩阵中，这个矩阵的维度是 [输入维度, 输出维度]。我们可以粗略地认为这个矩阵的“归属”是输出层的节点。

我们以 GPT-3 175B 模型为例进行拆解计算：

一个 Transformer 模型主要由两部分组成：

    嵌入层：将输入词转换为向量。

    Transformer 块：模型的核心，由多个相同的层堆叠而成。每一层包含：

        自注意力机制

        前馈神经网络

计算步骤：

    确定关键配置（这些信息通常来自论文）：

        d_model 或 hidden_size：模型的隐藏层维度，比如 12288。

        n_layers：Transformer 块的层数，比如 96。

        n_heads：注意力头的数量。

        d_ff 或 ffn_hidden_size：前馈神经网络的中间层维度，通常是 d_model 的 4倍，比如 4 * 12288 = 49152。

        vocab_size：词表大小，比如 50257。

    计算各部分参数量：

        嵌入层参数：vocab_size * d_model = 50257 * 12288 ≈ 617M（约6.17亿）。这部分通常不被计入“节点”。

        一个Transformer块内的参数：

            自注意力部分：主要是Q、K、V和输出投影的权重矩阵。每个矩阵大小是 d_model * d_model。参数量约为 4 * (d_model * d_model)。

            前馈神经网络部分：

                第一层：d_model * d_ff

                第二层：d_ff * d_model

                总参数量约为 2 * (d_model * d_ff)

            一个块的总参数量 ≈ 4*d_model2 + 2*d_model*d_ff。
            代入 d_model=12288, d_ff=49152：
            ≈ 4*(12288)2 + 2*12288*49152
            ≈ 4*151M + 2*604M
            ≈ 604M + 1208M = 1812M（约18亿）

        所有Transformer块的总参数：n_layers * 每个块的参数 = 96 * 1812M ≈ 173,952M（约1740亿）。

        输出层参数：通常是一个与嵌入层共享权重的矩阵，参数量也是 vocab_size * d_model ≈ 617M。

        模型总参数量 ≈ 嵌入层参数 + 所有块参数 + 输出层参数
        ≈ 617M + 173,952M + 617M
        ≈ 175,186M（约1750亿），与官方数据吻合。

    估算总节点数：
    现在我们用开头的公式来估算：
    总节点数 ≈ (总参数量 - 嵌入层参数量 - 输出层参数量) / 2
    ≈ (175B - 0.617B - 0.617B) / 2
    ≈ (173.77B) / 2
    ≈ 86.9 Billion（约869亿个节点）

    这个数字可以理解为所有前馈神经网络层和注意力输出投影层的输出单元的总和。

【在 prog2000 的大作中提到: 】
: deepseek满血版 671b，是可以处理6710亿个参数
: 但结点数或叫神经元的数量一般会有多少？
: 人脑有800多亿个神经元
: ...................
--
FROM 182.85.141.*
4楼|yuanmo|2025-10-11 14:42:23|只看此ID
请问蚂蚁有啥智能是传统算法搞不定的

【在 cut188 的大作中提到: 】
: 蚂蚁的神经元有多少个？为啥一定要搞成人呢，我看搞成个蚂蚁就能把世界翻个底朝天了。
--
FROM 114.254.2.*
5楼|prog2000|2025-10-11 16:52:09|只看此ID
多谢
已经与人的神经元数量差不多了

【在 adamhj 的大作中提到: 】
: deepseek的回答：
: 方法二：手动计算（理解模型结构）
: 要手动计算，你需要了解模型的基本架构。我们以典型的 Transformer 模型（如 GPT 系列）为例。
: ...................
--
FROM 39.165.250.*
6楼|cut188|2025-10-11 23:11:08|只看此ID
搬家，蚂蚁搬家你听说过吧。
话说回来，你搞定过哪个传统算法呢？
【在 yuanmo 的大作中提到: 】
: 请问蚂蚁有啥智能是传统算法搞不定的
:
--
FROM 114.246.100.*
7楼|sun0star|2025-10-13 09:18:56|只看此ID
蚂蚁的很多行为不是现在的智能体可以独立推导的。
比如战争、繁殖、分家、性别安排等等。
智能体可以由人类给予学习能力，但无法独立推到算法来实现。面对新问题新要求完全无法调整适应。
所以差距太大了。搞出媲美蚂蚁的智能，确实可以前进一个大步，起码自我繁殖和发展可以实现了。
【在 cut188 的大作中提到: 】
: 搬家，蚂蚁搬家你听说过吧。
: 话说回来，你搞定过哪个传统算法呢？
--
FROM 124.127.189.*
8楼|yuanmo|2025-10-13 13:24:21|只看此ID
蚂蚁搬家有啥智能啊，是找到了最优路径还是找到了更高效的搬家方式？

可惜我看都不是，相反，有时候还会陷入死亡循环。

【在 cut188 的大作中提到: 】
: 搬家，蚂蚁搬家你听说过吧。
: 话说回来，你搞定过哪个传统算法呢？
--
FROM 114.246.238.*
9楼|overcomeunic|2025-10-13 23:19:10|只看此ID
一个神经元有 2000个触突
人类大脑有860亿神经元，虽说不是每个神经元都有 2000个触突，虽说不是每个神经元都激活
如果按 10%的神经元激活，按每个神经元200个触突， 8.6B * 200 = 1720B

【在 prog2000 的大作中提到: 】
: deepseek满血版 671b，是可以处理6710亿个参数
: 但结点数或叫神经元的数量一般会有多少？
: 人脑有800多亿个神经元
: ...................
--
FROM 111.221.230.*