- 主题:现在人工智能都是基于神经网络的,对于任意一个输入,它的输出
现在人工智能都是基于神经网络的,对于任意一个输入,它的输出是不能预测的?
对吗?
不像以前的人工智能全是内部程序控制着输出。
这会有问题,就是说不定哪天一个输入,导致它触动毁灭性输出,对世界造成很大损失。
这个是不是应该有伦理进行约束?现在没有人在意吗?只管实用性。。
--
FROM 223.104.40.*
多数神经网络,任意一个输入,输出是确定的,基本只有语言模型,为了输出的多样性,在最后一步,将词向量的几率转化为输出文字时,引入了随机性。
【 在 lytong 的大作中提到: 】
: 现在人工智能都是基于神经网络的,对于任意一个输入,它的输出是不能预测的?
: 对吗?
: 不像以前的人工智能全是内部程序控制着输出。
: ...................
--
FROM 125.69.14.*
你确定吗
本质就是对知识的压缩,而且是有损的,如何能完全恢复?
【 在 netvideo 的大作中提到: 】
: 多数神经网络,任意一个输入,输出是确定的,基本只有语言模型,为了输出的多样性,在最后一步,将词向量的几率转化为输出文字时,引入了随机性。
: --
发自「今日水木 on iPhone 11」
--
FROM 223.104.87.*
我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
知识的压缩不是本质,相关性才是本质,大语言模型学习的是词的相关性,图像识别学习的是像素的相关性
【 在 zzzer 的大作中提到: 】
: 你确定吗
: 本质就是对知识的压缩,而且是有损的,如何能完全恢复?
: 发自「今日水木 on iPhone 11」
--
FROM 125.69.12.*
知识基于语言
还是语言基于知识
【 在 netvideo 的大作中提到: 】
:
: 我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
:
: 知识的压缩不是本质,相关性才是本质,大语言模型学习的是词的相关性,图像识别学习的是像素的相关性
: ..................
发自「今日水木 on iPhone 11」
--
FROM 223.104.87.*
这个要问哲学家
【 在 zzzer 的大作中提到: 】
: 知识基于语言
: 还是语言基于知识
: 发自「今日水木 on iPhone 11」
--
FROM 125.69.12.*
知识压缩一般认为是在FF layer
而attention是相关性
【 在 netvideo 的大作中提到: 】
我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
知识的压缩不是本质,相关性才是本质,大语言模型学习的是词的相关性,图像识别学习的是像素的相关性
【 在 zzzer 的大作中提到: 】
: 你确定吗
: 本质就是对知识的压缩,而且是有损的,如何能完全恢复?
: 发自「今日水木 on iPhone 11」
--
FROM 60.24.249.*
这个问题我特意问过ChatGPT,结论是即便是确定的超参数和随机种子,在不同的设备上训练也不会产生确定的模型。原因是浮点数计算在不同的GPU上会有微小的差别,这些差别累积起来就会对模型产生很大的影响。
【 在 netvideo 的大作中提到: 】
: 我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
: 知识的压缩不是本质,相关性才是本质,大语言模型学习的是词的相关性,图像识别学习的是像素的相关性
:
--
FROM 112.41.21.*
这是对的,不同型号的设备是有差异,这个差异是不同实现之间的差异,比如FP16与BF16精度的差异,还有不同的库产生的随机数可能有差异,这个是和AI原理无关,只与不同实现相关的,用相同型号的设备与相同版本的软件库就可以消除。
【 在 booble 的大作中提到: 】
: 这个问题我特意问过ChatGPT,结论是即便是确定的超参数和随机种子,在不同的设备上训练也不会产生确定的模型。原因是浮点数计算在不同的GPU上会有微小的差别,这些差别累积起来就会对模型产生很大的影响。
:
--
FROM 125.69.12.*
我认为知识压缩这种说法有故意向人类智能方向引导的嫌疑,attention用相关性提取特征,FF layer是分类器,这种结构和cnn没有本质的不同。
【 在 tgfbeta 的大作中提到: 】
: 知识压缩一般认为是在FF layer
: 而attention是相关性
: 我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
: ...................
--
FROM 125.69.12.*