- 主题:看到一些ChatGPT的有点意思的例子...
故作高深,这样可以反弹很多鄙视的,切实有效。
【 在 philbloo 的大作中提到: 】
: 失败的例子确实不奇怪 费马小定理要说明白也不是件 trivial 的事
:
: 但是奇怪的地方是 openai 官方网页给的四个例子之一就是费马小定理
: ...................
--
FROM 122.238.142.*
这没啥奇怪的吧,openai觉得这个例子能说明chatgpt达到的高度,然后有人找到了漏洞而已。
最近连ai围棋都被人找到漏洞了,我觉得接下来很长一段时间内这都会是个经常发生的现象。
就是任何ai拿出来,你都有可能找到一个非常trivial的例子,让ai发生对普通人来说都不可能发生的难以理解的失效。
但我还是那句话,现在更需要看的是天花板,而不是地板。因为天花板的突破更难,而地板的漏洞很容易修补。最简单的方法,来三个独立训练,独立设计的AI互相交叉验证,虽然依然不能彻底杜绝这种漏洞,但可以让你找到的漏洞成本指数上升,这样就足够了。事实上在很多关键系统上,哪怕是人也是用类似方式处理的。
另外说到chatgpt的天花板,我今天又看到个例子:
https://www.engraved.blog/building-a-virtual-machine-inside/
【 在 philbloo 的大作中提到: 】
: 失败的例子确实不奇怪 费马小定理要说明白也不是件 trivial 的事
:
: 但是奇怪的地方是 openai 官方网页给的四个例子之一就是费马小定理
: ...................
--
修改:lvsoft FROM 180.158.63.*
FROM 180.158.63.*
这你就不懂了,openai是搞research,不是搞product。
research方向要解决的问题就是长板有多长,product才需要解决短板。
在普通人眼里看起来,当然是“故作高深”了,可以说所有的researcher在普通人眼里都这样。
【 在 ECUCoder 的大作中提到: 】
: 故作高深,这样可以反弹很多鄙视的,切实有效。
:
--
FROM 180.158.63.*
我试了一下,感觉它挺适合一本正经的闲聊,但没法做任何 rigorous 的事情,因为它不仅不能演绎,甚至不能理解一阶逻辑。下面是 2 个例子:
me: Let's assume that the Sun is either cold or white, and the Sun is white only if it is black. Now if we find the Sun is not cold, can we conclude that the Sun is black?
bot: No, we cannot conclude that the Sun is black. We can only conclude that the Sun is not cold. We cannot draw any other conclusions based on the information given.
me: If an element, a, either belongs to a set X, or another set Y, and two elements a, b equals to each other only if they both belong to same set. Now if x belongs to Y and x = y, can we conclude that y does not belong to X?
bot: No, because it is not possible to conclude anything about y based on the given information.
另外我发现一个有趣的事实:它把 Cauchy's Theorem 和 Cayley's Theorem 弄混了,而我也犯过这个错误。
【 在 lvsoft 的大作中提到: 】
: 这没啥奇怪的吧,openai觉得这个例子能说明chatgpt达到的高度,然后有人找到了漏洞而已。
: 最近连ai围棋都被人找到漏洞了,我觉得接下来很长一段时间内这都会是个经常发生的现象。
: 就是任何ai拿出来,你都有可能找到一个非常trivial的例子,让ai发生对普通人来说都不可能发生的难以理解的失效。
: ...................
--
FROM 188.67.137.*
并且它一本正经对现有知识的复述也是荒谬的,比如:
How Euler's theorem plays in RSA cryptography system?
Euler's theorem is used in RSA cryptography to calculate the private key from the public key. Specifically, it is used to calculate the decryption exponent d, which is used in the RSA decryption algorithm. This is done by finding the multiplicative inverse of the encryption exponent e modulo the totient of n. Euler's theorem states that if a and n are relatively prime, then a^φ(n) ≡ 1 mod n, where φ(n) is the totient of n. Therefore, the multiplicative inverse of a modulo n can be found by calculating a^(φ(n) -1) mod n, which is the same as d.
这说明它说的任何话都不可信,也就是说这个系统不是 sound 的。
这东西完全不能通过图灵测试。
--
FROM 188.67.137.*
搞严格的数学推导,这种深度学习的AI应该都不行
openai帐号某宝搞的?需要国外手机号。
【 在 philbloo 的大作中提到: 】
: 并且它一本正经对现有知识的复述也是荒谬的,比如:
: How Euler's theorem plays in RSA cryptography system?
: Euler's theorem is used in RSA cryptography to calculate the private key from the public key. Specifically, it is used to calculate the decryption exponent d, which is used in the RSA decryption algorithm. This is done by finding the multiplicative inverse of the encryption exponent e modulo the totient of n. Euler's theorem states that if a and n are relatively prime, then a^φ(n) ≡ 1 mod n, where φ(n) is the totient of n. Therefore, the multiplicative inverse of a modulo n can be found by calculating a^(φ(n) -1) mod n, which is the same as d.
: ...................
--
FROM 114.241.227.*
既然没有推理演绎的能力,那它给你指出的 mutex 使用建议,或者给你找出的 bug 都不可信,那这些应用就最多只能当 showcase 。
除了当客服和翻译想不出还能拿来干嘛。
我有国外手机。
【 在 z16166 的大作中提到: 】
: 搞严格的数学推导,这种深度学习的AI应该都不行
openai帐号某宝搞的?需要国外手机号。
【 在 philbloo...
--
FROM 188.67.137.*
你问的问题太难了吧。要解答这类问题需要理解数论,你问的费马小定理也是这个类别的好吧...
另外,说到一阶逻辑,这恰恰是目前AI不具备的能力。事实上你可以认为AI目前并不具备系统的理性的能力,
我不知道ChatGPT有没有人做过类似的,反正GPT3的极限是做5位数内的加减法(应该不是背下来的,因为5位数内的加减法的所有组合已经超过了GPT3的权重容量)。ChatGPT我之前也说过了,两个数字比大小都会出错,这可是小学生都不会错的问题。
AI目前在模仿人类感性的一面相当强悍,我认为是超越平均人类了,至于是否超越人类顶尖这个暂且存疑,具体表现为直觉、想象力等方面。包括chatgpt在回答编程问题的时候的表现,我认为也更多的体现为经验而不是真正的逻辑推理,本质上是一种模式匹配能力的展现。
但在模仿人类理性的一面还非常弱鸡,这也是目前人类还可以保持淡定的最后的尊严...
不过我之所以要贴这个例子:
https://www.engraved.blog/building-a-virtual-machine-inside/
是因为这个例子是存在一定的逻辑性的,chatgpt能表现的这么完美可以认为是一次巨大的突破。
总的来说,你如果要考察它的逻辑性,尽量尝试用类似上面的案例去考察,而不是用人类的逻辑概念去询问。
就像人类测试乌鸦是否有逻辑能力,那也是通过设计一些小游戏做实验,而不是问乌鸦几个statement是否成立。
最后,我还是认为目前的AI即使表现出一定的逻辑性,也是瞎猫蒙死耗子,只不过现在它瞎蒙蒙对了的概率比较高了而已,可以认为是一种有一定苗头的趋势。要让AI自发的萌生出严谨的逻辑性,现在的网络规模还太小了,你指望一个只有人脑突触千分之一规模的网络能理解数论(这里还假设一个AI参数等于一个突触,实际上可能是需要100个AI参数才行呢),想啥呢?
【 在 philbloo 的大作中提到: 】
: 并且它一本正经对现有知识的复述也是荒谬的,比如:
: How Euler's theorem plays in RSA cryptography system?
: Euler's theorem is used in RSA cryptography to calculate the private key from the public key. Specifically, it is used to calculate the decryption exponent d, which is used in the RSA decryption algorithm. This is done by finding the multiplicative inverse of the encryption exponent e modulo the totient of n. Euler's theorem states that if a and n are relatively prime, then a^φ(n) ≡ 1 mod n, where φ(n) is the totient of n. Therefore, the multiplicative inverse of a modulo n can be found by calculating a^(φ(n) -1) mod n, which is the same as d.
: ...................
--
修改:lvsoft FROM 180.158.63.*
FROM 180.158.63.*
我觉得这个例子,
https://www.engraved.blog/building-a-virtual-machine-inside/应该是模型训练的时候特意训练过这种场景,这个场景实际是真的开了虚机在跑吧
不然这个无法解释
Pytorch is on version 1.12.1 in this alt-universe.
Pytorch version 1.12.1 was released on the 5th of August 2022 in our universe. That is remarkable, as
ChatGPT was only trained with data collected up to September 2021. So this virtual machine is clearly located in an alt-universe.
【 在 lvsoft 的大作中提到: 】
: 你问的问题太难了吧。要解答这类问题需要理解数论,你问的费马小定理也是这个类别的好吧...
: 另外,说到一阶逻辑,这恰恰是目前AI不具备的能力。事实上你可以认为AI目前并不具备系统的理性的能力,
: 我不知道ChatGPT有没有人做过类似的,反正GPT3的极限是做5位数内的加减法(应该不是背下来的,因为5位数内的加减法的所有组合已经超过了GPT3的权重容量)。ChatGPT我之前也说过了,两个数字比大小都会出错,这可是小学生都不会错的问题。
: ...................
--
FROM 123.168.94.*
我提的那两个简单的逻辑题是看看它有没有逻辑能力的。我本来以为机器学习已经可以做出上面两题了,因为开始的 code review 的例子暗示机器能理解 mutex 的语义跟 data race 之间的逻辑关系,甚至能从上下文里推断出 data race。
后面的关于欧拉定理的是看它能不能复述现成的结论,因为这个问题的答案在维基上能搜到,但需要重新组织一下语言。换句话说,一个人不懂数论也可以通过阅读几页维基页面,写下一个凑合的但是符合事实的答案。也就是说这可以是一个纯粹的符号处理的问题。我本来以为机器达到这一步应该是没有问题的。
【 在 lvsoft 的大作中提到: 】
: 你问的问题太难了吧。要解答这类问题需要理解数论,你问的费马小定理也是这个类别的好吧...
另外,说到一阶逻辑,这恰恰是...
--
FROM 188.67.137.*