[转载] AI 学会新技能

水木社区手机版

主题:[转载] AI 学会新技能
2楼|lokta|2022-06-27 11:37:37|展开
google通过一个超大的训练数据训练了一个具有8-11岁儿童智力的AI。
不光能推理，还能给出推理过程。
但是我感觉AI是到一定瓶颈了。
因为一个8-11岁的人类儿童只需要想比较而言很小的数据量就能获得很好的认知能力。
但是AI缺需要如此大的训练集。
不知道还缺了啥.

【在 GoGoRoger 的大作中提到: 】
: 人工智能的泡泡快破了
: 涎盗烦隼吹纳窬纭０凑掌浞植剿得鳎氪臣扑阌泻艽蟮牟煌Ｋ邮葜醒啊Ｉ疃妊懊挥写臣扑惚喑棠敲赐该鳎饬粝铝艘桓鲂淳龅闹匾侍猓合低逞У搅耸裁矗朗裁矗课迨昀矗扑慊蒲Ъ乙恢痹谑酝冀饩龅鞍字收鄣问题，但没有成功。2016 年 Google 母
: Alphabet 的人工智能子公司 DeepMind 推出了 AlphaFold 计划。利用蛋白质数据库作为训练集，该库中包含了超过 15 万种蛋白质的经验确定结构。不到五年的时间里，AlphaFold 就解决了蛋白质折叠问题，或者至少解决了其中最重要的方面：根据氨基酸序列识别蛋白质结构。Alpha
: ...................
--
FROM 223.104.24.*
4楼|lokta|2022-06-27 11:42:44|展开
没看到相比较这三个字？

【在 adamhj 的大作中提到: 】
: 很小的数据量？人类从出生开始就一直在通过五感不断的收集数据进行学习，这个数据量很小？
--
FROM 223.104.24.*
7楼|lokta|2022-06-27 16:06:54|展开
举个例子。
历史上存在狼孩事件。
如果按你的说法，无时无刻不在接受信息对神经进行训练，那么为什么狼孩的智力跟正常人类社会的小孩智力差距那么大？那说明无时无刻接受的信息不见得对训练是有效的。这些信息对智力贡献很小。每天接触到的信息就是打猎，吃饭，睡觉，抢地盘。日复一日的重复等于是把有限的训练集拿来反复训练。数据量打，信息质量差。
人的一生，接触到的声音，视觉，触觉这些东西很难去量化。那我只能拿文本这一块去对比。
搜索一下，人一生能读1800本书，这个文本估计下来也不会超过100M吧。但是opt-175b的训练数据最大的都超过800gb了。这不说明问题么?

【在 adamhj 的大作中提到: 】
: 我不知道google给了AI多大的数据量，我也不好衡量人类儿童从出生长到8-11岁通过各种感官获取的数据量有多大，所以我不知道怎么比较；请问你是如何确定人类儿童获得数据量相比较小？
--
FROM 223.104.24.*
17楼|lokta|2022-06-28 10:03:05|展开
猩猩的DNA差距不到1%呢，给你足够的数据，你能把猩猩培养成理解微积分的程度？

好的模型 + 好的数据 =  好的AI
坏的模型 + 好的数据 =  差的AI
坏的模型 + 坏的数据 =  差的AI
坏的模型 + 坏的数据 =  智障AI

啥是好的数据，量大，种类丰富。
但是人类成长过程接触到的数据，量不是那么大，种类不是那么丰富。但是却可以训练出一个不错的效果。这才是我跟上面争论的重点。

比如说我这辈子第一次见衬衣，我不会像AI一样，要拿很多衬衣训练后才能准确分辨衬衣跟其他衣服。见过一两次就够了。

【在 donald2020 的大作中提到: 】
: 你这个例子不是恰恰说明了他的观点是对的吗，就是人类智力成长也是后天数据训练的
: 狼孩用和普通小孩一样成长的时间但最后智力却远远不如，正是因为他们虽然每天在训练但训练的数据种类不够
: 而人类社会里的孩子每天不知不觉接触各种“不同”种类的数据，最后才训练出来高智力。
: ...................
--
FROM 223.104.96.*
19楼|lokta|2022-06-28 10:35:09|展开
但是对于AI而言，你不给它一个衬衣的训练集，它就会把衬衣识别成不知道什么玩意儿。
这回到了我们最初讨论的地方：
人类不需要如此大的训练集也能达到AI超大训练集训练的效果。

好的模型 + 好的数据 = 好的AI

人类 + 不是那么大的数据 = 更好的智能。

所以AI当前阶段建模就这样了，google当前干的就是猛加参数。
但是人类智能还有很多隐含的东西是当前AI模型没有的。

【在 adamhj 的大作中提到: 】
: 你第一次见衬衣就能分辨是因为你之前见过很多种各式各样的衣服
: 你第一次见衣服的时候是你父母帮你穿的，你那时候啥都不懂
: 你不能只把见到衬衣当数据，之前你的所有经历经验其实都是你的基础数据，这是AI所不具备的
: ...................
--
FROM 223.104.96.*
44楼|lokta|2022-06-29 09:47:34|展开
我说过了，你拿音频，视频是很难衡量数据量大小的。
拿音频跟机器比较，你说采样率是多少合适？分辨率要多少bit合适。
没有统一个量化标准。
没有标准怎么比较？
我只能拿文本这种好量化的东比较。

要不，你给一个音视频的标准呗。

【在 bmulp 的大作中提到: 】
: 别的不说，光你这信息量的对比就太扯淡了。
: 按你说的这1800本书文本信息量只有100M。几分钟长度的高清视频也有100M了。那你觉得这几分钟长度的视频更1800本书的信息量差不多了？
: 发自「今日水木 on M2002J9E」
: ...................
--
FROM 223.104.24.*
45楼|lokta|2022-06-29 10:04:53|展开
人眼分辨率1亿，但是最后还不是要靠卷积降采样。
人类靠模仿生物大脑最后整出来卷积神经网络。
如果数据允许，你可以全用高清图片去训练升级网络。
但是提升能有多大？
然后对外宣称自己用了几个PB的数据来训练？

【在 lvsoft 的大作中提到: 】
: 你这个说法不对。人的眼睛大致相当于1亿像素的摄像头，50mm焦段，帧率往少了说至少有10fps吧。
: 并且有2只，从生下来开始每天至少开机14个小时。
: 换算成数据量是多少？注意这可是不带压缩的哦。
: ...................
--
FROM 223.104.24.*