- 主题:transformer模型的问题
transformer模型做翻译的时候,encoder之后,变成word2vec词料库的向量,
又是如何decoder到目标语言的?decoder是何时指定目标语言的?词料库里面有不同语言的数据吗?是不是一条向量可以从词料库里面按参数选出不同语言的词汇?
--
FROM 61.144.173.*
【 在 johnfader 的大作中提到: 】
: transformer模型做翻译的时候,encoder之后,变成word2vec词料库的向量,
你说的是tokenize吧?encoder和decoder是transformer的工作不是tokenizer的
: 又是如何decoder到目标语言的?decoder是何时指定目标语言的?词料库里面有不同语言的数据吗?是不是一条向量可以从词料库里面按参数选出不同语言的词汇?
--
FROM 125.38.176.*
翻译是哪部分实现的?
【 在 tgfbeta 的大作中提到: 】
: 你说的是tokenize吧?encoder和decoder是transformer的工作不是tokenizer的
--
FROM 113.104.213.*
翻译是在multihead attention和feedforward network实现的
其他的更多是一种数据的表示
【 在 johnfader 的大作中提到: 】
: 翻译是哪部分实现的?
--
FROM 125.38.176.*
decoder做的。 你第一条的理解是对的。
tokenize与翻译无关, nlp都要先做tokenize和embedding这些, 不论翻译和生成
--
FROM 117.35.158.*
inputs是德语,outputs是英语,训练过程就是大量翻译好的德英材料?
是不是这样训练出来的参数,只能做德语->英语的翻译?还是双向翻译都可以?
【 在 giant85 的大作中提到: 】
: decoder做的。 你第一条的理解是对的。
: tokenize与翻译无关, nlp都要先做tokenize和embedding这些, 不论翻译和生成
--
FROM 113.104.213.*
【 在 johnfader 的大作中提到: 】
: inputs是德语,outputs是英语,训练过程就是大量翻译好的德英材料?
: 是不是这样训练出来的参数,只能做德语->英语的翻译?还是双向翻译都可以?
: [upload=1][/upload]
对
单向
--
FROM 117.35.158.*
跟训练数据有关
当你的训练数据是:Apple --> 苹果
假设只有这一条训练数据。模型在推理的时候,
当你输入:Apple,decode会从字典里找最可能的对应序列。字典的内容就是你说的大量的词典表,有汉字,有单词,有日文,有标点符号,有等等的字典
然后模型发现:苹果的输出概率最高。它就输出了苹果
在用户看来,我们实现了翻译的过程
【 在 johnfader 的大作中提到: 】
: transformer模型做翻译的时候,encoder之后,变成word2vec词料库的向量,
: 又是如何decoder到目标语言的?decoder是何时指定目标语言的?词料库里面有不同语言的数据吗?是不是一条向量可以从词料库里面按参数选出不同语言的词汇?
--
FROM 112.97.63.*
Apple用苹果来判断概率比较高,可以理解。
Apple是如何挑选苹果来判断呢?它如何确定备选集合的?是模型的记忆(存储)了备选集合吗?
Apple是如何排除”汽车,火车,轮船,飞机,火箭,凤梨,芭乐,香蕉“等等词汇,
如果把所有的词汇都判断一遍,那是不是会忒慢了。
【 在 shanghuo 的大作中提到: 】
: 跟训练数据有关
: 当你的训练数据是:Apple --> 苹果
: 假设只有这一条训练数据。模型在推理的时候,
: ...................
--
FROM 113.104.213.*
词汇表:假设词汇表里只有
汽车,火车,轮船,飞机,火箭,凤梨,芭乐,香蕉,苹果
编号:1,2,3,4,5,6,7,8,9
每次训练:输入(也在词汇表里)apple,输出编号:9
模型通过一连串矩阵以及矩阵间的操作构造成的类似耗散结构一样的东西,这些耗散结构就是网络结构,它通过初始化,不断训练的反传神经机制进行调整网络上各个节点的参数。
训练过程中,如果发现输入apple,输出大概率不是苹果,就会调整这个网络结构。直到有一定概率是苹果以后
在训练结束后,这些网络结构+参数系统使得输入是appple时,输出大概率时苹果。
【 在 johnfader 的大作中提到: 】
: Apple用苹果来判断概率比较高,可以理解。
: Apple是如何挑选苹果来判断呢?它如何确定备选集合的?是模型的记忆(存储)了备选集合吗?
: Apple是如何排除”汽车,火车,轮船,飞机,火箭,凤梨,芭乐,香蕉“等等词汇,
: ...................
--
FROM 112.97.63.*