什么是元学习?§ Learn to Learn 通常的学习方式: Look for a function algorithm -> define loss function -> optimization 之前的function或者说algorithm是人为定的,但现在元学习就是要去学习一个function出来。 训练过程§ 机器学习,Within-task Training , 单个任务 元学习,Across-task Training,多个任务

Self-supervised Learning§ 自监督学习属于无监督学习,没有标签,利用自己的一部分样本来训练另一部分的样本。 Bert§ Masking Input§ 随机盖住输入的序列中的一些词,然后预测盖住的这些词。 盖住的方式有两种: 使用特殊字符[MASK]来替代盖住的词 随机使用字典中抽取的词来替代要盖住的词 Next Sentence Prediction§ 判断两个句子的是不是应该接在一起 改进的方法: ALBERT,SOP方法,Sentence Order Prediction 预测句子的顺序,不只是简单地判断是不是可以连在一起,而是判断哪个句子是在前面,哪个句子是在后面的。 Fine-tune§ Bert是一...

多种多样的Self-Attention机制§ 1. 存在的问题§ 计算量大 2. 其他类型的Self-Attention§ 使用人工的方式,只计算部分的attention,其他部分直接设定§ Local Attention Stride Attention Global Attention 只计算special token与其他的vector之间的attention,其他vector也只考虑与special token的关系 学习attention metrics的位置§ learnable 减小attention metrics的大小§ 选出有代表性的K个K Compressed attention Linformer 改变矩阵乘...

Seq2Seq Model§ 输入是一个序列,输出是一个序列,且输出的序列长度由模型来决定 应用场景: 语音合成(TTS, Text-to-Speech Synthesis) 机器翻译(Machine Translation) 语音翻译(Speech Translation) 如,直接将英文的音频转换为中文的文本 多标签的分类 一个类别可属于多个类别,这个时候输出的类别数是不确定的,所以可以用seq2seq的model来确定输出 Encoder§ encoder部分,主要由多头自注意力机制和前馈神经网络构成,输入多少个序列,输出就是多少个序列。 上面是自注意力机制的内部结构,给定一个序列${a^{i}}$,这里以$a^{2}$为...

在这一章中,首先大概讲了一些机器学习中常见问题的通用解决方法,告诉了我们可以怎样去处理。接着针对类神经网络训练不起来的问题,从局部最小值、批次与动量、学习率和损失函数四个点上分别进行了讲解。