Seq2Seq模型 由来 在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的中文⽂本序列,输出可以是⼀段不定⻓的英语⽂本序列。 当输⼊和输出都是不定⻓序列时,我们可以使⽤编码器-解码器架构(encoder-decoder)或者seq2seq模型。 序列到序列模型……
backpropagation 参数化模型 Parameterized models: $\bar{y}=G(x,w)$. 简单来讲,参数化模型就是依赖于输入和可训练参数的函数。 其中,可训练参数在不同训练样本中是共享的,而输入则因每个样本不同而不同。在大多数深度学习框架中,参数是隐性的(implicit):当函数被调用时,参数不被传递。 如果把模型比作面向对象编程,这些参数相当于被“储存在函数中”。 变量(……
TF-IDF算法 简介 TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。 TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF)……
链接 论文 https://arxiv.org/pdf/2103.10385.pdf 代码 https://github.com/THUDM/P-tuning 问题描述 GPT使用传统的微调策略没法在自然语言理解任务上取得较好结果,而通过新的调整策略,可以让大小相似的GPT在NLU上取得比BERT相近或更好的结果。 方法细节 思路 自动化地寻找连续空间中的知识模板;训练知识模板,但不fine-tune语言模型。 给定一个prompt $T={[P_{0……
链接 论文 https://arxiv.org/pdf/2101.00190.pdf 代码 GitHub - XiangLi1999/PrefixTuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation 直觉 传统微调需要调整整个模型的参数,并且为每个任务都存储一个模型的参数,带来的开销大 Prefix tuning: 对自然语言生成任务,将语言模型参数冻结,转为优化一个小的,任务导向的连续向量(continuous task-specific vectors, 称为prefix) 相关工作 lightweight fine-tuning 关键的挑战是识别模型中蕴含的高性能架构和要调优的……