大模型-DeltaTuning-增量式02：Prefix-tuning（0.1% parameters）【每个transformer层的hidden states前一些soft token】

逃离我推掉我的手 2023-10-12 12:40 73阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，73人围观）

还没有评论，来说两句吧...

相关阅读

相关大模型-DeltaTuning-重参数式：LoRA（Low-Rank Adaptation）【效果比全量微调还是有一定的差距】

微调大规模语言模型到特殊领域和任务是自然语言处理的重要课题之一。但随着模型规模的不断扩大，微调模型的所有参数（所谓`full fine-tuning`）的可行性变得越来越低。以

怼烎@/ 2024年03月16日 19:31/ 0 赞/ 91 阅读

相关大模型-DeltaTuning-增量式03：Prompt-Tuning（连续型）（P-tuning v1）【只在输入层加入可训练参数层】

一、前言 Bert时代，我们常做预训练模型微调（Fine-tuning），即根据不同下游任务，引入各种辅助任务loss和垂直领域数据，将其添加到预训练模型中，以便让模型更

谁借莪１个温暖的怀抱￠/ 2023年10月12日 16:56/ 0 赞/ 74 阅读

相关大模型-DeltaTuning：①增量式（原模型参数不变，插入可微调参数层）、②指定式（原模型参数冻结一部分参数，微调一部分参数）、③重参数化式（将原模型参数层改造，比如插入低秩）

【随着模型增大，各方案区别不大】 ![9c2b5ab5be484724ab9f0f473db60f2c.png][] ![b71bc8fda98448d3866afd79

曾经终败给现在/ 2023年10月12日 13:07/ 0 赞/ 106 阅读

相关大模型-DeltaTuning-增量式01：Adapter-tuning（0.5-8%）【每个transformer层内加入2个Adapter层】【Adapter就是先降维再升维的全连接】

Adapter Tuning 随着计算机硬件性能的提高，预训练模型参数量越来越多，在训练下游任务时进行全模型微调变得昂贵且耗时，Adapter 的出现缓解了这个问题。Ad

╰半夏微凉°/ 2023年10月12日 12:41/ 0 赞/ 63 阅读

相关大模型-DeltaTuning-增量式02：Prefix-tuning（0.1% parameters）【每个transformer层的hidden states前一些soft token】

Fine-tuning是使用大规模预训练语言模型来进行下游任务的流行范式，但需要更新和存储语言模型的全部参数。再运用到下游任务时，需要对每一个任务都需要存储一份修改后的参数。L

逃离我推掉我的手/ 2023年10月12日 12:40/ 0 赞/ 74 阅读

相关大模型-DeltaTuning-增量式04：p-tuning v2【在Transformer原有结构最后插入一层pre_encoder层】【微调时冻结原有结构参数，只微调新加入的网络层参数】

案例：chatGLM !/usr/bin/env python coding=utf-8 Copyright 2021 The HuggingFa

缺乏、安全感/ 2023年10月12日 12:40/ 0 赞/ 80 阅读

相关理解Transformer架构 .02

通过提问题的方式，学习一下Bert中的Transformer架构，其中这篇文章与《[理解Transformer架构 .01][Transformer_ .01]》的内容互为补充

Dear 丶/ 2023年07月13日 15:14/ 0 赞/ 63 阅读

相关 01 网络模型分层、每层协议

目录 1.OSI七层模型 2.TCP/IP四层模型 3.五层模型详细作用

爱被打了一巴掌/ 2023年03月04日 09:27/ 0 赞/ 86 阅读

相关【备忘录】transformers tokenizer.tokenize和tokenizer.encode

from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from

叁歲伎倆/ 2022年11月19日 11:22/ 0 赞/ 316 阅读

相关集成测试策略：非增量式&增量式

集成测试的基础策略有很多，通常分为两种：非增量式集成测试策略和增量式集成测试策略第一种：非增量式集成测试策略非增量式集成测试策略也叫做大爆炸集成、一次性集成；即

深碍√TFBOYSˉ_/ 2022年09月16日 15:22/ 0 赞/ 104 阅读