文档介绍:该【493-ChatGPT过去现在与未来(1)(1) 】是由【翩仙妙玉】上传分享,文档一共【74】页,该文档可以免费在线阅读,需要了解更多关于【493-ChatGPT过去现在与未来(1)(1) 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..ChatGPT的过去、现在与未来报告人:冯骁骋哈尔滨工业大学/社会计算与信息检索研究中心(SCIR)2023年02月15日:..ChatGPT的出现行业热报烈国外大厂告讨论ChatGPT新频闻繁报热国内大厂道搜:..将会改变世界的对话式通用人工智能模型ChatGPT三体:拯救派<——————>降临派微软联合创始人比尔·盖茨:像SpaceX、特斯拉公司总裁埃隆·马ChatGPT这样的AI聊天机器人将变得斯克:ChatGPT好得吓人,我们离与个人电脑或互联网同样重要。危险的强人工智能不远了。美国作家、:ChatGPT是AI里·马库斯:生成式人工智能将对社领域iPhone,是更伟大事物的开始。会结构产生切实的、迫在眉睫的威胁。Meta首席科学家、图灵奖得主杨立昆:就底层技术而言,ChatGPT并不是多么了不得的创新。虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已。:..ChatGPT的定义pChatGPT是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求。:..ChatGPT的定义pChatGPT是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求。对人工智能技术的颠覆性影响ChatGPT将加速通用人工智能的实现:..什么是智能?“智能行为包括知觉、推理、学****交流和在复杂环境中的行为。”——尼尔逊(美国斯坦福大学)人类、动物经过亿万年自然进化形成的智慧和能力听、说、读、写、看······移动、飞翔、搬运、操作······感觉、知觉、理解、联想、推理、规划学****决策、记忆、回忆、创造、顿悟:..什么是人工智能?“人工”p人工智能,简称AI?人造的机器或系统“智能”p英文:ArtificialIntelligence?通常指人类自身的智能(类人智能)p人工智能是人工制造出来的机器,?感知与识别、认知智能(决策与优化、学****与推理)、运动智能用以对人的意识、思维、认知功能进?也包括其他人造系统的智能?“大狗”机器人:四足运动行模拟的一门学科.?“大鸟”机器人:双翅飞行:..科幻电影中的人工智能哆啦A梦机器姬超能陆战队终结者终结者机器人总动员:..实际生活中的人工智能扫地机器人跳舞机器人餐厅服务机器人Siri:..弱人工智能、强人工智能、超级人工智能弱人工智能(ANI,Narrow)强人工智能(AGI,General)超级人工智能(ASI,Super)?完成特定任务的人工智能?通用人工智能?超级人工智能是指具有自我意?机器具有真正的推理和解决识,包括独立自主的价值观、?表现出像是有智能的样子问题的能力,与人类一样拥世界观等?不具有自我意识刷爆了100同时解决所有进行所有工作的可能?在几乎所有领域都比最聪明的?不会威胁到人类生存余个数据有的自然语?可能会对人类生存产生威胁人类大脑都聪明很多,包括科集?目前,已经实现了越来越多学创新、通识和社交技能言处理任务?暂时没有实现的可能的弱人工智能“弱人工智能”的集合≠“强人工智能”:..什么是自然语言处理?p自然语言指的是人类语言,特指文本符号,而非语音信号p自然语言处理(NaturalLanguageProcessing,NLP)p用计算机来理解和生成自然语言的各种理论和方法p语言是更高级的一种认知智能p需要更强的抽象和推理能力认知智能能理解会思考感知智能能听会说,能看会认运算智能能存会算:..自然语言处理的难点与特点p优势歧义性p存在大量可以利用的先验知识难迁移抽象性p难点性p研究问题纷繁复杂,难以被单一模型处理刷爆了100余知识性组合性语言个数据集p难以获得大量标注数据p难度大,触及常识、推理等认知能力p部分课题评测难度高主观性进化性非规范p通用性弱,与行业关联性强性:..自然语言处理发展历史p自然语言处理范式变迁小规模专家知识深度学****算法1950~19902010~2017浅层机器学****算法大规模预训练模型1990~20102018~2023?规则搭配词典ExamplesfromXiaoandZhu,SMT-Book:..自然语言处理发展历史p自然语言处理范式变迁小规模专家知识深度学****算法1950~19902010~2017浅层机器学****算法大规模预训练模型1990~20102018~2023?语料特征概率ExamplesfromXiaoandZhu,SMT-Book:..自然语言处理发展历史p自然语言处理范式变迁小规模专家知识深度学****算法1950~19902010~2017浅层机器学****算法大规模预训练模型1990~20102018~2023?平行词汇句对HarbinisaBeautifulCity表示学****模型EncoderAttentionDecoder向量参数哈尔滨是一座美丽城市EOSHarbinisaBeautiful:..自然语言处理发展历史p自然语言处理范式变迁小规模专家知识深度学****算法1950~19902010~2017浅层机器学****算法大规模预训练模型1990~20102018~2023?平行词汇句对表示学****模型向量参数:..自然语言处理发展历史p自然语言处理范式变迁小规模专家知识深度学****算法1950~19902010~2017浅层机器学****算法大规模预训练模型1990~20102018~2023?数据标注模型训练语料库模型预训练+精调=未标注文本精调预训练Fine-tunePre-train自然语言处理新范式预训练模型:..自然语言处理发展历史p自然语言处理范式变迁小规模专家知识深度学****算法1950~19902010~2017浅层机器学****算法大规模预训练模型1990~20102018~2023???????????p利用语言天然的顺序性???…p我喜欢吃土豆炖XX????…????p两种任务类型??????????…??????p语言模型p完形填空p通过历史词序列预测下一个词p通过周围的词预测中间的词:..自然语言处理发展历史p自然语言处理范式变迁小规模专家知识深度学****算法1950~19902010~2017浅层机器学****算法大规模预训练模型1990~20102018~2023?双向掩码模型单向自回归生成模型编码器-解码器架构(2018)(2018)(2019):..预训练模型预训练语言模型成为自然语言处理领域全新的技术范式p模型规模与表现正相关,因此不停追求越来越大的规模p随着模型规模越来越大,“涌现”出了令人惊讶的“智能”LargeLanguageModels:ANewMoore'sLaw?-HuggingFace:..发展历程InstructGPT:TraininglanguagemodelstofollowinstructionswithhumanfeedbackChatGPT:OptimizingLanguageModelsforDialogueGPT-3:LanguageModelsareFew-ShotLearnersGPT-2:LanguageModelsareUnsupervisedMultitaskGPT-4LearnersKeyword:instructlearning,labeler-GPT-1:ImprovingLanguageKeyword:few-shot,writtenprompts,UnderstandingbyGenerativeone-shot,zero-shotChatGPTisareinforcementPre-TrainingsiblingmodelKeyword:multi-tasklearningfromhumantoInstructGPTfeedbackKeyword:unsupervisedpre-training,supervisedfine-tuning,?过去现在未来:..哈尔滨工业大学社会计算与信息检索研究中心目录CONTENTSGPT的相关背景1GPT系列介绍2InstructGPT与ChatGPT3GPT4及相关猜想4:..哈尔滨工业大学社会计算与信息检索研究中心ChatGPT的过去GPT-1/2/3!"#$:..模型结构与规模模型规模dmodel=768,context_size=512,GPTlayer_num=12,attention_num=12十倍dmodel=1600,context_size=1024,GPT-2layer_num=48,attention_num=12,param=,size=774M百倍dmodel=12288,context_size=2048,GPT-3layer_num=96,attention_num=96,param=175B,size=70G:..训练数据GPT-3GPT-2?CommonGPT-1?WebTextCrawl?具有来自800?BookCorpus?WebText2万个文档的?大约7000本?Books140GB文本数据书尚未出版?Books2?Wikipedia?一共570G数据:..哈尔滨工业大学社会计算与信息检索研究中心GPT-1ImprovingLanguageUnderstandingbyGenerativePre-Training:..GPT-1使用方法GPTusage:pre-training+fine-tuningGPTKeyword:unsupervisedpre-training,supervisedfine-tuning,auxiliaryobjective:..实验表现p在比较模型的12个任务中(如问题解答,模式解析,情感分析等),GPT-1在9个任务上的表现要优于经过专门训练的有监督最新模型pGPT-1的一个重要成就是其在各种理解任务上的具有较为出色的zero-shot性能pGPT-1证明语言模型是有效的预训练目标,可以帮助模型很好地推广p模型层数变化和参数对实验结果的影响大模型大数据:..哈尔滨工业大学社会计算与信息检索研究中心GPT-2LanguageModelsareUnsupervisedMultitaskLearners:..GPT使用方法GPT-2usage:zeroshotoroneshotpZero-shot:以文本摘要为例p输入:原文+“TL;DR”p输出:摘要pOne-shot:以机器翻译为例p输入:“Englishsentence1=Frenchsentence1”+“Englishsentence2=”p输出:“Frenchsentence2”GPT2Keyword:multi-task(Generation):..实验表现pGPT-2在多个下游任务数据集上进行了评估,例如阅读理解、摘要、翻译以及问题解答等pGPT-2在zero-shot设置下改进了8种语言建模数据集中7种state-of-the-art水平p在阅读理解任务中,GPT-2在zero-shot设置下胜过4个基准模型中的3个p在法语到英语的翻译任务中,GPT-2在zero-shot设置下的表现优于大多数无监督模型,但没有超越最新的无监督模型构建更大的语言模型将减少困惑度,并使语言模型更好理解自然语言:..哈尔滨工业大学社会计算与信息检索研究中心GPT-3LanguageModelsareFew-ShotLearners:..模型架构pGPT3=GPT2+SparseAttentionp传统(稠密)注意力机制:p局部注意力机制:p膨胀(带状)注意力机制:p稀疏注意力机制是局部和膨胀注意力机制的结合::..使用方法pGPT3Keyword:In-contextLearning(few-shot,one-shot,zero-shot)few-one-shotshotzero-shotQusetion:Whichisheavier,atoasterorpencil?p架构笨重,缺乏可解释性GPT-3:-3花了p缺少常识,对模型所产生的结果缺乏可解释性Qusetion:Howmanyeyedoesagiraffehave?24个月实现GPT-3:(ChatGPTp数据偏见问题InstructLearningQusetion:Howmanyeyedoesmyfoothave?5天)pGPT(-3zero生成的文本具有其所训练语言的-shot/prompts)偏见GPT-3:-3Beta测试样例:..哈尔滨工业大学社会计算与信息检索研究中心ChatGPT的现在InstructGPT/ChatGPT:..ChatGPT/InstructGPT的成功之处情景学****思维链指令学****大模型的涌现能力大模型的涌现能力人在环路增强改变传统学****范式打破模型参数约束对齐人类意图ChatGPT的三个关键能力Credits:XipengQiu:..InstructGPT演进路径(已知=>未知)InstructGPT的进化树https://beta./docs/model-index-for-researchers未知未知GPT3=>InstructGPT训练已知未知未知未知:..InstructGPT演进路径(能力猜测)InstructGPT的进化树https://beta./docs/model-index-for-researchersp底座能力:大规模预训练模型p模型规模足够大才能有“涌现”的潜力p情景学****InstructionTuningp将任务用Prompt形式统一p精调语言模型(InstructionTuning)p模型能够处理未见任务p思维链能力:在代码上进行继续预训练p代码分步骤、模块解决问题p涌现出逐步推理能力(COT)p和人类对齐能力:RLHFp结果更符合人类的预期(多样性、安全性)p利用真实用户的反馈(AI正循环、飞轮):..指令微调(InstructionTuning)Credits:-engineering:..指令微调(InstructionTuning)Credits:-engineering:..情景学****In-ContextLearning)Credits:-engineering:..情景学****In-ContextLearning):"Ilovedthismovie!":"Idon'tknow,itwasokIguess..":"Whatawasteoftime,mendthismovie.":"Ireallyenjoyedthismovie!"ThisreviewisCredits:-engineering:..思维链(Chain-of-Thought,COT)p思维链表示一系列中间推理步骤,-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels:..Code-aidedReasoningPAL:Program-aidedLanguageModels:..思维链(Chain-of-Thought,COT)p思维链表示一系列中间推理步骤,-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels:..ReinforcementLearningfromHumanFeedback(RLHF)!"#$%&'()*+,!"5346789:;******@A34,DEFGHIJ-./012GPT-334<=>?,()***@A34PPOKL534<MN()OProximalPolicyOptimizationP:..过去Token-levelRL为什么没有成功pToken-level太稀疏,rollout太慢pRewardmodel太小,容易学到reward的弱点MinlieHuang:..第一步:有监督微调(SFT)-1p训练InstructGPT-beta版本pSFT(Supervisedfine-tuning):在人工书写的示例上进行有监督微调,该方式得到的模型有davinci-instruct-betap标注人员手写promptspPlain:标注人员提出任意一个任务,同时保证任务的多样性pFew-shot:要求标注人员提出一个指令,以及在该指令下的多轮“查询-回复”pUser-based:根据用户在OpenAIAPI各种应用程序中提交过的用例(涵盖GPT3API):..数据集的构建:用户prompts数据样例p数据样例:..第一步:有监督微调(FeedME)-2https://beta./docs/model-index-for-researchers:..第一步:有监督微调(FeedME)-2pFeedME(FeedbackMadeEasy):在人工书写的示例以及标注者选择的模型最佳输出上进行有监督微调,该方式得到的模型有text-davinci-001,text-davinci-002p标注人员手写prompts,为labelerp通过开源text-davinci-001收集了更多的prompts,customerpFeedME(FeedbackMadeEasy):选择模型最佳输出,无需标注,7/7(具体细节未知)https://beta./docs/model-index-for-researchers:..数据质量+多样性:..第二步:训练奖励模型p收集排序数据,训练奖励模型p采样出一条prompt以及第一步模型的多条输出p标注人员对模型的输出进行由好到坏的排序p奖励模型由参数量为6B的SFT模型初始化,输入prompt以及第一阶段模型的回复,输出是0-1之间的分数。利用排序好的数据,根据PairwiseRankingLoss优化奖励模型来模拟标注人员的偏好:..第二步:训练奖励模型pPairwiseRankingLoss!pLoss??=?!??",$,$~&[log(??(??'??,??(???'(??,??))))]#$"p只提供了标注人员标注的排序数据,需要转化为reward模型打分的损失p利用pairwiserankingloss,最大化两个排序数据之间的打分差距pPairwise能够有效地增加训练数据*p如果将每个候选pair当作一个独立的训练样本,会导致过拟合+p每个样本pair会进行K-1次梯度更新,导致过拟合!p将个两两排序的候选pair放在同一个batch中进行梯度下降,一方面防止过拟合,"另一方面能够带来计算代价上的优化:..数据质量+多样性:..第三步:强化学****p使用强化学****PPO算法优化policyp从数据集中采样出一条新的promptpPolicy模型首先利用第一阶段微调得到的SFT模型初始化,然后根据prompt生成对应的模型输出p第二步训练得到的奖励模型对该输出计算reward,并利用该reward通过proximalpolicyoptimization(PPO)算法优化Policy:..第三步:强化学****p优化目标中的正则项约束-./01p????=??",$~&??'??,?????log(??,????/??(??|??))+'(%&-.????"~&[log(??(??))])*+,*-./,p当利用RLHF对Policy进行更新后,RLPolicy的输出会和训练奖励模型时用的SFT模型输出不同,会导致奖励模型的reward估计效果变差p加入KL散度惩罚项,使得Policy模型的输出和SFT模型的输出别相差太远p仅仅通过模拟人类偏好来优化模型会使得模型在很多NLP任务上性能退化p加入一个额外的语言模型在预训练数据上的优化目标:..第四步:飞轮优化12飞轮优化3:..InstructGPT和ChatGPT的区别pChatGPT能够生成更加翔实的回复:可能来源于训练奖励模型过程中标注人员对“更加翔实的回复”的偏好=》偏好冗长pChatGPT更加擅长多轮对话的内容形式:可能来源于指令微调过程中标注人员标注的多轮对话数据pChatGPT能够更好地捕获多轮对话中的COT和长程依赖:可能来源于ChatGPT的初始化模型——,InstructGPT论文没有:..哈尔滨工业大学社会计算与信息检索研究中心ChatGPT的未来GPT-4%&'():..GPT-4模型的谣言p发布时间在最近的一次访谈活动中,OpenAI的CEOSamAltman被问及GPT-4是否会像许多人预期的那样在第一季度或今年上半年推出。他没有给出具体的时间,只是说:“在我们有信心它可以安全且负责任地运行时,它自然就会出现。”:..GPT-4模型的谣言p模型参数规模Altman还被问及GPT-4的参数规模是否会像网上广为流传的一样,将达到惊人的100万亿参数,Altman称其为“一派胡言”:..GPT-4模型的谣言p多模态多模态大模型是一项极具挑战性的任务。虽然OpenAI称深度学****的未来是多模态模型,但是Altman在采访中称GPT4会和前三代一样仍然是纯文本模型。:..GPT-4应具备的优化策略猜测p词表优化模型大小和训练数据规模应该匹配。DeepMind通过实验表明,参数量为70B的Chinchilla模型,,在多个下游任务上的性能都超过了在300Billiontokens上训练的280B参数量的Gopher模型。GPT4—Facts&ReasonableExpectations:..GPT-4应具备的优化策略猜测p计算优化考虑到GPT-4的参数比GPT-3略大,根据DeepMind的发现,让其达到最优计算水平所需要的训练token量应该在5万亿左右,这要比当前数据集高出一个量级。按照DeepMindGopher模型的算力消耗,达成最小训练损失所需要的算力总量则相当于GPT-3的约10至20倍。GPT4—Facts&ReasonableExpectations:..GPT-4应具备的优化策略猜测p延续RLHF的训练策略,进一步增强与人类对齐的能力在OpenAI的InstructGPT论文中,,要显著优于175B参数规模的GPT-3模型。GPT4—Facts&ReasonableExpectations:..GPT-4应具备的优化策略猜测p最优参数化微软和OpenAI发现了一种新的参数化方法(μP),这是一种优化大型神经网络训练的方法。简而言之,μP可用于在不同模型大小之间传输超参数,从而减少了在为给定模型寻找最佳超参数时反复试验的需要。微软和OpenAI已经证明只要用最佳超参数训练模型,GPT-3能够借此实现性能飞跃。GPT4—Facts&ReasonableExpecta