原始的GPT模型
基于转换器的生成式预训练模型 [ 1] (英語:generative pre-trained transformers ,GPT )是一种大型语言模型 (LLM)[ 2] [ 3] [ 4] ,也是生成式人工智慧 的重要框架[ 5] [ 6] 。首个GPT由OpenAI 于2018年推出[ 7] 。GPT模型是基于Transformer模型 的人工神经网络 ,在大型未标记文本数据集 上进行预训练,并能够生成类似于人类自然语言的文本[ 3] [ 4] 。截至2023年,大多数LLM都具备这些特征[ 8] ,并广泛被称为GPT[ 9] [ 10] 。
OpenAI发布了具有极大影响力的GPT基础模型,它们按顺序编号,构成了“GPT-n ”系列[ 11] 。由于其规模(可训练参数数量)和训练程度的提升,每个模型相较于前一个都显著增强。其中最新的模型是GPT-4o ,于2024年5月发布。这些模型为更具任务特定性的GPT系统 奠定了基础,包括经过微调以适应特定指令的模型 ——而这些又反过来为ChatGPT 聊天机器人 服务提供了支持[ 2] 。
术语“GPT”还用于命名和描述其他开发者所开发的模型。例如,其他GPT基础模型包括EleutherAI 开发的一系列模型[ 12] ,以及Cerebras 开发的七个模型[ 13] 。此外,不同行业的公司还在其各自领域开发了执行特定任务的GPT,例如赛富时 的“EinsteinGPT”(用于客户关系管理 )[ 14] 和彭博 的“BloombergGPT”(用于金融领域)[ 15] 。
历史
初步发展
生成式预训练(generative pretraining ,简称GP)是机器学习应用中一个历史悠久的概念[ 16] [ 17] ,但直到2017年,Google 的员工发明了Transformer模型 [ 18] ,这才使得大型语言模型 如BERT(2018年)[ 19] 和XLNet(2019年)成为可能[ 20] ,这些模型是预训练的转换器(pre-trained transformers ,简称PT),但未被设计为生成式 ,而是“仅编码器”(encoder-only )[ 21] 。2018年,OpenAI 发表了题为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training )的文章,在其中首次介绍了基于转换器的生成式预训练模型(GPT)系统(“GPT-1 ”)[ 22] 。
在基于转换器的架构出现之前,表现最优秀的神经自然语言处理 (NLP)模型通常通过大量手动标记的数据进行监督学习 。这种依赖于监督学习的开发途径限制了在未经充分标记的数据集上的应用,并且使得训练极大型语言模型相当耗时且开支非常昂贵[ 22] 。
OpenAI采用半监督学习 方法来构建大规模生成式系统,同时也是首个使用Transformer模型的方法。该方法包括两个阶段:无监督 的生成式 “预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式 “微调 ”阶段,将这些参数在目标任务上进行微调[ 22] 。
后续发展
OpenAI于2020年7月发布了GPT-3 的首个版本。其中包括三个模型,参数数量分别为10亿、67亿和1750亿,分别被命名为巴贝奇(babbage )、居里(curie )和达芬奇(davinci ),分别以B、C和D作为简称。
2021年7月,OpenAI发布了Codex ,是专门用于编程应用的特定任务GPT模型 。该模型使用GitHub 上的代码对GPT-3的12亿参数版本(与之前的GPT-3模型不同)进行代码微调而开发[ 23] 。
2022年3月,OpenAI发布了两个针对指令跟随进行微调(即“指令微调”(instruction-tuned ))的GPT-3版本,分别命名为davinci-instruct-beta (1750亿参数)和text-davinci-001 [ 24] ,随后开始测试code-davinci-002 [ 25] 。text-davinci-002 是通过code-davinci-002 进行指令微调得到的。text-davinci-003 和ChatGPT 于2022年11月发布,两者都是在text-davinci-002 的基础上通过基于人类反馈的强化学习方案 [ 1] (RLHF)得到的。text-davinci-003 用于遵循指令(与其前身相似),而ChatGPT则经过进一步训练,可与人类用户进行对话交互[ 26] [ 27]
。
OpenAI最新的GPT基础模型是GPT-4 ,于2023年3月14日发布。用户可以通过ChatGPT的高级版本直接访问它,而开发者则可通过OpenAI的API 将其纳入其他产品和服务中。其他GPT基础模型的开发者包括EleutherAI (从2021年3月开始推出一系列模型)[ 12] 和Cerebras (于2023年3月发布七个模型)[ 13] 。
基础模型
基础模型 是指在广泛的数据上进行大规模训练的AI模型,以便能够适用于各种下游任务[ 28] 。
迄今为止,最著名的GPT基础模型来自OpenAI的GPT-n 系列。其中最新的是GPT-4 ,OpenAI选择不公开该模型的规模或训练细节,理由是“大规模模型的竞争环境和安全影响”[ 29] 。
OpenAI的“GPT-n”系列
模型
架构
参数数量
训练数据
发布日期
训练成本
GPT-1
12层,12头的Transformer解码器(没有编码器),后跟线性softmax 层
1.17 亿
BookCorpus [ 30] :一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。
000000002018-06-11-0000 2018年6月11日 [ 7]
“使用8个GPU训练1个月”[ 7] ,或等价于1.7e19次浮点运算(FLOP)[ 31]
GPT-2
基于GPT-1架构,但使用修改后的归一化方法
15亿
WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit 上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。
000000002019-02-14-0000 2019年2月14日 (初始/有限版)和000000002019-11-05-0000 2019年11月5日 (完整版)[ 32]
“数十PetaFlop/s-day”[ 33] ,或等价于1.5e21次浮点运算[ 31]
GPT-3
基于GPT-2架构,但修改以支持更大规模的训练
1750亿
一个总大小为570 GB的大规模文本语料库,其中包含约4990亿个标记。这些数据主要来自于Common Crawl 、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。
000000002020-05-28-0000 2020年5月28日 [ 33]
3640 petaflop/s-day(Table D.1 [ 33] ), 或等价于3.1e23次浮点运算[ 31]
GPT-3.5
未公开
1750亿[ 34]
未公开
000000002022-03-15-0000 2022年3月15日
未公开
GPT-4
使用文本预测和基于人类反馈的强化学习方案 (RLHF)进行训练,并可以接受文本和图像 输入。进一步的细节尚未公开[ 29]
未公开
未公开
000000002023-03-14-0000 2023年3月14日
未公开。估计约为2.1e25次浮点运算[ 31]
其他类似的模型包括Google 的PaLM ,与2023年3月通过API向开发者提供[ 35] [ 36] 。另外还有Together的GPT-JT,据报道是与GPT-3性能最接近的开源 替代方案(源自早期的开源GPT模型)[ 37] 。Meta AI (前身为Facebook)还拥有一个基于转换器的生成式基础大型语言模型(generative transformer-based foundational large language model ),称为LLaMA [ 38] 。
基础GPT模型还可以采用文本以外的模态 进行输入和/或输出。GPT-4是一个多模态LLM,能够处理文本和图像输入(尽管其输出仅限于文本)[ 39] 。多模态输出方面,一些基于转换器的生成式模型被用于文本到图像 技术,如扩散 [ 40] 和并行解码[ 41] 。此类模型可作为视觉基础模型(visual foundation models,简称VFMs),用于开发能够处理图像的下游系统[ 42] 。
特定任务模型
基础GPT模型可以进一步适应特定任务和/或主题领域,形成更具针对性的系统。这种适应的方法可以包括额外的微调 (超出基础模型的微调),以及某种形式的提示工程 [ 43] 。
一个重要的例子是将模型微调以遵循指令 ,这当然是一个相当广泛的任务,但比基础模型更具针对性。2022年1月,OpenAI推出了“InstructGPT”系列模型,这些模型在GPT-3语言模型的基础上使用监督 训练和基于人类反馈的强化学习方案 (RLHF)进行微调,以遵循指令。与纯粹的基础模型相比,其优点包括更高的准确性、更少的负面情感,以及更好地符合用户需求。因此,OpenAI开始将它用作其API服务提供的基础。其他开发者也发布了不同的经过指令微调的模型,其中还有完全开源的模型[ 44] [ 45] 。
另一种(相关的)任务特定模型是聊天机器人 ,它可以进行类似人类对话的交流。2022年11月,OpenAI推出了ChatGPT 。ChatGPT是一个在线聊天界面,由经过指令微调的语言模型提供支持,该模型的训练方式类似于InstructGPT[ 46] 。OpenAI使用RLHF训练该模型,通过让人工智能训练员进行对话,扮演用户和AI的角色,并将这些新的对话数据集与InstructGPT数据集混合,形成了适合聊天机器人的对话格式。其他主要的聊天机器人还包括微软 的Bing Chat ,它使用OpenAI的GPT-4(作为OpenAI和微软之间更广泛合作的一部分),以及竞争对手Google的Bard 聊天机器人(最初基于他们的LaMDA 系列对话训练语言模型,计划转换为PaLM )[ 47] 。
GPT还可以用于另一种元 任务,即生成它自己的指令,如为“自己”开发一系列提示(prompt ),以实现人类用户给定的更一般目标[ 48] 。这被称为AI智能体 ,具体而言是递归性的,因为它利用前一次的自我指令结果来帮助形成后续的提示;这方面的一个重要例子是Auto-GPT (使用OpenAI的GPT模型),此外还有其他类似的模型被开发出来[ 49] 。
多模态性
基于转换器的生成式系统还可以针对涉及文本以外的其他模态 的任务进行定制。
例如,微软的“Visual ChatGPT”结合了ChatGPT与视觉基础模型(VFMs),使其能够处理包含图像和文本的输入或输出[ 50] 。此外,由于文本转语音 技术的进步,当该技术与基础GPT语言模型结合使用时,可为音频内容的创作提供强大的工具[ 51] 。
领域特异性
GPT系统可以针对特定领域或行业。以下是一些报道中涉及的此类模型和应用示例:
EinsteinGPT - 用于销售和营销领域,辅助客户关系管理 (使用GPT-3.5)[ 52] 。
BloombergGPT - 用于金融领域,帮助处理金融新闻和信息(使用“免费可用”的AI方法,结合其专有数据)[ 53] 。
Khanmigo – 被描述为在教育领域中用于辅导的GPT版本,通过引导学生的学习过程而不是直接提供答案,来帮助他们在可汗學院 上学习(由GPT-4提供支持)[ 54] [ 55] 。
SlackGPT - 用于Slack 即时通讯服务,帮助导航和概括讨论内容(使用OpenAI的API)[ 56]
BioGPT – 由微软开发的[ 57] ,用于生物医学领域,帮助进行生物医学文献的文本生成和挖掘[ 58]
ProtGPT2 – 用于蛋白质研究[ 59]
有时,领域特异性可以通过软件插件或附加组件 实现。例如,几家公司已经开发了与OpenAI的ChatGPT接口直接交互的特定插件[ 60] [ 61] ,Google Workspace 也提供了可用的附加组件,如“GPT for Sheets and Docs”。据报道,该组件有助于Google試算表 中電子試算表 功能的使用[ 62] [ 63] 。
品牌问题
OpenAI曾宣称“GPT”应该被视为OpenAI的品牌[ 64] 。在2023年4月,OpenAI在其服务条款 中修改了品牌指南,指示其他企业在使用其API运行其人工智能(AI)服务时,将不再能够在名称或品牌中包含“GPT”[ 65] 。在2023年5月,OpenAI聘请了一个品牌管理服务,通知其API客户有关此政策的信息,尽管这些通知并未明确提出法律要求(比如指控商标侵权 或要求停止并终止 )[ 64] 。
此外,OpenAI已向美国专利及商标局 (USPTO)申请在AI领域对“GPT”一词进行国内商标 注册[ 64] 。OpenAI试图让其申请被加速处理,但专利及商标局于2023年4月拒绝了该请求[ 66] 。要获得商标批准,OpenAI需要证明该术语实际上在其特定产品中具有“显著性 ”,而不仅仅被广泛理解为描述类似技术的广泛技术术语。一些媒体报道暗示OpenAI或可间接基于其ChatGPT的知名度来实现这一点[ 66] [ 67] ,对于ChatGPT,OpenAI已经单独寻求商标保护(并试图更严格地执行)[ 68] 。其他报道表明,“GPT”一词似乎不太可能被授予独占权[ 64] [ 69] ,因为它经常用于简单地指代涉及生成预训练转换器的AI系统[ 4] [ 70] [ 71] 。即使这种情况发生,商标上的描述性合理使用 原则仍可能保留一些空间,使其能继续进行与品牌无关的使用[ 72] 。
部分出版物
以下为OpenAI和微软关于其GPT模型的主要官方出版物:
GPT-1:报告[ 7] ,GitHub发布[ 73]
GPT-2:博客公告[ 74] ,关于“分阶段发布”决策的报告[ 75] ,GitHub发布[ 76]
GPT-3:报告[ 33] 。此后没有GitHub或任何其他形式的代码发布
webGPT: 博客公告[ 77] 、报告[ 78]
InstructGPT:博客公告[ 79] 、报告[ 80]
ChatGPT:博客公告(无报告)[ 46]
GPT-4:博客公告[ 81] 、报告[ 82] [ 83] 、model card[ 84]
參考資料
^ 1.0 1.1 冯志伟. 冯志伟教授聊ChatGPT . 中国科技术语. [2023-02-27 ] . (原始内容存档 于2023-02-27) –通过微信公众平台.
^ 2.0 2.1 Haddad, Mohammed. How does GPT-4 work and how can you start using it in ChatGPT? . www.aljazeera.com. [2023-07-20 ] . (原始内容存档 于2023-07-05).
^ 3.0 3.1 Generative AI: a game-changer society needs to be ready for . World Economic Forum. [2023-07-20 ] . (原始内容存档 于2023-04-25).
^ 4.0 4.1 4.2 The A to Z of Artificial Intelligence . Time. 2023-04-13 [2023-07-20 ] . (原始内容存档 于2023-06-16).
^ Hu, Luhui. Generative AI and Future . Medium. 2022-11-15 [2023-07-20 ] . (原始内容存档 于2023-06-05).
^ CSDL | IEEE Computer Society . www.computer.org. [2023-07-20 ] . (原始内容存档 于2023-04-28).
^ 7.0 7.1 7.2 7.3 Improving language understanding with unsupervised learning . openai.com. 2018-06-11 [2023-03-18 ] . (原始内容存档 于2023-03-18) (美国英语) .
^ Toews, Rob. The Next Generation Of Large Language Models . Forbes. [2023-07-20 ] . (原始内容存档 于2023-04-14).
^ Toews, Rob. The Next Generation Of Large Language Models . Forbes. [2023-07-20 ] . (原始内容存档 于2023-04-14).
^ Mckendrick, Joe. Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests . Forbes . 2023-03-13 [2023-07-20 ] . (原始内容存档 于2023-04-16).
^ GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared . MUO. 2023-04-11 [2023-07-20 ] . (原始内容存档 于2023-04-15).
^ 12.0 12.1 Alford, Anthony. EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J . InfoQ. 2021-07-13 [2023-07-20 ] . (原始内容存档 于2023-02-10).
^ 13.0 13.1 Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems . [2025-01-14 ] (英语) .
^ Morrison, Ryan. Salesforce launches EinsteinGPT built with OpenAI technology . Tech Monitor. 2023-03-07 [2023-07-20 ] . (原始内容存档 于2023-04-15).
^ The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech . Forbes . [2023-07-20 ] . (原始内容存档 于2023-04-06).
^ Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups . IEEE Signal Processing Magazine. 2012-11, 29 (6). ISSN 1053-5888 . S2CID 206485943 . doi:10.1109/MSP.2012.2205597 .
^ Deng, Li. A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core . Apsipa Transactions on Signal and Information Processing (Cambridge.org). 2014-01-22, 3 : e2 [2023-05-21 ] . S2CID 9928823 . doi:10.1017/atsip.2013.9 . (原始内容存档 于2023-04-27).
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-12-05. arXiv:1706.03762 .
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019-05-24. arXiv:1810.04805v2 .
^ Yang (et-al), Zhilin. XLNet (PDF) . Proceedings from NeurIPS 2019. 2019 [2023-07-22 ] . (原始内容存档 (PDF) 于2023-05-24).
^ Naik, Amit Raja. Google Introduces New Architecture To Reduce Cost Of Transformers . Analytics India Magazine. 2021-09-23 [2023-07-22 ] . (原始内容存档 于2023-06-10).
^ 22.0 22.1 22.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF) . OpenAI : 12. 2018-06-11 [2021-01-23 ] . (原始内容存档 (PDF) 于2021-01-26).
^ Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Ponde de Oliveira Pinto, Henrique; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas; Brockman, Greg; Ray, Alex; Puri, Raul; Krueger, Gretchen; Petrov, Michael; Khlaaf, Heidy. Evaluating Large Language Models Trained on Code . 2021-07-01 [2023-07-22 ] . arXiv:2107.03374 . (原始内容存档 于2023-06-24).
^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie. Training language models to follow instructions with human feedback . Advances in Neural Information Processing Systems. 2022-12-06, 35 : 27730–27744 [2023-07-22 ] . arXiv:2203.02155 . (原始内容存档 于2023-06-28) (英语) .
^ New GPT-3 capabilities: Edit & insert . openai.com. [2023-06-24 ] . (原始内容存档 于2023-06-29) (美国英语) .
^ Fu, Yao; Peng, Hao; Khot, Tushar. How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources . Yao Fu's Notion. 2022 [2023-07-22 ] . (原始内容存档 于2023-04-19).
^ Model index for researchers . OpenAI API. [2023-06-23 ] . (原始内容存档 于2023-06-23) (英语) .
^ Introducing the Center for Research on Foundation Models (CRFM) . Stanford HAI. [2023-07-22 ] . (原始内容存档 于2023-06-04).
^ 29.0 29.1 OpenAI. GPT-4 Technical Report (PDF) . 2023 [2023-03-16 ] . (原始内容存档 (PDF) 于2023-03-14).
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books . IEEE International Conference on Computer Vision (ICCV) 2015: 19–27. 2015 [2023-02-07 ] . arXiv:1506.06724 . (原始内容存档 于2023-02-05).
^ 31.0 31.1 31.2 31.3 ML input trends visualization . Epoch. [2023-05-02 ] . (原始内容存档 于2023-07-16) (英语) .
^ Vincent, James. OpenAI has published the text-generating AI it said was too dangerous to share . The Verge. 2019-11-07 [2023-07-22 ] . (原始内容存档 于2020-06-11).
^ 33.0 33.1 33.2 33.3 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Language Models are Few-Shot Learners. 2020-05-28. arXiv:2005.14165v4 .
^ Ver Meer, Dave. ChatGPT Statistics . NamePepper. 2023-06-01 [2023-06-09 ] . (原始内容存档 于2023-06-05) (英语) .
^ Vincent, James. Google opens up its AI language model PaLM to challenge OpenAI and GPT-3 . The Verge. 2023-03-14 [2023-07-22 ] . (原始内容存档 于2023-03-14).
^ Google Opens Access to PaLM Language Model . [2023-07-22 ] . (原始内容存档 于2023-05-31).
^ Iyer, Aparna. Meet GPT-JT, the Closest Open Source Alternative to GPT-3 . Analytics India Magazine. 2022-11-30 [2023-07-22 ] . (原始内容存档 于2023-06-02).
^ Meta Debuts AI Language Model, But It's Only for Researchers . PCMAG. [2023-07-22 ] . (原始内容存档 于2023-07-19).
^ Islam, Arham. Multimodal Language Models: The Future of Artificial Intelligence (AI) . 2023-03-27 [2023-07-22 ] . (原始内容存档 于2023-05-15).
^ Islam, Arham. How Do DALL·E 2, Stable Diffusion, and Midjourney Work? . 2022-11-14 [2023-07-22 ] . (原始内容存档 于2023-07-18).
^ Saha, Shritama. Google Launches Muse, A New Text-to-Image Transformer Model . Analytics India Magazine. 2023-01-04 [2023-07-22 ] . (原始内容存档 于2023-05-15).
^ Wu (et-al), Chenfei. Visual ChatGPT. 2023-03-08. arXiv:2303.04671 [cs.CV ].
^ Bommasani (et-al), Rishi. On the Opportunities and Risks of Foundation Models. 2022-07-12. arXiv:2108.07258 [cs.LG ].
^ Stanford CRFM . crfm.stanford.edu. [2023-07-22 ] . (原始内容存档 于2023-04-06).
^ Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM . Databricks. 2023-04-12 [2023-07-22 ] . (原始内容存档 于2023-07-14).
^ 46.0 46.1 Introducing ChatGPT . openai.com. [2023-03-16 ] . (原始内容存档 于2023-03-16) (美国英语) .
^ ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful? . CNET. [2023-07-22 ] . (原始内容存档 于2023-07-24).
^ Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents . Mashable. 2023-04-19 [2023-07-22 ] . (原始内容存档 于2023-07-22).
^ Marr, Bernard. Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT . Forbes. [2023-07-22 ] . (原始内容存档 于2023-05-21).
^ Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT . InfoQ. [2023-07-22 ] . (原始内容存档 于2023-06-03).
^ Edwards, Benj. Microsoft's new AI can simulate anyone's voice with 3 seconds of audio . Ars Technica. 2023-01-09 [2023-07-22 ] . (原始内容存档 于2023-07-18).
^ Morrison, Ryan. Salesforce launches EinsteinGPT built with OpenAI technology . 2023-03-07 [2023-07-20 ] . (原始内容存档 于2023-04-15).
^ Leswing, Kif. Bloomberg plans to integrate GPT-style A.I. into its terminal . CNBC. 2023-04-13 [2023-07-22 ] . (原始内容存档 于2023-05-19).
^ Learning nonprofit Khan Academy is piloting a version of GPT called Khanmigo . Fast Company. 2023-05-04 [2023-05-22 ] . (原始内容存档 于2023-05-11).
^ Khan Academy Pilots GPT-4 Powered Tool Khanmigo for Teachers - . THE Journal. [2023-07-22 ] . (原始内容存档 于2023-05-07).
^ Hachman, Mark. Slack GPT will bring AI chatbots to your conversations . PCWorld. 2023-05-04 [2023-07-22 ] . (原始内容存档 于2023-06-09).
^ Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks . The Decoder. 2023-01-29 [2023-02-27 ] . (原始内容存档 于2023-02-07).
^ Luo, Renqian; Sun, Liai; Xia, Yingce; Qin, Tao; Zhang, Sheng; Poon, Hoifung; Liu, Tie-Yan. BioGPT: generative pre-trained transformer for biomedical text generation and mining . Briefings in Bioinformatics. 2022-11-19, 23 (6). ISSN 1467-5463 . PMID 36156661 . doi:10.1093/bib/bbac409 (英语) .
^ Ferruz, Noelia; Schmidt, Steffen; Höcker, Birte. ProtGPT2 is a deep unsupervised language model for protein design . Nature Communications. 2022-07-27, 13 (1). ISSN 2041-1723 . doi:10.1038/s41467-022-32007-7 (英语) .
^ Know about ChatGPT's 13 best plugins, designed to improve your overall user experience – Latest Digital Transformation Trends | Cloud News | Wire19 . 2023-05-05 [2023-07-22 ] . (原始内容存档 于2023-05-09).
^ ChatGPT plugins . openai.com. [2023-07-22 ] . (原始内容存档 于2023-03-23).
^ How to Use ChatGPT on Google Sheets With GPT for Sheets and Docs . MUO. 2023-03-12 [2023-07-22 ] . (原始内容存档 于2023-06-19).
^ Asay, Matt. Embrace and extend Excel for AI data prep . InfoWorld. 2023-02-27 [2023-07-22 ] . (原始内容存档 于2023-06-02).
^ 64.0 64.1 64.2 64.3 Hicks, William. ChatGPT creator OpenAI is asking startups to remove 'GPT' from their names . The Business Journals . 2023-05-10 [2023-05-21 ] . (原始内容存档 于2023-06-28).
^ OpenAI. Brand Guidelines . 2023-04-24 [2023-05-21 ] . (原始内容存档 于2023-07-18).
^ 66.0 66.1 Heah, Alexa. OpenAI Unsuccessful At Speeding Up Its Attempt To Trademark 'GPT' . DesignTAXI. 2023-04-26 [2023-05-21 ] . (原始内容存档 于2023-04-26).
^ 25 April 2023, 08:04 am. OpenAI Wants to Trademark 'GPT' Amid Rise of AI Chatbots . Tech Times. 2023-04-25 [2023-05-21 ] . (原始内容存档 于2023-04-25).
^ OpenAI files a UDRP case against the current owner of ChatGPT.com . [2023-05-21 ] . (原始内容存档 于2023-06-05) (美国英语) .
^ Demcak, Tramatm-Igor. OpenAI's Battle for Brand Protection: Can GPT be trademarked? . Lexology. 2023-04-26 [2023-05-22 ] . (原始内容 存档于2023-05-05) (英语) .
^ Lawton, George. ChatGPT vs. GPT: How are they different? | TechTarget . Enterprise AI. 2023-04-20 [2023-05-21 ] . (原始内容 存档于2023-05-09) (英语) .
^ Robb, Drew. GPT-4 vs. ChatGPT: AI Chatbot Comparison . eWEEK. 2023-04-12 [2023-05-21 ] . (原始内容存档 于2023-07-27) (美国英语) .
^ Rheintgen, Husch Blackwell LLP-Kathleen A. Branding 101: trademark descriptive fair use . Lexology. 2013-08-16 [2023-05-21 ] . (原始内容存档 于2023-05-21) (英语) .
^ finetune-transformer-lm . OpenAI. 2018-06-11 [2023-05-01 ] . (原始内容存档 于2023-05-19).
^ GPT-2: 1.5B release . openai.com. [2023-05-01 ] . (原始内容存档 于2023-03-31) (美国英语) .
^ Solaiman, Irene; Brundage, Miles; Clark, Jack; Askell, Amanda; Herbert-Voss, Ariel; Wu, Jeff; Radford, Alec; Krueger, Gretchen; Kim, Jong Wook; Kreps, Sarah; McCain, Miles; Newhouse, Alex; Blazakis, Jason; McGuffie, Kris; Wang, Jasmine. Release Strategies and the Social Impacts of Language Models. 2019-11-12. arXiv:1908.09203 [cs.CL ].
^ gpt-2 . OpenAI. 2023-05-01 [2023-05-01 ] . (原始内容存档 于2023-03-11).
^ WebGPT: Improving the factual accuracy of language models through web browsing . openai.com. [2023-07-02 ] . (原始内容 存档于2023-06-21) (美国英语) .
^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin. WebGPT: Browser-assisted question-answering with human feedback . 2021-12-01 [2023-07-22 ] . (原始内容存档 于2023-07-02).
^ Aligning language models to follow instructions . openai.com. [2023-03-23 ] . (原始内容存档 于2023-03-23).
^ Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. Training language models to follow instructions with human feedback. 2022-03-04. arXiv:2203.02155 .
^ GPT-4 . openai.com. [2023-05-01 ] . (原始内容存档 于2023-03-14) (美国英语) .
^ OpenAI. GPT-4 Technical Report. 2023-03-27. arXiv:2303.08774 [cs.CL ].
^ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi. Sparks of Artificial General Intelligence: Early experiments with GPT-4. 2023-04-13. arXiv:2303.12712 [cs.CL ].
^ GPT-4 System Card (PDF) . OpenAI . 2023-03-23 [2023-05-22 ] . (原始内容存档 (PDF) 于2023-04-07) (美国英语) .
可微分计算
概论 概念 应用 硬件 软件库 实现
人物 组织 架构
主题
分类