当前位置: 首页 > news >正文

【大模型AIGC系列课程 2-2】大语言模型的“第二大脑”

1. 大型语言模型的不足之处

很多人使用OpenAI提供的GPT系列模型时都反馈效果不佳。其中一个主要问题是它无法回答一些简单的问题。
● 可控性:当我们用中文问AI一些关于事实的问题时,它很容易编造虚假答案。
● 实时性:而当你询问它最近发生的新闻事件时,它会干脆地告诉你它无法预测未来的情况。(它不知道 21 年之后的事情)
● 私域性:同时,有些信息和问题我们只想在机构内部使用,而不想对外开放。在这种情况下,我们希望能够利用OpenAI的大型语言模型的能力,但又需要限制这些能力只能在我们指定的数据范围内使用。
今天这一讲,我们将探讨解决这些问题的方法。
当我们问一个通识问题时,比如“鲁迅先生去日本学习医学的老师是谁”,使用ChatGPT这样的大型语言模型,它给出的答案可能是错误的:
在这里插入图片描述

而不是我们学过的正确答案藤野先生。这是因为大型语言模型的工作原理和训练数据有关。
大型语言模型的工作原理是根据训练样本中文本的前后关系,通过前面的文本来预测接下来的文本。如果类似的文本组合出现频率越高,模型就会在训练过程中更准确地预测答案。但如果这样的文本组合很少出现,训练过程就会有些随机性,导致回答可能不准确。
而GPT-3.5这个模型里,虽然总的训练语料很多,但其中只有不到1%是中文。所以,当我们问很多中文相关的知识或常识性问题时,ChatGPT的回答可能会离谱。这是因为它在中文方面的知识不够充分。
当然,我们可以想到一个解决方法,那就是多找一些高质量的中文语料来重新训练一个新的模

http://www.lryc.cn/news/142328.html

相关文章:

  • Java基础数据结构
  • PP-TS基于启发式搜索和集成方法的时序预测模型,使预测更加准确
  • vue 04-reactive与ref的选择
  • Mysql索引+事务+存储引擎
  • 创建abp vnext项目
  • 【OpenCV实战】3.OpenCV颜色空间实战
  • 什么是回调函数(callback function)?
  • 零售再增长,直播登“C位”,美团稳稳交出成绩单
  • 什么是需求可追溯性,为什么它对产品团队很重要?
  • Window基础命令
  • Java List的扩容机制原理及应用
  • Cesium 显示经纬高
  • 专访 Hyper Oracle:可编程的 zkOracle 打造未来世界的超算
  • ThreadLocal存放当前用户
  • es入门实战
  • c++系列之指针
  • 网络安全:挑战与防护策略
  • AI 插件:未来的浏览器、前端与交互
  • R包开发-2.1:在RStudio中使用Rcpp制作R-Package(更新于2023.8.23)
  • 土豆叶病害识别(图像连续识别和视频识别)
  • 三、JVM监控及诊断工具-GUI篇
  • 3211064 - 错误消息 AA634 出现在 T-cd AW01N 或 T-cd AFAR 中
  • k3s or RKE2 helm安装报错dial tcp 127.0.0.1:8080: connect: connection refused
  • 网络安全应急响应预案演练
  • Redis 的混合持久化
  • ElasticSearch总结
  • 手写数字识别之损失函数
  • sleep () 和 wait () 有什么区别?
  • 第一百二十七回 空安全
  • js判断类型:typeof Object.prototype.toString instanceof constructor有什么区别?一文讲清楚