当前位置: 首页 > news >正文

自然语言处理基础及应用场景

自然语言处理定义

让计算机理解人所说的文本 语音
Imitation Game 图灵测试 行为主义 鸭子理论

自然语言处理的基本任务

  • 词性标注:区分每个词名词、动词、形容词等词性
  • 命名实体的识别:名词的具体指代是哪一类事物
  • 共指消解:代词指代的是前面哪一个实体
  • 句法关系:主谓宾这种
  • 中文的自动分词:标注词和词间的空格

应用:

  • 搜索引擎 Search Engines and Ads
        文本匹配
            查询quary和文档document的相似度
            quary和个性化广告
        匹配质量
  • 知识图谱 knowledge graph 2012Google提出
  • 机器阅读 Machine Reading
  • 人类助手 Personal Assistant
  • 机器翻译 Machine Translation
  • 情感分类和意见挖掘 Sentiment Analysis and Opinion Mining
  • 计算社会科学 Computational Social Science

基础概念

词表示 Word Representation

- 词相似度
- 词关系
  1. 用和词有关的一些词来表示当前词
    缺点:细微差距丢失、 新的词义缺失、 主观性问题、 数据稀疏、 大量人工
  2. One-Hot Representation
    向量维度 = 词表长度
    缺点:增加了相似词之间的距离
  3. Represent Word by Context
    利用上下文来表示这个词
  4. Co-Occurrence Counts
    包含了上下文信息,上下文出现的频度,稠密向量
    缺点:词表越大,存储需求大,频度出现少的词,上下文出现的就少,词表示会变得稀疏因而效果不好
  5. 深度学习 Word Embedding
    Word2Vec 词向量 将词汇投射到低维空间

语言模型

主要完成两个工作:
联合概率:计算一个序列的词成为一句话的概率是多少(一句话人能读懂的概率)
条件概率:根据前面的词,预测下一个词

传统语言模型的基本假设:

一个未来的词,只会受到前面的词的影响

N-gram Model

前面出现N - 1个词,第N个词的概率是多少
问题:很少考虑长前文,统计是稀疏的;还是One-Hot编码,每个词是一个符号

Neural Language Model

神经网络模型 每个词表示为一个低维的向量

大模型范式

预训练(无标注、自监督) + 微调

四大步骤

预训练->监督式微调->奖励建模->强化学习
预训练占算例99%以上
问答对1w-10w
奖励建模和强化学习,基于人类反馈的强化学习,RLHF

http://www.lryc.cn/news/502706.html

相关文章:

  • 网页爬虫技术全解析:从基础到实战
  • 数据仓库-查看表和数据库的信息
  • 【JVM】JVM基础教程(四)
  • 深入了解Text2SQL开源项目(Chat2DB、SQL Chat 、Wren AI 、Vanna)
  • websocket 服务 pinia 全局配置
  • 基于Springboot企业oa管理系统【附源码】
  • Python遥感开发之地理探测器的实现
  • 【HarmonyOS】 鸿蒙保存图片或视频到相册
  • Apache Echarts和POI
  • 厦门凯酷全科技有限公司正规吗靠谱吗?
  • WireShark 下载、安装和使用
  • 2025周易算命网站搭建详细方法+源码选择php环境的配置
  • 共享购模式革新登场:重构消费生态,领航商业新未来
  • centos kafka单机离线安装kafka服务化kafka tool连接kafka
  • QT JSON文件解析
  • [小白系列]GPU-nvidia-smi指令
  • 在SQL Server中使用hash join来提高表连接的性能
  • 《Django 5 By Example》阅读笔记:p493-p520
  • 【开源】基于SpringBoot框架的网上订餐系统 (计算机毕业设计)+万字毕业论文 T018
  • 数据湖治理最佳实践
  • 基于php求职招聘系统设计
  • ensp实验-vrrp多网关配置
  • Ajax--实现检测用户名是否存在功能
  • 【代码pycharm】动手学深度学习v2-09 Softmax 回归 + 损失函数 + 图片分类数据集
  • 设计模式:24、访问者模式
  • 基于JAVA的旅游网站系统设计
  • 网络安全产品之认识防火墙
  • nginx反向代理(负载均衡)和tomcat介绍
  • Microsoft Azure 在线技术公开课:生成式 AI 基础知识
  • lnmp+discuz论坛 附实验:搭建discuz论坛