当前位置: 首页 > news >正文

机器学习知识总结

一、机器学习的定义与本质

机器学习(Machine Learning, ML)是一门多领域交叉学科,融合了概率论、统计学、微积分、代数学以及算法复杂度理论等众多学科知识,是实现人工智能的核心手段。其定义为:机器通过学习数据中的内在规律性信息,获取新经验与知识,从而提升和改善自身性能,以实现类似人类的决策过程。汤姆·米切尔(Tom M. Mitchell )在1997年出版的《机器学习》(Machine Learning)中给出形式化定义:假设用P评估计算机程序在特定任务T上的表现,若程序利用经验E提升在任务T上的性能,那么该程序正在对经验E进行学习。机器学习的本质在于借助合适的特征与正确的方法构建特定模型,完成预测、分类、聚类等具体任务。

二、机器学习的发展历程

机器学习的起源可追溯到早期数学研究,贝叶斯定理由英国数学家托马斯·贝叶斯在18世纪提出,用于修正先验概率,在机器学习分类问题中,基于训练样本集中的先验概率和条件概率计算,选取最大概率类别标签作为预测结果,广泛应用于分类任务;1806年英国统计学家约翰·道尔顿创立最小二乘法,最初用于数据处理领域,后应用于机器学习逻辑模型。1950年艾伦·麦席森·图灵提出图灵测试,为人工智能和机器学习发展奠定理论基础。1951年马文·明斯基发明第一台神经网络机SNARC,推动神经网络发展。1957年罗森布拉特提出感知器,开创有监督学习先河,可通过迭代试错解决二元线性分类问题,引发相关求解算法研究。1967年Cover和Hart提出KNN算法,是数据挖掘常用且简单的算法,可用于回归和分类任务,通过测量样本特征距离,根据训练集中最相似的前k个数据进行预测。1969年马文·明斯基和西摩·帕特研究线性不可分问题,出版《Perceptron》一书,虽给感知器研究带来困难,但提出关于解决问题算法能力和计算复杂性的重要观点,Minsky还推动机器人技术发展。1982年萨拉塔·萨塔西瓦姆首次提出Hopfield网络,是循环神经网络(RNN)的起源,RNN用于处理序列数据,考虑前一时刻输入,具有记忆性、参数共享和图灵完备特点,在自然语言处理和时间序列预测等领域广泛应用。1984年日本学者福岛邦彦首次提出神经认知机概念,是卷积神经网络的首个实际应用,将视觉模式分解处理,模拟视觉系统进行物体识别。1986年米切尔、凯勒和凯达卡贝利提出基于解释的概括化统一框架,通过解决具体问题生成解释结构并概括化,获取控制知识指导解决类似问题,属于演绎学习。1987年罗森伯格与罗森堡合作开发NETtalk程序,具备字母识别和语音合成功能。1989年美国贝尔实验室杨立昆教授提出卷积神经网络(CNN)计算模型,推导出基于反向传播(BP)算法的高效训练方法,成功应用于英文手写体识别,是深度学习领域成功且应用广泛的模型。1995年弗洛伊德和夏皮雷开发AdaBoost算法,Vapnik和Cortes提出支持向量机,将机器学习分为神经网络和支持向量机两个主要领域。1996年利奥·布雷曼提出Bagging集成学习算法,2001年进一步提出随机森林(RF),RF对过度拟合有较强抵抗力。1997年提出LSTM深度学习模型,解决传统神经网络记忆有限问题。

 三、机器学习的类型 

(一)监督学习 模型从带有标签的数据集中学习,通过比较预测与真实标签,学习输入与输出的映射关系,以做出更好预测。如分类任务将数据划分到离散类别,像垃圾邮件过滤区分垃圾邮件与正常邮件;回归任务预测连续数值,如房价预测。常见算法有逻辑回归用于二分类,通过逻辑函数将输出映射到概率值;决策树通过树状结构决策和分类,每个节点基于特征判断;随机森林由多棵决策树集成,通过投票或平均提高预测性能;支持向量机寻找最优超平面进行分类或回归,适用于高维数据;朴素贝叶斯基于贝叶斯定理和特征条件独立假设分类;K近邻算法基于样本特征空间中最近的K个邻居分类或回归。

(二)无监督学习 在无标签数据上训练模型,发现数据内在结构或模式,如聚类将数据点组织成相似组,降维减少数据特征维度,保留重要信息降低计算复杂度和防止过拟合。常见算法有K均值聚类等。

(三)半监督学习 结合少量标记数据和大量未标记数据训练模型,适用于图像识别、文本分类等标注成本高但需大量标注数据的领域。

(四)强化学习 智能体与环境交互学习,通过尝试不同动作,依据获得的奖励或惩罚调整行为,以最大化长期累积奖励。常用于游戏AI(如AlphaGo)、机器人控制、自动驾驶等领域。 ### (五)其他类型 1. **自监督学习**:利用未标注数据集生成标注数据集,再用标准监督学习算法训练。例如从无标签图片中随机遮住部分,让机器还原,可用于修复破损照片等,也常作为训练其他模型的跳板,涉及知识迁移(迁移学习),在深度神经网络中应用效果明显。 2. **批量学习与在线学习**:批量学习利用所有可用数据一次性训练,通常离线进行,训练后部署到生产环境便停止学习,随着时间推移,因现实变化,模型性能会下降(模型衰退或数据漂移),需定期用最新数据重新训练,但重新训练耗时、计算资源密集;在线学习则通过逐步接收数据实例增量训练,可实时动态调整和学习,适合快速响应环境变化、计算资源有限或处理超大规模数据集(外存学习)的场景。

四、机器学习的模型类别

(一)几何模型 通过数学和几何方法理解和描述机器学习算法中数据的特征、模式和关系,如支持向量机、K均值聚类等算法。支持向量机寻找最优超平面分隔不同类别数据,最大化类别间边距;K均值聚类将数据划分为K个簇,使簇内数据相似度高,簇间数据相似度低。

(二)概率模型 基于概率理论和统计学原理建模和预测数据,典型的有朴素贝叶斯模型、隐马尔可夫模型等。朴素贝叶斯模型基于贝叶斯定理和特征条件独立假设进行分类;隐马尔可夫模型用于描述一个含有隐含未知参数的马尔可夫过程,在语音识别、自然语言处理等领域应用广泛。

(三)逻辑模型 基于特定推理方法构建,常见的如决策树、关联规则挖掘和人工神经网络。决策树通过一系列问题对数据分类或回归;关联规则挖掘发现数据集中各项之间的关联关系;人工神经网络模拟人脑神经元结构,由多个层次节点组成,能识别模式、分类数据等,其中卷积神经网络主要用于图像处理,循环神经网络用于处理序列数据。

五、机器学习的应用领域

 (一)图像识别和分类 涵盖人脸识别用于安全门禁、考勤系统等;图像检索帮助用户从大量图像库中找到相关图片;物体识别在自动驾驶中识别道路上的行人、车辆、交通标志等。

(二)自然语言处理 机器翻译实现不同语言间文本自动翻译;文本分类对新闻、评论等文本进行类别划分;语音识别将语音转换为文本,应用于智能语音助手、语音输入等场景。

(三)推荐系统 电商平台根据用户浏览、购买历史推荐商品;社交媒体根据用户兴趣推荐内容,提高用户粘性和平台活跃度。

(四)医疗诊断 辅助医生进行癌症诊断,通过分析医学影像、病理数据等提高诊断准确性;疾病预测根据患者病史、基因数据等预测患病风险,实现早发现早治疗。

(五)金融风控 欺诈检测识别异常交易行为,防范金融欺诈风险;信用评估根据用户信用记录、财务状况等评估信用等级,为金融机构贷款、信用卡发放等业务提供决策依据。

(六)工业制造 质量控制检测产品生产过程中的缺陷,保障产品质量;异常检测发现设备运行中的异常情况,提前进行维护,避免设备故障导致生产停滞。

(七)自动驾驶 视觉感知识别道路环境信息,路况识别判断道路状况,为自动驾驶汽车决策提供依据,实现安全行驶。

(八)游戏智能 游戏AI通过强化学习等方法学习游戏策略,提高游戏可玩性和挑战性,如机器人足球中机器人的策略制定和动作执行。

 (九)网络安全 恶意代码检测识别计算机病毒、木马等恶意程序;网络攻击识别防范网络入侵、DDoS攻击等安全威胁,保障网络安全。

(十)环境保护 气象预测通过分析气象数据预测天气变化;大气污染监测利用机器学习模型分析监测数据,评估大气污染状况,为环保决策提供支持。

http://www.lryc.cn/news/621245.html

相关文章:

  • 智能体评测技术与实践:从评估维度到DeepEval实战指南
  • 20250814,通义万相,无限生成权限(慢速)
  • Linux中的日志管理
  • Linux中tty与8250-uart的虐恋(包括双中断发送接收机制)
  • 前端包管理工具
  • hive加载csv中字段含有换行符的处理方法
  • Spring-cloud-openfeign-设置超时时间
  • 数据结构:用两个栈模拟队列(Queue Using 2 Stacks)
  • 8.14网络编程——TCP通信基础
  • 【22-决策树】
  • 零基础-动手学深度学习-10.3. 注意力评分函数
  • 20道CSS相关前端面试题及答案
  • torch.nn中Sequential的使用
  • 【代码随想录day 20】 力扣 538.把二叉搜索树转换为累加树
  • CMake语法与Bash语法的区别
  • 扩展用例-失败的嵌套
  • 流式数据服务端怎么传给前端,前端怎么接收?
  • jenkins在windows配置sshpass
  • 设计模式笔记_行为型_状态模式
  • 【JavaEE】多线程 -- 线程状态
  • 纸箱拆垛:物流自动化中的“开箱密码”与3D视觉的智能革命
  • 面试题之项目中灰度发布是怎么做的
  • Flink on YARN启动全流程深度解析
  • 会议通信系统核心流程详解(底稿1)
  • Linux软件编程:进程和线程
  • C#面试题及详细答案120道(01-10)-- 基础语法与数据类型
  • Flink Stream API 源码走读 - socketTextStream
  • 2025H1手游市场:SLG领涨、休闲爆发,何为出海新航道?
  • 广告灯的左移右移
  • Day43 复习日