当前位置: 首页 > news >正文

人工智能入门②:AI基础知识(下)

三、主要AI技术分类

  (一)机器学习(ML)

  • 监督学习:通过标注数据训练模型(如图像分类)。
  • 无监督学习:从无标注数据中发现模式(如聚类分析)。
  • 强化学习:通过反馈优化决策(如AlphaGo)。

(二)深度学习(DL)

  • 常用架构:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer。
  • 基于神经网络,擅长处理复杂任务(如语音识别、图像生成)。

(三)自然语言处理(NLP)(人工智能皇冠上的明珠

  • 文本生成、翻译、情感分析(如ChatGPT、BERT)。

(四)计算机视觉(CV)

  • 图像识别、目标检测(如YOLO、ResNet)。

四、TSAI和AGI

(一)定义

  1. TSAI:即 Task-Specific AI,任务特异 AI,它只能在特定领域或按照预定的规则完成某一任务,比如人脸识别、语音识别、下围棋等,是依赖于模式识别和预设规则的,机械地按照模式来做事情。
  2. AGI:即 Artificial General Intelligence,通用人工智能,是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的智能体,具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念。

(二)特征对比

  1. 环境适应性:TSAI 通常在封闭环境中运行,变量有限、状态已知,如工厂流水线作业。而 AGI 能适应开放环境,领域广泛,如同现实生活中的日常环境,需要处理各种未知和复杂的情况。
  2. 任务策略:TSAI 采用静态策略,一旦训练完成,策略基本固定,指向单向的、简单的任务。AGI 则是动态策略,能够根据不同的任务和环境变化,自主调整和优化策略,具备任务切换的能力。

(三)能力范围

  1. TSAI:只能完成人定义的有限几个任务,在特定领域表现出色,但缺乏跨领域的能力,一旦超出预设边界便束手无策。
  2. AGI:能完成无限的任务,具备跨领域学习和应用知识的能力,可以把任何知识和技能应用到不同的场景,比如它不仅能识别照片、翻译语言,还能理解物理论文、撰写小说、设计投资策略等。

五、GPT

(一)GPTGenerative Pre-trained Transformer)

是由 OpenAI 开发的一系列基于 Transformer 架构的大规模语言模型(生成式预训练模型)。其核心能力是通过预训练和微调生成高质量的文本内容,广泛应用于自然语言处理(NLP)任务,如对话系统、文本生成、翻译等。

(二)大型语言模型LLM

根据功能和应用场景,主要分为补全模型和对话模型两类。

1.补全模型(Completion Model)专注于根据给定上下文生成连贯的文本延续。其典型应用场景包括:

  • 文本自动补全(如代码补全、邮件草稿续写)
  • 开放式文本生成(如文章创作、故事续写)
  • 单轮任务处理(如翻译、摘要)

2.对话模型(Chat Model)专为多轮交互设计,具有以下特征:

  • 支持上下文记忆的连续对话
  • 能够处理问答、咨询等交互场景
  • 包含对话状态管理和人格模拟能力

(三)Transformer 架构

  • 定义:Transformer 是一种基于自注意力机制的神经网络架构,它是 2017 年谷歌团队提出的模型架构,如今已成为 ChatGPT、BERT、Stable Diffusion 等几乎所有主流 AI 的 “骨架”。
  • Transformer 的架构分 “编码器(Encoder)” 和 “解码器(Decoder)”,但不管是编码器还是解码器,最关键的是两个组件:自注意力机制位置编码

六、AIGC

AIGC(AI Generated Content,人工智能生成内容)是一个广义概念,指由人工智能技术自动生成的文本、图像、音频、视频等内容。其覆盖范围广泛,包括但不限于文本生成、图像合成、音乐创作等。GPT属于AIGC在文本领域的具体实现之一。

(一)AIGC主要功能

功能描述应用场景
文本生成根据输入提示 / 关键词生成高质量文本,涵盖文章、报告、广告文案、诗歌、代码注释等,支持内容风格与篇幅调整。内容创作(自媒体文章、小说初稿)、营销文案(产品宣传语、社交媒体帖子)、学术研究(文献综述、论文摘要)、办公文档(会议纪要、合同草稿)
图像生成基于文字描述或参考图像生成图像,支持风格化处理(油画、水彩等)、细节调整(分辨率、色彩)及场景 / 人物构建。设计领域(海报制作、LOGO 初稿)、游戏开发(角色原型、场景地图)、艺术创作(个性化画作、插画)、电商(商品主图优化)
音频生成生成语音、音乐或音效:语音合成支持多语言 / 多音色,音乐生成可指定风格(古典、电子等),音效生成可定制场景化声音。有声内容(有声书、播客配音)、语音助手开发、音乐创作(广告 BGM、短视频配乐)、影视 / 游戏(场景音效、角色配音)
视频生成结合文本 / 图像输入生成动态视频(动画、短视频、广告片段),部分支持视频剪辑、特效添加、自动配音,降低专业制作门槛。短视频创作(自媒体内容、产品宣传短片)、影视行业(预告片片段、动画分镜)、教育(知识点讲解动画)、营销(品牌广告视频)
代码生成与辅助根据自然语言描述生成代码片段 / 完整程序(支持 Python、JavaScript 等多语言),可优化现有代码、修复语法错误或补充注释。软件开发(快速生成功能模块、API 调用代码)、新手编程学习(代码示例生成)、企业研发(代码效率优化、bug 修复辅助)
数据分析与报告处理结构化数据(如 Excel 表格),自动生成数据可视化图表、趋势分析报告及商业洞察摘要,提取关键信息。金融领域(市场趋势报告、风险分析)、医疗行业(患者数据统计报告)、市场研究(用户行为分析、竞品数据总结)、企业决策(销售数据可视化)
多模态内容整合支持跨模态内容生成与衔接,如文本转图文幻灯片、音频匹配视频、文字 + 图像 + 音频组合生成多媒体内容。办公场景(自动生成带图表的演示文稿)、教育(图文音结合的课程资料)、营销(整合文案 + 图像 + 配音的宣传物料)
个性化推荐与交互结合用户历史数据生成个性化内容推荐(如新闻、商品),或创建动态交互内容(聊天机器人、虚拟偶像直播)。电商平台(个性化商品推荐)、内容平台(定制化新闻 / 短视频推送)、服务行业(智能客服对话)、娱乐(虚拟偶像直播互动)
自动化内容优化对已有内容进行润色、翻译、摘要提炼或 SEO 优化,如技术文档通俗化、文本多语言转换、网页关键词标签生成。内容运营(文章润色、SEO 关键词优化)、跨境业务(多语言文档翻译)、知识传播(专业资料通俗化解读)、办公(长文档精简摘要)
教育与培训生成定制化学习材料(试题、教学案例)、模拟对话练习(语言学习)、虚拟教师讲解视频,辅助教育资源输出。学校教育(学科试题生成、教学案例设计)、语言学习(模拟对话练习、发音纠正)、职业培训(技能教学视频、考核题库)

(二)AIGC的挑战与争议

  1. 技术层面的核心挑战:内容质量不稳定与事实准确性缺失、数据依赖与 “数据饥饿” 困境、可控性与可解释性不足;
  2. 伦理与法律层面的争议:版权归属与知识产权侵权争议、隐私泄露与数据安全风险、伦理偏见与歧视放大;
  3. 社会影响层面的争议:虚假信息与 “深度伪造” 的舆论风险、对传统创作行业的就业冲击、信息茧房与认知窄化、“创作主体性” 的伦理争议。

http://www.lryc.cn/news/623972.html

相关文章:

  • C++入门自学Day11-- String, Vector, List 复习
  • 如何利用gemini-cli快速了解一个项目以及学习新的组件?
  • 数据结构03(Java)--(递归行为和递归行为时间复杂度估算,master公式)
  • 人脸AI半球梯控/门禁读头的功能参数与技术实现方案
  • MySQL的事务基础概念:
  • 力扣刷题904——水果成篮
  • 黑马商城day08-Elasticsearch作业(个人记录、仅供参考、详细图解)
  • MLArena:一款不错的AutoML工具介绍
  • 【Linux】IO多路复用
  • SpringCloud 07 微服务网关
  • linux-高级IO(上)
  • 【撸靶笔记】第五关:GET - Double Injection - Single Quotes - String
  • Linux目录介绍
  • 002.Redis 配置及数据类型
  • 第三十八天(Node.JS)
  • AUTOSAR ARXML介绍
  • gin结合minio来做文件存储
  • Oracle Undo Tablespace 使用率暴涨案例分析
  • UE5多人MOBA+GAS 49、创建大厅
  • java设计模式之迪米特法则使用场景分析
  • ​​Vue 3 开发速成手册
  • PHP现代化全栈开发:测试驱动开发与持续交付实践
  • MCP原理与开发及与大模型交互流程
  • 最小路径和
  • 【JAVASE】-9- 接口语法基础
  • Android中切换语言的方法
  • DNS总结
  • 【Linux内核】Linux信号机制
  • linux 常用代码
  • nodejs 错误处理