当前位置：首页 > news >正文

人工智能入门②：AI基础知识（下）

news 2025/8/18 12:56:02

三、主要AI技术分类

（一）机器学习（ML）

监督学习：通过标注数据训练模型（如图像分类）。
无监督学习：从无标注数据中发现模式（如聚类分析）。
强化学习：通过反馈优化决策（如AlphaGo）。

（二）深度学习（DL）

常用架构：卷积神经网络（CNN）、循环神经网络（RNN）、Transformer。
基于神经网络，擅长处理复杂任务（如语音识别、图像生成）。

（三）自然语言处理（NLP）（人工智能皇冠上的明珠）

文本生成、翻译、情感分析（如ChatGPT、BERT）。

（四）计算机视觉（CV）

图像识别、目标检测（如YOLO、ResNet）。

四、TSAI和AGI

（一）定义

TSAI：即 Task-Specific AI，任务特异 AI，它只能在特定领域或按照预定的规则完成某一任务，比如人脸识别、语音识别、下围棋等，是依赖于模式识别和预设规则的，机械地按照模式来做事情。
AGI：即 Artificial General Intelligence，通用人工智能，是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的智能体，具备自主的感知、认知、决策、学习、执行和社会协作等能力，且符合人类情感、伦理与道德观念。

（二）特征对比

环境适应性：TSAI 通常在封闭环境中运行，变量有限、状态已知，如工厂流水线作业。而 AGI 能适应开放环境，领域广泛，如同现实生活中的日常环境，需要处理各种未知和复杂的情况。
任务策略：TSAI 采用静态策略，一旦训练完成，策略基本固定，指向单向的、简单的任务。AGI 则是动态策略，能够根据不同的任务和环境变化，自主调整和优化策略，具备任务切换的能力。

（三）能力范围

TSAI：只能完成人定义的有限几个任务，在特定领域表现出色，但缺乏跨领域的能力，一旦超出预设边界便束手无策。
AGI：能完成无限的任务，具备跨领域学习和应用知识的能力，可以把任何知识和技能应用到不同的场景，比如它不仅能识别照片、翻译语言，还能理解物理论文、撰写小说、设计投资策略等。

五、GPT

（一）GPT（Generative Pre-trained Transformer）

是由 OpenAI 开发的一系列基于 Transformer 架构的大规模语言模型(生成式预训练模型)。其核心能力是通过预训练和微调生成高质量的文本内容，广泛应用于自然语言处理（NLP）任务，如对话系统、文本生成、翻译等。

（二）大型语言模型（LLM）

根据功能和应用场景，主要分为补全模型和对话模型两类。

1.补全模型（Completion Model）专注于根据给定上下文生成连贯的文本延续。其典型应用场景包括：

文本自动补全（如代码补全、邮件草稿续写）
开放式文本生成（如文章创作、故事续写）
单轮任务处理（如翻译、摘要）

2.对话模型（Chat Model）专为多轮交互设计，具有以下特征：

支持上下文记忆的连续对话
能够处理问答、咨询等交互场景
包含对话状态管理和人格模拟能力

（三）Transformer 架构

定义：Transformer 是一种基于自注意力机制的神经网络架构，它是 2017 年谷歌团队提出的模型架构，如今已成为 ChatGPT、BERT、Stable Diffusion 等几乎所有主流 AI 的 “骨架”。
Transformer 的架构分 “编码器（Encoder）” 和 “解码器（Decoder）”，但不管是编码器还是解码器，最关键的是两个组件：自注意力机制和位置编码。

六、AIGC

AIGC（AI Generated Content，人工智能生成内容）是一个广义概念，指由人工智能技术自动生成的文本、图像、音频、视频等内容。其覆盖范围广泛，包括但不限于文本生成、图像合成、音乐创作等。GPT属于AIGC在文本领域的具体实现之一。

（一）AIGC主要功能

功能	描述	应用场景
文本生成	根据输入提示 / 关键词生成高质量文本，涵盖文章、报告、广告文案、诗歌、代码注释等，支持内容风格与篇幅调整。	内容创作（自媒体文章、小说初稿）、营销文案（产品宣传语、社交媒体帖子）、学术研究（文献综述、论文摘要）、办公文档（会议纪要、合同草稿）
图像生成	基于文字描述或参考图像生成图像，支持风格化处理（油画、水彩等）、细节调整（分辨率、色彩）及场景 / 人物构建。	设计领域（海报制作、LOGO 初稿）、游戏开发（角色原型、场景地图）、艺术创作（个性化画作、插画）、电商（商品主图优化）
音频生成	生成语音、音乐或音效：语音合成支持多语言 / 多音色，音乐生成可指定风格（古典、电子等），音效生成可定制场景化声音。	有声内容（有声书、播客配音）、语音助手开发、音乐创作（广告 BGM、短视频配乐）、影视 / 游戏（场景音效、角色配音）
视频生成	结合文本 / 图像输入生成动态视频（动画、短视频、广告片段），部分支持视频剪辑、特效添加、自动配音，降低专业制作门槛。	短视频创作（自媒体内容、产品宣传短片）、影视行业（预告片片段、动画分镜）、教育（知识点讲解动画）、营销（品牌广告视频）
代码生成与辅助	根据自然语言描述生成代码片段 / 完整程序（支持 Python、JavaScript 等多语言），可优化现有代码、修复语法错误或补充注释。	软件开发（快速生成功能模块、API 调用代码）、新手编程学习（代码示例生成）、企业研发（代码效率优化、bug 修复辅助）
数据分析与报告	处理结构化数据（如 Excel 表格），自动生成数据可视化图表、趋势分析报告及商业洞察摘要，提取关键信息。	金融领域（市场趋势报告、风险分析）、医疗行业（患者数据统计报告）、市场研究（用户行为分析、竞品数据总结）、企业决策（销售数据可视化）
多模态内容整合	支持跨模态内容生成与衔接，如文本转图文幻灯片、音频匹配视频、文字 + 图像 + 音频组合生成多媒体内容。	办公场景（自动生成带图表的演示文稿）、教育（图文音结合的课程资料）、营销（整合文案 + 图像 + 配音的宣传物料）
个性化推荐与交互	结合用户历史数据生成个性化内容推荐（如新闻、商品），或创建动态交互内容（聊天机器人、虚拟偶像直播）。	电商平台（个性化商品推荐）、内容平台（定制化新闻 / 短视频推送）、服务行业（智能客服对话）、娱乐（虚拟偶像直播互动）
自动化内容优化	对已有内容进行润色、翻译、摘要提炼或 SEO 优化，如技术文档通俗化、文本多语言转换、网页关键词标签生成。	内容运营（文章润色、SEO 关键词优化）、跨境业务（多语言文档翻译）、知识传播（专业资料通俗化解读）、办公（长文档精简摘要）
教育与培训	生成定制化学习材料（试题、教学案例）、模拟对话练习（语言学习）、虚拟教师讲解视频，辅助教育资源输出。	学校教育（学科试题生成、教学案例设计）、语言学习（模拟对话练习、发音纠正）、职业培训（技能教学视频、考核题库）