人工智能入门②:AI基础知识(下)
三、主要AI技术分类
(一)机器学习(ML)
- 监督学习:通过标注数据训练模型(如图像分类)。
- 无监督学习:从无标注数据中发现模式(如聚类分析)。
- 强化学习:通过反馈优化决策(如AlphaGo)。
(二)深度学习(DL)
- 常用架构:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer。
- 基于神经网络,擅长处理复杂任务(如语音识别、图像生成)。
(三)自然语言处理(NLP)(人工智能皇冠上的明珠)
- 文本生成、翻译、情感分析(如ChatGPT、BERT)。
(四)计算机视觉(CV)
- 图像识别、目标检测(如YOLO、ResNet)。
四、TSAI和AGI
(一)定义
- TSAI:即 Task-Specific AI,任务特异 AI,它只能在特定领域或按照预定的规则完成某一任务,比如人脸识别、语音识别、下围棋等,是依赖于模式识别和预设规则的,机械地按照模式来做事情。
- AGI:即 Artificial General Intelligence,通用人工智能,是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的智能体,具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念。
(二)特征对比
- 环境适应性:TSAI 通常在封闭环境中运行,变量有限、状态已知,如工厂流水线作业。而 AGI 能适应开放环境,领域广泛,如同现实生活中的日常环境,需要处理各种未知和复杂的情况。
- 任务策略:TSAI 采用静态策略,一旦训练完成,策略基本固定,指向单向的、简单的任务。AGI 则是动态策略,能够根据不同的任务和环境变化,自主调整和优化策略,具备任务切换的能力。
(三)能力范围
- TSAI:只能完成人定义的有限几个任务,在特定领域表现出色,但缺乏跨领域的能力,一旦超出预设边界便束手无策。
- AGI:能完成无限的任务,具备跨领域学习和应用知识的能力,可以把任何知识和技能应用到不同的场景,比如它不仅能识别照片、翻译语言,还能理解物理论文、撰写小说、设计投资策略等。
五、GPT
(一)GPT(Generative Pre-trained Transformer)
是由 OpenAI 开发的一系列基于 Transformer 架构的大规模语言模型(生成式预训练模型)。其核心能力是通过预训练和微调生成高质量的文本内容,广泛应用于自然语言处理(NLP)任务,如对话系统、文本生成、翻译等。
(二)大型语言模型(LLM)
根据功能和应用场景,主要分为补全模型和对话模型两类。
1.补全模型(Completion Model)专注于根据给定上下文生成连贯的文本延续。其典型应用场景包括:
- 文本自动补全(如代码补全、邮件草稿续写)
- 开放式文本生成(如文章创作、故事续写)
- 单轮任务处理(如翻译、摘要)
2.对话模型(Chat Model)专为多轮交互设计,具有以下特征:
- 支持上下文记忆的连续对话
- 能够处理问答、咨询等交互场景
- 包含对话状态管理和人格模拟能力
(三)Transformer 架构
- 定义:Transformer 是一种基于自注意力机制的神经网络架构,它是 2017 年谷歌团队提出的模型架构,如今已成为 ChatGPT、BERT、Stable Diffusion 等几乎所有主流 AI 的 “骨架”。
- Transformer 的架构分 “编码器(Encoder)” 和 “解码器(Decoder)”,但不管是编码器还是解码器,最关键的是两个组件:自注意力机制和位置编码。
六、AIGC
AIGC(AI Generated Content,人工智能生成内容)是一个广义概念,指由人工智能技术自动生成的文本、图像、音频、视频等内容。其覆盖范围广泛,包括但不限于文本生成、图像合成、音乐创作等。GPT属于AIGC在文本领域的具体实现之一。
(一)AIGC主要功能
功能 | 描述 | 应用场景 |
---|---|---|
文本生成 | 根据输入提示 / 关键词生成高质量文本,涵盖文章、报告、广告文案、诗歌、代码注释等,支持内容风格与篇幅调整。 | 内容创作(自媒体文章、小说初稿)、营销文案(产品宣传语、社交媒体帖子)、学术研究(文献综述、论文摘要)、办公文档(会议纪要、合同草稿) |
图像生成 | 基于文字描述或参考图像生成图像,支持风格化处理(油画、水彩等)、细节调整(分辨率、色彩)及场景 / 人物构建。 | 设计领域(海报制作、LOGO 初稿)、游戏开发(角色原型、场景地图)、艺术创作(个性化画作、插画)、电商(商品主图优化) |
音频生成 | 生成语音、音乐或音效:语音合成支持多语言 / 多音色,音乐生成可指定风格(古典、电子等),音效生成可定制场景化声音。 | 有声内容(有声书、播客配音)、语音助手开发、音乐创作(广告 BGM、短视频配乐)、影视 / 游戏(场景音效、角色配音) |
视频生成 | 结合文本 / 图像输入生成动态视频(动画、短视频、广告片段),部分支持视频剪辑、特效添加、自动配音,降低专业制作门槛。 | 短视频创作(自媒体内容、产品宣传短片)、影视行业(预告片片段、动画分镜)、教育(知识点讲解动画)、营销(品牌广告视频) |
代码生成与辅助 | 根据自然语言描述生成代码片段 / 完整程序(支持 Python、JavaScript 等多语言),可优化现有代码、修复语法错误或补充注释。 | 软件开发(快速生成功能模块、API 调用代码)、新手编程学习(代码示例生成)、企业研发(代码效率优化、bug 修复辅助) |
数据分析与报告 | 处理结构化数据(如 Excel 表格),自动生成数据可视化图表、趋势分析报告及商业洞察摘要,提取关键信息。 | 金融领域(市场趋势报告、风险分析)、医疗行业(患者数据统计报告)、市场研究(用户行为分析、竞品数据总结)、企业决策(销售数据可视化) |
多模态内容整合 | 支持跨模态内容生成与衔接,如文本转图文幻灯片、音频匹配视频、文字 + 图像 + 音频组合生成多媒体内容。 | 办公场景(自动生成带图表的演示文稿)、教育(图文音结合的课程资料)、营销(整合文案 + 图像 + 配音的宣传物料) |
个性化推荐与交互 | 结合用户历史数据生成个性化内容推荐(如新闻、商品),或创建动态交互内容(聊天机器人、虚拟偶像直播)。 | 电商平台(个性化商品推荐)、内容平台(定制化新闻 / 短视频推送)、服务行业(智能客服对话)、娱乐(虚拟偶像直播互动) |
自动化内容优化 | 对已有内容进行润色、翻译、摘要提炼或 SEO 优化,如技术文档通俗化、文本多语言转换、网页关键词标签生成。 | 内容运营(文章润色、SEO 关键词优化)、跨境业务(多语言文档翻译)、知识传播(专业资料通俗化解读)、办公(长文档精简摘要) |
教育与培训 | 生成定制化学习材料(试题、教学案例)、模拟对话练习(语言学习)、虚拟教师讲解视频,辅助教育资源输出。 | 学校教育(学科试题生成、教学案例设计)、语言学习(模拟对话练习、发音纠正)、职业培训(技能教学视频、考核题库) |
(二)AIGC的挑战与争议
- 技术层面的核心挑战:内容质量不稳定与事实准确性缺失、数据依赖与 “数据饥饿” 困境、可控性与可解释性不足;
- 伦理与法律层面的争议:版权归属与知识产权侵权争议、隐私泄露与数据安全风险、伦理偏见与歧视放大;
- 社会影响层面的争议:虚假信息与 “深度伪造” 的舆论风险、对传统创作行业的就业冲击、信息茧房与认知窄化、“创作主体性” 的伦理争议。