当前位置：首页 > news >正文

2024年9月AI头条新闻：创新与挑战并存

news 2025/6/25 20:38:03

2024年9月AI头条新闻：创新与挑战并存

在这里插入图片描述

9月，人工智能领域继续高速发展，重大产品发布、伦理争议和技术突破交织在一起。让我们回顾一下本月最重要的AI新闻：

OpenAI的o1：更强大的语言模型

OpenAI推出了o1，一个通过强化学习训练的大型语言模型，用于解决复杂的推理任务。与典型的LLM不同，o1在响应之前会生成一个内部思维链，从而能够在给出答案之前“思考”。该模型在竞争性编程挑战中排名第89百分位，并在博士级科学基准测试中超过了人类的准确性。

OpenAI的先进语音功能

OpenAI开始向ChatGPT Plus和Teams用户推出高级语音模式（AVM），提供更自然的语音体验。该功能包括五个新的自然灵感的声音——Arbor、Maple、Sol、Spruce和Vale，总共九种。一个重新设计的蓝色动画球体现在代表AVM，取代了旧的黑点。增强功能还包括改进的口音识别和更流畅的对话。AVM用户还将受益于自定义指令和内存，实现更个性化的交互。

OpenAI CTO Mira Murati离职

OpenAI首席技术官Mira Murati宣布离职，称希望有“时间和空间进行自己的探索”。她的离职紧随ChatGPT和DALL-E等关键AI工具的近期发布，标志着重大领导层变动，因为另外两名高管Bob McGrew（首席研究官）和Barret Zoph（培训后副总裁）也即将离职。首席执行官Sam Altman指出，这些决定是独立做出的，但强调这些过渡发生在OpenAI处于上升期，即将召开开发者日会议。

Google发布Gems和Imagen 3

Google正在推出其Gemini Advanced平台的两个重大更新：Gems和Imagen 3。Gems允许用户创建个性化的Gemini版本，充当各种主题的专家，通过可定制的指令简化任务。用户可以设置语气和响应长度等参数，预制Gems将协助从职业规划到写作和编码支持等一切。与此同时，Imagen 3引入了先进的图像生成能力，使用户能够创建令人惊叹的视觉效果，包括人物图像，尽管最初仅限于Gemini Advanced、Business和Enterprise订阅者。此更新旨在通过解决之前人物生成的问题，确保遵守安全指南，提供更好的用户体验。

阿里巴巴推出Qwen2-VL

阿里云推出了Qwen2-VL，一种先进的视觉语言模型，能够分析超过20分钟的视频，为AI与视觉数据的交互设定了新的基准。该模型擅长识别手写字、区分物体和总结视频内容，甚至可以为实时技术支持场景提供近乎实时的分析。Qwen2-VL在第三方测试中优于Meta的Llama 3.1和OpenAI的GPT-4o，展示了其在从自动化客户服务到复杂决策任务等各种应用中的潜力。Qwen2-VL提供三种变体，包括两个完全开源的模型，旨在与移动设备和机器人集成，利用Naive Dynamic Resolution和Multimodal Rotary Position Embedding等架构创新来增强视觉理解。

Meta发布Llama 3.2

Meta发布了Llama 3.2，这是一套轻量级视觉和纯文本大型语言模型（LLM），专为边缘设备和移动设备设计。新模型的尺寸为1B、3B、11B和90B，支持令人印象深刻的128K令牌上下文长度，非常适合本地任务，如摘要和指令遵循。值得注意的是，11B和90B视觉模型在图像理解方面优于其文本等效物，可以轻松微调以用于自定义应用程序。Llama 3.2还引入了Llama Stack，简化了跨各种环境的部署，并促进了与AWS、Google Cloud和Qualcomm等主要合作伙伴的合作。

Pixtral 12B

Mistral推出了其第一个多模态模型Pixtral 12B，它可以处理图像和文本。Pixtral 12B基于Mistral的文本模型Nemo 12B构建，具有120亿个参数，可以处理图像字幕和对象计数等任务，从任意图像或URL中提取。该模型大小约为24GB，可通过GitHub和Hugging Face等平台以Apache 2.0许可证下载和微调。

Qwen2.5-Math：开源数学LLM的新基准

Qwen2.5-Math是Qwen数学语言模型的最新迭代，为解决英语和中文中的复杂数学问题提供了突破性的改进。该系列包括1.5B至72B参数的模型，集成了思维链（CoT）和工具集成推理（TIR）技术，实现了更高的计算精度和更深入的算法理解。与前代相比，Qwen2.5-Math系列取得了显著进步，特别是其旗舰模型Qwen2.5-Math-72B-Instruct在MATH和AIME等具有挑战性的基准测试中优于开源和领先的闭源模型。

AlphaProteo：设计高强度蛋白质的AI系统

Google DeepMind推出了AlphaProteo，这是一个最先进的AI系统，用于设计用于生物学和健康研究的高强度蛋白质结合剂。与传统方法不同，AlphaProteo可以生成成功结合目标分子的新型蛋白质，显著增强药物开发、疾病理解等。值得注意的是，它对病毒蛋白的结合成功率高达88%，并且在七个测试目标（包括SARS-CoV-2刺突蛋白和与癌症相关的VEGF-A）的结合亲和力方面比现有设计方法高出300倍。AlphaProteo经过广泛的蛋白质数据训练，简化了耗时的蛋白质设计过程，标志着该领域的重要进步，为更有效的生物学研究铺平了道路。