当前位置: 首页 > news >正文

2024年9月AI头条新闻:创新与挑战并存

2024年9月AI头条新闻:创新与挑战并存

在这里插入图片描述

9月,人工智能领域继续高速发展,重大产品发布、伦理争议和技术突破交织在一起。让我们回顾一下本月最重要的AI新闻:

OpenAI的o1:更强大的语言模型

OpenAI推出了o1,一个通过强化学习训练的大型语言模型,用于解决复杂的推理任务。与典型的LLM不同,o1在响应之前会生成一个内部思维链,从而能够在给出答案之前“思考”。该模型在竞争性编程挑战中排名第89百分位,并在博士级科学基准测试中超过了人类的准确性。

OpenAI的先进语音功能

OpenAI开始向ChatGPT Plus和Teams用户推出高级语音模式(AVM),提供更自然的语音体验。该功能包括五个新的自然灵感的声音——Arbor、Maple、Sol、Spruce和Vale,总共九种。一个重新设计的蓝色动画球体现在代表AVM,取代了旧的黑点。增强功能还包括改进的口音识别和更流畅的对话。AVM用户还将受益于自定义指令和内存,实现更个性化的交互。

OpenAI CTO Mira Murati离职

OpenAI首席技术官Mira Murati宣布离职,称希望有“时间和空间进行自己的探索”。她的离职紧随ChatGPT和DALL-E等关键AI工具的近期发布,标志着重大领导层变动,因为另外两名高管Bob McGrew(首席研究官)和Barret Zoph(培训后副总裁)也即将离职。首席执行官Sam Altman指出,这些决定是独立做出的,但强调这些过渡发生在OpenAI处于上升期,即将召开开发者日会议。

Google发布Gems和Imagen 3

Google正在推出其Gemini Advanced平台的两个重大更新:Gems和Imagen 3。Gems允许用户创建个性化的Gemini版本,充当各种主题的专家,通过可定制的指令简化任务。用户可以设置语气和响应长度等参数,预制Gems将协助从职业规划到写作和编码支持等一切。与此同时,Imagen 3引入了先进的图像生成能力,使用户能够创建令人惊叹的视觉效果,包括人物图像,尽管最初仅限于Gemini Advanced、Business和Enterprise订阅者。此更新旨在通过解决之前人物生成的问题,确保遵守安全指南,提供更好的用户体验。

阿里巴巴推出Qwen2-VL

阿里云推出了Qwen2-VL,一种先进的视觉语言模型,能够分析超过20分钟的视频,为AI与视觉数据的交互设定了新的基准。该模型擅长识别手写字、区分物体和总结视频内容,甚至可以为实时技术支持场景提供近乎实时的分析。Qwen2-VL在第三方测试中优于Meta的Llama 3.1和OpenAI的GPT-4o,展示了其在从自动化客户服务到复杂决策任务等各种应用中的潜力。Qwen2-VL提供三种变体,包括两个完全开源的模型,旨在与移动设备和机器人集成,利用Naive Dynamic Resolution和Multimodal Rotary Position Embedding等架构创新来增强视觉理解。

Meta发布Llama 3.2

Meta发布了Llama 3.2,这是一套轻量级视觉和纯文本大型语言模型(LLM),专为边缘设备和移动设备设计。新模型的尺寸为1B、3B、11B和90B,支持令人印象深刻的128K令牌上下文长度,非常适合本地任务,如摘要和指令遵循。值得注意的是,11B和90B视觉模型在图像理解方面优于其文本等效物,可以轻松微调以用于自定义应用程序。Llama 3.2还引入了Llama Stack,简化了跨各种环境的部署,并促进了与AWS、Google Cloud和Qualcomm等主要合作伙伴的合作。

Pixtral 12B

Mistral推出了其第一个多模态模型Pixtral 12B,它可以处理图像和文本。Pixtral 12B基于Mistral的文本模型Nemo 12B构建,具有120亿个参数,可以处理图像字幕和对象计数等任务,从任意图像或URL中提取。该模型大小约为24GB,可通过GitHub和Hugging Face等平台以Apache 2.0许可证下载和微调。

Qwen2.5-Math:开源数学LLM的新基准

Qwen2.5-Math是Qwen数学语言模型的最新迭代,为解决英语和中文中的复杂数学问题提供了突破性的改进。该系列包括1.5B至72B参数的模型,集成了思维链(CoT)和工具集成推理(TIR)技术,实现了更高的计算精度和更深入的算法理解。与前代相比,Qwen2.5-Math系列取得了显著进步,特别是其旗舰模型Qwen2.5-Math-72B-Instruct在MATH和AIME等具有挑战性的基准测试中优于开源和领先的闭源模型。

AlphaProteo:设计高强度蛋白质的AI系统

Google DeepMind推出了AlphaProteo,这是一个最先进的AI系统,用于设计用于生物学和健康研究的高强度蛋白质结合剂。与传统方法不同,AlphaProteo可以生成成功结合目标分子的新型蛋白质,显著增强药物开发、疾病理解等。值得注意的是,它对病毒蛋白的结合成功率高达88%,并且在七个测试目标(包括SARS-CoV-2刺突蛋白和与癌症相关的VEGF-A)的结合亲和力方面比现有设计方法高出300倍。AlphaProteo经过广泛的蛋白质数据训练,简化了耗时的蛋白质设计过程,标志着该领域的重要进步,为更有效的生物学研究铺平了道路。

Lionsgate x Runway:AI助力电影制作

Lionsgate与AI初创公司Runway达成协议,使用生成式AI技术作为电影制作工具,旨在节省“数百万”的制作成本。Runway将基于Lionsgate庞大的电影和电视库开发定制AI模型,使电影制作人能够为前期和后期制作生成和增强电影视频。

OpenAI联合创始人推出安全聚焦的AI初创公司SSI

由OpenAI前首席科学家Ilya Sutskever联合创立的安全超级智能(SSI)成功筹集了10亿美元,以推进旨在超越人类能力的安全AI系统的开发。SSI的使命是在对AI安全日益关注的情况下,创建安全的AI解决方案。

Dejaview:预测犯罪的AI系统

韩国电子通信研究院推出了Dejaview,这是一种旨在通过实时CCTV分析预测犯罪发生的AI系统。通过评估位置、时间、历史犯罪数据等因素,Dejaview可以绘制高风险区域,并在个人可能再次犯罪时发出信号,在初步试验中准确率达到82.8%。

想要快速了解当前AI发展?请关注这个专栏,它将带给你最新的AI咨询!

点击进入:AI 瞭望塔

本文为原创内容,未经许可不得转载。

http://www.lryc.cn/news/508600.html

相关文章:

  • [Xshell] Xshell的下载安装使用、连接linux、 上传文件到linux系统-详解(附下载链接)
  • count(1)、count(_)与count(列名)的区别?
  • 代码随想录训练营第二十七天| 贪心理论基础 455.分发饼干 376. 摆动序列 53. 最大子序和
  • List直接使用removeAll报错
  • Debian环境安装Docker Engine
  • Python常用内置函数总结
  • 深入了解蓝牙Profile类型与设备的对应关系
  • [bug]java导出csv用Microsoft Office Excel打开乱码解决
  • 2023年区块链职业技能大赛——区块链应用技术(一)模块一
  • 4 软件工程——总体设计
  • Elasticsearch:确保业务规则与语义搜索无缝协作
  • 【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
  • 【LuaFramework】LuaFramework_UGUI_V2框架学习
  • 使用 AOP 在 Spring Boot 中实现跟踪和日志记录
  • 如何永久解决Apache Struts文件上传漏洞
  • FPGA远程升级 -- FLASH控制
  • 企业内训|高智能数据构建、Agent研发及AI测评技术内训-吉林省某汽车厂商
  • ARM异常处理 M33
  • (补)算法刷题Day24: BM61 矩阵最长递增路径
  • 探索 Bokeh:轻松创建交互式数据可视化的强大工具
  • 【Rust自学】6.1. 定义枚举
  • 【Java基础面试题035】什么是Java泛型的上下界限定符?
  • 0基础学前端系列 -- 深入理解 HTML 布局
  • 【python高级】342-TCP服务器开发流程
  • 《计算机组成及汇编语言原理》阅读笔记:p48-p81
  • AI在传统周公解梦中的技术实践与应用
  • GIS数据处理/程序/指导,街景百度热力图POI路网建筑物AOI等
  • ssr实现方案
  • 手动修改nginx-rtmp模块,让nginx-rtmp-module支持LLHLS
  • gitee别人仓库再上传自己仓库