当前位置：首页 > news >正文

【AI News | 20250711】每日AI进展

news 2025/7/13 20:20:24

AI Repos

1、ThinkSound
ThinkSound是一个统一的Any2Audio生成框架，利用多模态大语言模型（MLLMs）的思维链（CoT）推理，实现从视频、文本和音频等任意模态生成或编辑音频。该项目采用三阶段交互式方法：基础声音生成、对象级精炼和定向编辑，所有过程均由CoT驱动。ThinkSound在视频到音频任务上达到了SOTA，并支持交互式、细粒度的声音编辑。项目已开源，并提供推理脚本、网页界面和Hugging Face在线演示，但仅限研究和教育用途。
在这里插入图片描述

2、Gwitter
Gwitter是一个轻量级微博客应用，巧妙地将GitHub Issues转化为个人内容发布平台。它利用GitHub Issues存储内容，并支持标签分类、评论和点赞等社交功能。Gwitter拥有响应式设计、平滑动画和无限滚动等优秀用户体验，并可通过GitHub Actions实现内容到Telegram等其他平台的自动同步。该项目详细介绍了从配置GitHub到本地部署的完整流程，旨在为开发者提供一个技术驱动、功能丰富的个人博客解决方案。

3、genai-processors
GenAI Processors是一个轻量级的Python库，旨在通过模块化、异步和可组合的管道，高效地处理和编排生成式AI任务。其核心概念是Processor，它将工作单元封装为可处理ProcessorParts数据流的独立组件。该库支持轻松地将复杂任务分解为可重用的单元，并能进行链式或并行组合，从而构建复杂的AI代理行为。它内置了与Gemini API集成的处理器，且高度可扩展，非常适合需要处理异步流和并发任务的实时应用。

AI News

1、腾讯云推出混元A13B模型API服务
腾讯云近日上线了腾讯混元A13B模型的API服务，定价策略亲民，迅速引发开发者社区关注。作为业界首个13B级别的MoE开源混合推理模型，Hunyuan-A13B以80B总参数和13B激活参数的精简设计，实现了与领先开源模型相媲美的效果，同时在推理速度上更胜一筹。该模型在多个权威测试集上表现优异，特别在Agent工具调用和长文处理方面突出。腾讯混元团队通过创新技术，如多Agent数据合成框架和强化学习，显著提升了模型的实用性和效果。Hunyuan-A13B支持256K原生上下文窗口，引入融合推理模式，优化计算资源分配。个人开发者友好，仅需1张中低端GPU卡即可部署，支持多种量化格式，吞吐量是前沿开源模型的2倍以上。腾讯混元团队在预训练和后训练环节的创新技术，为模型的成功奠定了基础。Hunyuan-A13B已广泛应用于400多个业务场景，日均请求量超过1.3亿次，证明了其在实际应用中的价值和稳定性。

2、谷歌DeepMind开源GenAI Processors库
谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”，旨在简化复杂多模态AI应用的开发过程，支持实时处理音频、视频和文本等多模态数据。该库通过模块化和异步处理显著降低了开发复杂性，特别适合需要低延迟的实时应用。

3、Mistral AI与All Hands AI联手推出Devstral2507系列
Mistral AI与All Hands AI合作推出的Devstral2507系列，包括开源的Devstral Small1.1和企业版的Devstral Medium2507，旨在提升代码推理与自动化能力。Devstral Small1.1在SWE-Bench基准测试中得分53.6%，而Devstral Medium2507得分61.6%，后者表现优于一些商业模型。两款模型支持与代码代理框架集成，适用于从本地开发到企业级服务的多种应用场景。

4、智谱AI推出AI Slides
2025年7月10日，智谱AI悄然上线了基于GLM-Experimental模型的AI Slides功能，这是一款能够一键生成专业级PPT的智能工具。该工具通过分析用户输入的主题或文档，自动生成结构清晰、设计精美的演示文稿，极大地提升了办公效率。AI Slides的推出，不仅展示了智谱AI在智能办公领域的技术实力，也为职场人士、学生和内容创作者提供了高效便捷的解决方案。

5、马斯克xAI推出Grok4
在xAI的Grok4发布会上，马斯克表示目标是开发一个“最大限度追求真理的AI”。然而，Grok4在回答敏感话题时似乎倾向于引用马斯克的社交媒体帖子，引发对其设计初衷的质疑。尽管在某些测试中表现优异，但反犹事件和频繁失误可能影响其市场接受度。

6、智谱科技推出AI Slides：基于GLM-Experimental模型的PPT生成新功能
智谱科技悄然上线了AI Slides功能，利用最新的GLM-Experimental模型，用户只需输入研究主题或文档，即可快速生成结构清晰、设计专业的PPT。该功能目前免费且无使用限制，旨在提升商务汇报和学术研究的效率与质量。

7、NVIDIA推出DiffusionRenderer
NVIDIA及其合作伙伴的最新研究DiffusionRenderer，通过结合神经逆渲染器和神经前向渲染器的协同作用，不仅提升了视频生成的真实感和适应性，还实现了对3D场景的动态光照、材料编辑及对象插入等操作，极大地推动了AI驱动内容创作的潜力。

8、Higgsfield AI推出Soul ID：重新定义数字自我的黑科技
Higgsfield AI正式推出Soul ID，一款革命性的个性化虚拟形象生成系统，能够高度还原用户真实外貌与气质，支持多样化风格预设，操作简便，适用于内容创作、个人品牌建设等多个领域，被誉为重新定义数字自我的黑科技。

9、谷歌Gemini应用新增图像到视频生成功能，Veo3AI视频生成器再升级
谷歌宣布通过Gemini应用程序为Veo3AI视频生成器新增图像到视频生成功能，进一步扩展其AI创作工具的能力。该功能支持用户上传照片并描述音频来生成带声音的视频片段，目前已在150多个国家和地区提供服务。自发布以来，用户已创建超过4000万个视频，显示出市场对AI视频生成工具的强烈需求。为确保内容可追溯性，所有生成的视频都将带有Veo水印及SynthID数字水印。