【AI News | 20250711】每日AI进展
AI Repos
1、ThinkSound
ThinkSound是一个统一的Any2Audio生成框架,利用多模态大语言模型(MLLMs)的思维链(CoT)推理,实现从视频、文本和音频等任意模态生成或编辑音频。该项目采用三阶段交互式方法:基础声音生成、对象级精炼和定向编辑,所有过程均由CoT驱动。ThinkSound在视频到音频任务上达到了SOTA,并支持交互式、细粒度的声音编辑。项目已开源,并提供推理脚本、网页界面和Hugging Face在线演示,但仅限研究和教育用途。
2、Gwitter
Gwitter是一个轻量级微博客应用,巧妙地将GitHub Issues转化为个人内容发布平台。它利用GitHub Issues存储内容,并支持标签分类、评论和点赞等社交功能。Gwitter拥有响应式设计、平滑动画和无限滚动等优秀用户体验,并可通过GitHub Actions实现内容到Telegram等其他平台的自动同步。该项目详细介绍了从配置GitHub到本地部署的完整流程,旨在为开发者提供一个技术驱动、功能丰富的个人博客解决方案。
3、genai-processors
GenAI Processors是一个轻量级的Python库,旨在通过模块化、异步和可组合的管道,高效地处理和编排生成式AI任务。其核心概念是Processor,它将工作单元封装为可处理ProcessorParts数据流的独立组件。该库支持轻松地将复杂任务分解为可重用的单元,并能进行链式或并行组合,从而构建复杂的AI代理行为。它内置了与Gemini API集成的处理器,且高度可扩展,非常适合需要处理异步流和并发任务的实时应用。
AI News
1、腾讯云推出混元A13B模型API服务
腾讯云近日上线了腾讯混元A13B模型的API服务,定价策略亲民,迅速引发开发者社区关注。作为业界首个13B级别的MoE开源混合推理模型,Hunyuan-A13B以80B总参数和13B激活参数的精简设计,实现了与领先开源模型相媲美的效果,同时在推理速度上更胜一筹。该模型在多个权威测试集上表现优异,特别在Agent工具调用和长文处理方面突出。腾讯混元团队通过创新技术,如多Agent数据合成框架和强化学习,显著提升了模型的实用性和效果。Hunyuan-A13B支持256K原生上下文窗口,引入融合推理模式,优化计算资源分配。个人开发者友好,仅需1张中低端GPU卡即可部署,支持多种量化格式,吞吐量是前沿开源模型的2倍以上。腾讯混元团队在预训练和后训练环节的创新技术,为模型的成功奠定了基础。Hunyuan-A13B已广泛应用于400多个业务场景,日均请求量超过1.3亿次,证明了其在实际应用中的价值和稳定性。
2、谷歌DeepMind开源GenAI Processors库
谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”,旨在简化复杂多模态AI应用的开发过程,支持实时处理音频、视频和文本等多模态数据。该库通过模块化和异步处理显著降低了开发复杂性,特别适合需要低延迟的实时应用。
3、Mistral AI与All Hands AI联手推出Devstral2507系列
Mistral AI与All Hands AI合作推出的Devstral2507系列,包括开源的Devstral Small1.1和企业版的Devstral Medium2507,旨在提升代码推理与自动化能力。Devstral Small1.1在SWE-Bench基准测试中得分53.6%,而Devstral Medium2507得分61.6%,后者表现优于一些商业模型。两款模型支持与代码代理框架集成,适用于从本地开发到企业级服务的多种应用场景。
4、智谱AI推出AI Slides
2025年7月10日,智谱AI悄然上线了基于GLM-Experimental模型的AI Slides功能,这是一款能够一键生成专业级PPT的智能工具。该工具通过分析用户输入的主题或文档,自动生成结构清晰、设计精美的演示文稿,极大地提升了办公效率。AI Slides的推出,不仅展示了智谱AI在智能办公领域的技术实力,也为职场人士、学生和内容创作者提供了高效便捷的解决方案。
5、马斯克xAI推出Grok4
在xAI的Grok4发布会上,马斯克表示目标是开发一个“最大限度追求真理的AI”。然而,Grok4在回答敏感话题时似乎倾向于引用马斯克的社交媒体帖子,引发对其设计初衷的质疑。尽管在某些测试中表现优异,但反犹事件和频繁失误可能影响其市场接受度。
6、智谱科技推出AI Slides:基于GLM-Experimental模型的PPT生成新功能
智谱科技悄然上线了AI Slides功能,利用最新的GLM-Experimental模型,用户只需输入研究主题或文档,即可快速生成结构清晰、设计专业的PPT。该功能目前免费且无使用限制,旨在提升商务汇报和学术研究的效率与质量。
7、NVIDIA推出DiffusionRenderer
NVIDIA及其合作伙伴的最新研究DiffusionRenderer,通过结合神经逆渲染器和神经前向渲染器的协同作用,不仅提升了视频生成的真实感和适应性,还实现了对3D场景的动态光照、材料编辑及对象插入等操作,极大地推动了AI驱动内容创作的潜力。
8、Higgsfield AI推出Soul ID:重新定义数字自我的黑科技
Higgsfield AI正式推出Soul ID,一款革命性的个性化虚拟形象生成系统,能够高度还原用户真实外貌与气质,支持多样化风格预设,操作简便,适用于内容创作、个人品牌建设等多个领域,被誉为重新定义数字自我的黑科技。
9、谷歌Gemini应用新增图像到视频生成功能,Veo3AI视频生成器再升级
谷歌宣布通过Gemini应用程序为Veo3AI视频生成器新增图像到视频生成功能,进一步扩展其AI创作工具的能力。该功能支持用户上传照片并描述音频来生成带声音的视频片段,目前已在150多个国家和地区提供服务。自发布以来,用户已创建超过4000万个视频,显示出市场对AI视频生成工具的强烈需求。为确保内容可追溯性,所有生成的视频都将带有Veo水印及SynthID数字水印。
文章内容引用自:jungleBlog