当前位置: 首页 > news >正文

【AI News | 20250711】每日AI进展

AI Repos

1、ThinkSound
ThinkSound是一个统一的Any2Audio生成框架,利用多模态大语言模型(MLLMs)的思维链(CoT)推理,实现从视频、文本和音频等任意模态生成或编辑音频。该项目采用三阶段交互式方法:基础声音生成、对象级精炼和定向编辑,所有过程均由CoT驱动。ThinkSound在视频到音频任务上达到了SOTA,并支持交互式、细粒度的声音编辑。项目已开源,并提供推理脚本、网页界面和Hugging Face在线演示,但仅限研究和教育用途。
在这里插入图片描述

2、Gwitter
Gwitter是一个轻量级微博客应用,巧妙地将GitHub Issues转化为个人内容发布平台。它利用GitHub Issues存储内容,并支持标签分类、评论和点赞等社交功能。Gwitter拥有响应式设计、平滑动画和无限滚动等优秀用户体验,并可通过GitHub Actions实现内容到Telegram等其他平台的自动同步。该项目详细介绍了从配置GitHub到本地部署的完整流程,旨在为开发者提供一个技术驱动、功能丰富的个人博客解决方案。

3、genai-processors
GenAI Processors是一个轻量级的Python库,旨在通过模块化、异步和可组合的管道,高效地处理和编排生成式AI任务。其核心概念是Processor,它将工作单元封装为可处理ProcessorParts数据流的独立组件。该库支持轻松地将复杂任务分解为可重用的单元,并能进行链式或并行组合,从而构建复杂的AI代理行为。它内置了与Gemini API集成的处理器,且高度可扩展,非常适合需要处理异步流和并发任务的实时应用。

AI News

1、腾讯云推出混元A13B模型API服务
腾讯云近日上线了腾讯混元A13B模型的API服务,定价策略亲民,迅速引发开发者社区关注。作为业界首个13B级别的MoE开源混合推理模型,Hunyuan-A13B以80B总参数和13B激活参数的精简设计,实现了与领先开源模型相媲美的效果,同时在推理速度上更胜一筹。该模型在多个权威测试集上表现优异,特别在Agent工具调用和长文处理方面突出。腾讯混元团队通过创新技术,如多Agent数据合成框架和强化学习,显著提升了模型的实用性和效果。Hunyuan-A13B支持256K原生上下文窗口,引入融合推理模式,优化计算资源分配。个人开发者友好,仅需1张中低端GPU卡即可部署,支持多种量化格式,吞吐量是前沿开源模型的2倍以上。腾讯混元团队在预训练和后训练环节的创新技术,为模型的成功奠定了基础。Hunyuan-A13B已广泛应用于400多个业务场景,日均请求量超过1.3亿次,证明了其在实际应用中的价值和稳定性。

2、谷歌DeepMind开源GenAI Processors库
谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”,旨在简化复杂多模态AI应用的开发过程,支持实时处理音频、视频和文本等多模态数据。该库通过模块化和异步处理显著降低了开发复杂性,特别适合需要低延迟的实时应用。

3、Mistral AI与All Hands AI联手推出Devstral2507系列
Mistral AI与All Hands AI合作推出的Devstral2507系列,包括开源的Devstral Small1.1和企业版的Devstral Medium2507,旨在提升代码推理与自动化能力。Devstral Small1.1在SWE-Bench基准测试中得分53.6%,而Devstral Medium2507得分61.6%,后者表现优于一些商业模型。两款模型支持与代码代理框架集成,适用于从本地开发到企业级服务的多种应用场景。

4、智谱AI推出AI Slides
2025年7月10日,智谱AI悄然上线了基于GLM-Experimental模型的AI Slides功能,这是一款能够一键生成专业级PPT的智能工具。该工具通过分析用户输入的主题或文档,自动生成结构清晰、设计精美的演示文稿,极大地提升了办公效率。AI Slides的推出,不仅展示了智谱AI在智能办公领域的技术实力,也为职场人士、学生和内容创作者提供了高效便捷的解决方案。

5、马斯克xAI推出Grok4
在xAI的Grok4发布会上,马斯克表示目标是开发一个“最大限度追求真理的AI”。然而,Grok4在回答敏感话题时似乎倾向于引用马斯克的社交媒体帖子,引发对其设计初衷的质疑。尽管在某些测试中表现优异,但反犹事件和频繁失误可能影响其市场接受度。

6、智谱科技推出AI Slides:基于GLM-Experimental模型的PPT生成新功能
智谱科技悄然上线了AI Slides功能,利用最新的GLM-Experimental模型,用户只需输入研究主题或文档,即可快速生成结构清晰、设计专业的PPT。该功能目前免费且无使用限制,旨在提升商务汇报和学术研究的效率与质量。

7、NVIDIA推出DiffusionRenderer
NVIDIA及其合作伙伴的最新研究DiffusionRenderer,通过结合神经逆渲染器和神经前向渲染器的协同作用,不仅提升了视频生成的真实感和适应性,还实现了对3D场景的动态光照、材料编辑及对象插入等操作,极大地推动了AI驱动内容创作的潜力。

8、Higgsfield AI推出Soul ID:重新定义数字自我的黑科技
Higgsfield AI正式推出Soul ID,一款革命性的个性化虚拟形象生成系统,能够高度还原用户真实外貌与气质,支持多样化风格预设,操作简便,适用于内容创作、个人品牌建设等多个领域,被誉为重新定义数字自我的黑科技。

9、谷歌Gemini应用新增图像到视频生成功能,Veo3AI视频生成器再升级
谷歌宣布通过Gemini应用程序为Veo3AI视频生成器新增图像到视频生成功能,进一步扩展其AI创作工具的能力。该功能支持用户上传照片并描述音频来生成带声音的视频片段,目前已在150多个国家和地区提供服务。自发布以来,用户已创建超过4000万个视频,显示出市场对AI视频生成工具的强烈需求。为确保内容可追溯性,所有生成的视频都将带有Veo水印及SynthID数字水印。

文章内容引用自:jungleBlog

http://www.lryc.cn/news/586591.html

相关文章:

  • 【TOOL】ubuntu升级cmake版本
  • AI产品经理面试宝典第12天:AI产品经理的思维与转型路径面试题与答法
  • 功耗校准数据PowerProfile测试方法建议
  • 【深度剖析】致力“四个最”的君乐宝数字化转型(下篇:转型成效5-打造数字化生存能力探索可持续发展路径)
  • VUE3 el-table 主子表 显示
  • Transformer基础
  • Openpyxl:Python操作Excel的利器
  • Qt 多线程编程:单例任务队列的设计与实现
  • 五、深度学习——CNN
  • NW728NW733美光固态闪存NW745NW746
  • C语言32个关键字
  • 锁相环初探
  • Python Day11
  • 《Spring 中上下文传递的那些事儿》Part 11:上下文传递最佳实践总结与架构演进方向
  • LeetCode题解---<485.最大连续1的个数>
  • [Token]Token merging for Vision Generation
  • 【嘉立创】四层板设计
  • 当大模型遇见毫米波:用Wi-Fi信号做“透视”的室内语义SLAM实践——从CSI到神经辐射场的端到端开源方案
  • 2025年亚太杯(中文赛项)数学建模B题【疾病的预测与大数据分析】原创论文分享
  • UnityShader——SSAO
  • Matplotlib 模块入门
  • BERT:双向Transformer革命 | 重塑自然语言理解的预训练范式
  • 从 Spring 源码到项目实战:设计模式落地经验与最佳实践
  • RMSNorm实现
  • 【离线数仓项目】——数据模型开发实战
  • Druid 连接池使用详解
  • 未来软件开发的新方向:从工程到智能的深度演进
  • 张量类型转换
  • 巅峰对决:文心4.5 vs DeepSeek R1 vs 通义Qwen3.0——国产大模型技术路线与场景能力深度横评
  • 剑指offer56_数组中唯一只出现一次的数字