当前位置：首页 > news >正文

【AI News | 20250710】每日AI进展

news 2025/7/12 10:40:52

AI Repos

1、Dolphin
Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting）是字节跳动推出的一种新型多模态文档图像解析模型，采用“先分析后解析”的两阶段方法。它首先通过生成自然阅读顺序的元素序列进行页面级布局分析，然后利用异构锚点和任务特定提示高效并行解析文档元素。Dolphin在各类页面和元素级解析任务上表现出色，同时具备轻量化架构和并行解析机制，确保高效率。项目已开源代码和预训练模型，并支持TensorRT-LLM和vLLM加速推理，可处理多页PDF文档。
在这里插入图片描述

2、WebAgent
阿里云通义实验室发布WebAgent系列研究成果，包括WebSailor、WebDancer和WebWalker，旨在推动大语言模型在网页遍历和信息搜索方面的自主能力。WebSailor是专为复杂信息搜索任务设计的代理搜索模型，在浏览基准测试中表现出色；WebDancer是基于ReAct框架的原生自主信息搜索模型；而WebWalker则是一个评估LLM网页遍历能力的基准。这些模型均已开源，并提供详细的安装和使用指南，持续探索构建基于浏览器和开放域环境的本地代理模型。

3、FossFLOW
FossFLOW是一款基于React和Fossflow（原Isoflow）库的强大开源渐进式Web应用（PWA），专门用于创建精美的等距图表。它完全在浏览器中运行，支持离线使用，并具备每5秒自动保存、本地数据存储、JSON文件导入/导出等功能，确保用户隐私和便捷性。用户可以通过简单的拖放操作创建和定制图表，并可将其安装为桌面应用。
在这里插入图片描述

AI News

1、可灵AI重磅推出可图2.1模型
可灵AI最新发布的可图2.1模型在指令遵循能力、人像美感、电影质感及风格响应能力等多个维度实现全面升级，同时增强了文字生成效果。新模型将面向所有会员用户免费开放7天，支持文生图、单图参考、多图参考等功能，标志着AI创作工具的又一次飞跃。

2、vivo AI Lab 发布BlueLM-2.5-3B：小巧高效的多模态模型
vivo AI Lab近日发布了端侧多模态模型BlueLM-2.5-3B，该模型以小巧高效著称，具备理解图形用户界面的能力，并在多项文本和多模态评测任务中表现优异。其独特的思考预算控制机制和灵活切换长短思考模式的能力，使其在理解和推理方面超越同类产品。此外，BlueLM-2.5-3B在理解GUI方面的表现尤为突出，展示了vivo在人工智能领域的强大实力。

3、阿里巴巴开源音频生成模型ThinkSound
阿里巴巴通义实验室于2025年7月开源其首款音频生成模型ThinkSound，该模型能够基于视频、文本或音频输入生成高保真音效，为影视制作、游戏开发等领域带来革命性突破。ThinkSound采用先进的链式推理技术，实现音画高保真同步，支持多模态输入和精准音效编辑，其开源策略大幅降低了创作门槛，助力全球开发者。

4、微软开源Phi-4-mini-flash-reasoning模型：推理效率提升10倍，专为边缘设备设计
微软开源了最新版本的Phi-4家族模型——Phi-4-mini-flash-reasoning，该版本在推理效率上实现了10倍的提升，平均延迟降低了2到3倍，特别适合教育和科研领域的应用。其核心在于创新的SambaY架构，通过高效记忆共享提升解码性能，尤其在长文本生成和数学推理方面表现突出。在基准测试中，SambaY在长上下文理解与生成能力上展现了显著优势。

5、xAI推出Grok4，挑战GPT-4o与Gemini3.0
xAI正式发布了其最新旗舰AI模型Grok4，标志着人工智能领域的又一重大突破。Grok4在数学、逻辑推理和代码生成等核心基准测试中表现卓越，部分指标已超越现有顶级模型。xAI推出了通用模型Grok4和专为开发者设计的Grok4 Code，以满足不同用户需求。Grok4延续了xAI的“实时数据”优势，但在处理敏感话题时曾引发争议。xAI计划进一步扩展Grok4的多模态功能，包括图像生成和视频处理。Grok4的发布不仅是xAI技术实力的体现，也标志着AI行业竞争进入新阶段。

6、YouTube强化内容政策：打击AI生成的垃圾内容，保护原创创作者权益
YouTube宣布将于7月15日更新其合作伙伴计划（YPP）的盈利政策，重点打击通过AI技术生成的‘非原创’内容，如批量生产的视频和重复性内容。此举旨在提升平台内容质量，明确盈利资格标准。尽管部分创作者担忧新政策可能限制某些视频类型的盈利能力，YouTube强调这仅是对现有政策的‘微小更新’，以更好地识别和排除垃圾内容。随着AI技术的发展，平台上出现了大量低质量的AI生成内容，YouTube希望通过明确政策来维护其声誉和价值。

7、HAI-DEF推出MedGemma与MedSigLIP
Health AI Developer Foundations(HAI-DEF)推出了MedGemma和MedSigLIP两个开放模型，旨在支持医疗和生命科学领域的AI发展。MedGemma适合生成自由文本的医学任务，而MedSigLIP专注于图像分类与检索。这些模型的开放性和灵活性为开发者提供了在本地环境中安全优化和微调模型的能力，显著提升了医疗AI研发的效率和质量。

8、谷歌Wear OS智能手表迎来Gemini功能
谷歌宣布在Wear OS智能手表上推出Gemini功能，提升用户搜索体验，特别是在游戏相关查询方面。支持Wear OS4及以上系统的设备将陆续获得此功能。此外，谷歌还升级了‘圈选搜索’功能，引入AI模式，优化了谷歌镜头的使用流程，并为Pixel9Pro用户提供了一年的谷歌AI Pro订阅服务。

9、OpenAI即将推出首个开放权重模型，打破闭源惯例
OpenAI计划最早于下周发布其首个开放权重语言模型，这将允许用户在不依赖OpenAI和微软Azure服务器的情况下运行模型。此举标志着OpenAI自2019年发布GPT-2以来首次发布开放权重模型，并打破了与微软签署独家云提供商协议后保持闭源的惯例。新模型类似于o3mini，具备强大的推理能力，已在开发者和研究人员中展示并征求反馈。这一发布预计将对AI领域产生深远影响。

10、Perplexity AI推出Comet浏览器
美国AI搜索初创公司Perplexity AI近日推出了名为Comet的AI浏览器，旨在挑战谷歌Chrome的市场地位。Comet浏览器的核心功能包括预装的Perplexity AI搜索和AI助手Comet Assistant，能够智能识别用户浏览内容并回答问题，简化上网体验。Perplexity的估值在过去一年内从30亿美元上升至90亿美元，显示出其AI技术的广泛关注。

11、Hugging Face推出Reachy Mini桌面机器人
Hugging Face宣布开放订购专为开发者设计的Reachy Mini桌面机器人，提供两种版本以满足不同需求。这些开源机器人套件旨在简化AI应用程序的构建、修改和测试过程，与Hugging Face Hub深度集成，提供丰富的AI模型和数据集访问。Hugging Face强调开源社区的重要性，希望通过Reachy Mini激发开发者创造力，推动机器人技术的开源发展。