当前位置: 首页 > news >正文

20240809 每日AI必读资讯

乒乓球AI机器人赢了人类!正反手灵活转换,擦网球高球都能接 

- 谷歌发布首个达到人类竞技水平的机器人Agent,挑战乒乓球赛场。

- 机器人通过学习大量乒乓球状态数据,掌握了正手上旋球、反手瞄准等技能,展现出高速运动和实时精确性。

- 机器人在与不同技能水平选手的比赛中取得一定成绩,展现出与人类对手直接竞争的能力。

🔗 https://sites.google.com/view/competitive-robot-table-tennis/home

🔗 详情:https://blog.csdn.net/m0_46163918/article/details/141068947

 通义千问推出专门的数学语言模型:Qwen2-Math 

- 性能超越GPT-4o、Claude-3.5等

- Qwen2-Math 包括 1.5B、7B 和 72B 。 是基于 Qwen2 LLM 构建的专门针对数学解题的模型。

- 在多个数学基准测试中数学能力显著超越了开源模型包括Llama-3.1-405B,甚至超过了闭源模型 (包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro )。

苹果发布一种新的图像和视频生成方法:Matryoshka Diffusion Models (MDM)

- 可以理解为“套娃扩散模型”。名字来源于俄罗斯套娃,因为它像套娃一样,把小的结构嵌套在大的结构里。

- MDM 能够在不同清晰度下同时处理图像,比如它可以同时生成低清晰度的草图和高清晰度的细节部分。 这种方法让整个过程更快,而且生成的图像质量更高。

- 用于生成高质量图像和视频的模型面临很大的计算和优化难题。大多数方法要么在图像的像素层面上逐步生成,要么通过先训练一个压缩图像的模型,再在低分辨率的图像上进行处理。

- MDM 的创新在于它能同时处理不同分辨率的图像。就像你在画一幅画,先画小的细节,然后再画大的背景,MDM 就是这样同时处理不同层次的内容。

- 训练过程是从低分辨率到高分辨率逐步进行的,这让生成高分辨率图像和视频变得更加高效。

- MDM 不仅限于静态图像生成,还可以扩展到视频生成领域,生成符合文本描述的动态视频序列。

- 研究表明,这种方法可以生成分辨率高达 1024x1024 像素的图像,并且即使使用相对较少的数据,它也能很好地生成出符合要求的图像。

🔗GitHub:https://github.com/apple/ml-mdm

🔗论文:https://arxiv.org/pdf/2310.15111

 字节跳动AI助手豆包app、电脑版上线音乐生成功能

- 用户可在豆包app或电脑版中生成独特歌曲,选择曲风、氛围和人声,歌词限制在200字以内。

- 提供11种不同音乐风格和多种情绪状态选择,包括民谣、嘻哈、R&B,用户可选择男声或女声演唱。

- 用户可一键生成完整歌词,下载并分享生成的歌曲和封面。音乐生成功能仍在不断完善中,豆包鼓励用户用音乐分享故事,激发创造力。

LSLM:一种新的语音模型 

- 由上海交通大学X-LANCE人工智能实验室和字节跳动联合开发的一种新的语言模型

- 能够在说话的同时也能听到外界的声音,从而支持实时的语音交互。

- 而且还可以随时打断它,即时是在嘈杂的环境中也能工作。

🔗项目地址:https://ziyang.tech/LSLM/

http://www.lryc.cn/news/418937.html

相关文章:

  • 《投资的原理》阅读笔记一
  • 金九银十,全网最详细的软件测试面试题总结
  • ActiveMQ任意文件写入漏洞(CVE-2016-3088)复现
  • 网络协议四 物理层,数据链路层
  • Python知识点:如何使用Twisted进行异步网络编程
  • 循环神经网络
  • SQL进阶技巧:有序数据合并问题之如何按照指定的规则对数据进行合并?【详解collect_list函数有序性保证】
  • windows和office微软官方免费激活教程
  • 【C++ 面试 - 基础题】每日 3 题(七)
  • Java面试题精选:消息队列(一)
  • 宝塔面板启用 QUIC 与 Brotli 的完整教程
  • Linux 进程调度(二)之进程的上下文切换
  • Oracle事物临时表
  • 看图学sql之sql的执行顺序
  • 百日筑基第四十五天-从JAVA8走到JAVA9
  • 力扣第五十七题——插入区间
  • 跟《经济学人》学英文:2024年08月03日这期 India’s economic policy will not make it rich
  • js 深拷贝、浅拷贝深度解析
  • CSS文本两端对齐
  • C#中的foreach和自定义比较
  • 有序转化数组(LeetCode)
  • 大数据信用报告查询有什么作用?怎么选择查询平台?
  • import cv2ModuleNotFoundError: No module named ‘cv2‘
  • [Modbus] Modbus协议开发-基本概念(一)
  • 爬虫代理的使用:提升爬虫效率
  • 【gcc】基于gpt和python的流程和延迟梯度分析
  • 前端CSS总结
  • Linux/C 高级——指针函数
  • GRU门控循环单元【数学+图解】
  • 代码随想录算法训练营第六十一天|Bellman_ford 队列优化算法(又名SPFA)、bellman_ford之判断负权回路