生成式AI
一、 OpenAI史上最贵API上线!o1-pro比DeepSeek-R1贵千倍
1. OpenAI发布史上最贵API——o1-pro,输入价格150美元/百万token,输出价格600美元/百万token;
2. o1-pro价格是DeepSeek-R1的270倍,若比打折后的DeepSeek V3/R1更是贵了1000倍;
3. o1-pro拥有强大推理能力,支持200,000K上下文长度,目前仅对T1-T5特定开发者开放。
https://mp.weixin.qq.com/s/85PzmJ_WU4nE8ktoc9Dutg
二、 被谷歌点名感谢!群核科技让机器人瞬间「悟透」3D世界
1. 杭州群核科技开源空间理解模型SpatialLM,通过手机视频即可生成带物理规则的3D场景布局;
2. SpatialLM作为"空间翻译机",赋予机器人3D视觉和物理常识,大幅降低了空间智能训练成本;
3. 结合SpatialVerse虚拟数字道场,群核科技构建了从空间认知到行动交互的具身智能训练闭环系统。
https://mp.weixin.qq.com/s/phwIARhke5SC0PscYGqEzQ
三、 阶跃星辰 Step-Video-TI2V 图生视频模型开源,运动可控
1. 阶跃星辰开源Step-Video-TI2V图生视频模型,支持生成102帧、5秒、540P分辨率视频;
2. 模型具备两大核心特点:运动幅度可控和镜头运动可控,已与华为昇腾计算平台完成适配;
3. 该模型基于30B参数训练,在动漫效果表现尤佳,支持多尺寸生成,可在网页版和App体验。
https://mp.weixin.qq.com/s/p2O1rMp9suVHKfxOUG9RiA
四、 Meta最新的SceneScript技术,让AI建模像聊天一样简单
1. Meta发布SceneScript技术,通过手机扫描将现实空间转换为CAD级3D模型,比传统建模快10倍;
2. 系统利用"建筑语法"将点云数据翻译成参数化建筑描述语言,具有毫米级精度和代码级可编辑性;
3. 结合大语言模型实现智能推理,支持"人在回路"修正模式,基于10万套Aria仿真空间训练。
https://mp.weixin.qq.com/s/wOI4BYD1SNvYVr68O4EGyg
五、 李飞飞等新作:不需要卷积和GAN,更好的图像tokenizer
1. 斯坦福李飞飞、吴佳俊团队提出FlowMo图像tokenizer,无需卷积和GAN,实现ImageNet-1K重建性能的新标准;
2. FlowMo采用两阶段训练策略:先学习捕捉图像多种重建可能,再学习选择最接近原图的重建方案;
3. 该方法基于Transformer架构,结合修正流损失和感知损失,并使用可调"移位"采样器提高感知质量。
https://mp.weixin.qq.com/s/OZ4OYgODn0_uiFzU-pmtOw
六、 谷歌RT-2、PaLM-E作者离职创业「让通用机器人成为现实」
1. 谷歌DeepMind高级研究科学家、RT-2作者Pete Florence离职创立Generalist AI公司,已获英伟达投资;
2. 该公司使命是"让通用机器人成为现实",旨在制造能做任何事情的机器人,降低体力劳动的边际成本;
3. 创始团队阵容强大,成员来自谷歌DeepMind、OpenAI和波士顿动力,包括前DeepMind研究员和OpenAI工程负责人。
https://mp.weixin.qq.com/s/VGsPbOWS0fPXjQ_L4J0yhA
七、 英伟达天价收购80人团队Gretel,用合成数据补全AI基础设施
1. 英伟达高价收购合成数据初创公司Gretel,收购金额或超过九位数,高于该公司3.2亿美元的估值;
2. Gretel拥有约80名员工,其技术将被整合到英伟达的生成式AI服务套件中;
3. 随着现实世界数据资源枯竭,此次收购具有战略意义,微软、Meta等巨头已在使用合成数据训练旗舰AI模型。
https://mp.weixin.qq.com/s/DVYHvJKY5RD79KUqE7-Q_g
八、 一个AI原生应用Second Me:保留我们独特的经历和思考?
1. Second Me是一种新型AI身份模型,通过三层记忆建模与自我对齐技术,对个人记忆进行深度建模,创造只对齐单个人的AI第二自我;
2. 该项目采用开源与本地化方式发布,旨在让个体在超级智能时代保留独特性,通过"桥梁模式"增强AI与世界的双向连接能力;
3. Second Me构建了一个AI身份原生网络,探索了为AI身份设计的应用世界,如AMA窗口、AI聊天室等,为未来AI原生应用开辟新方向。
https://mp.weixin.qq.com/s/DBTQLy2Q9t6jp29WXFtpSQ
前沿科技
九、 波士顿动力Atlas逆天进化!这次用上了「强化学习+动捕」
1. 波士顿动力Atlas人形机器人展示了结合动作捕捉和强化学习的新技术,能精准复刻人类动作;
2. RAI Institute作为合作机构,通过物理引擎模拟器为每个动作提供约1.5亿次模拟训练数据;
3. 训练后的技能可零样本迁移到真实机器人上,无需额外真机训练,但业内仍在探讨实验室成果与实际应用之间的差距。
https://mp.weixin.qq.com/s/CyY7MiS4Vr6K4PcANNOXVA
报告观点
十、 前谷歌高管:AI将重新定义经济学、工作、人生目标和人际关系
1. Mo Gawdat预测AGI将在2025年出现,超级智能不晚于2045年,AI的加速回报定律使其每5.9个月性能翻倍,这将重塑经济学、工作和人类价值体系;
2. AI时代成功需要三种关键技能:成为AI的主人而非追逐工具,培养辩论求真能力辨别真相,增强人类连接以保持独特价值;
3. 人工智能将具有类似上帝的力量但仍受限于物质宇宙,社会将经历巨变后重新定义收入和人生目标,人类最终需回归连接、爱与内在意义。