探索 SayCan:功能与意义
访问 SayCan 页面后,我立刻注意到这并非典型的商业工具,而是 Google Robotics 与 Everyday Robots 大型团队开展的学术研究项目。网站清晰指出问题所在:GPT-3 等大型语言模型缺乏对物理现实的 grounding。它们能描述如何清理泼洒物,却可能建议机器人无法实际执行的步骤,比如在没有吸尘器时建议“使用吸尘器”。SayCan 通过结合 LLM 推理与学习到的 affordance 函数(即评估从当前状态执行某项技能成功概率的价值函数)来解决这一问题。该系统迭代式地选取既语义有用又物理可行的技能,然后在移动操作器上执行。该方法在厨房场景中得到演示:面对“我打翻了饮料,能帮忙吗?”的请求,机器人可能会捡起海绵并递过去,而非虚构出吸尘器。
动手体验与技术观察
在测试免费层级时(该项目为开源研究项目,故无定价),我探索了 GitHub 仓库及其发布的模拟桌面环境。仪表板并非产品 UI,而是基于 ROS 集成的代码库。我在本地机器上运行了模拟环境,安装过程需要大量依赖项(PyTorch、MuJoCo、Google 内部库)。工作流是学术式的:你先定义一组低级技能(例如“拿起杯子”“走到水槽”),为每个技能训练价值函数,然后将其与预训练的 LLM(FLAN 或 PaLM)配对。代码随后运行一个对话循环:LLM 提出下一个技能,affordance 函数对其概率重新加权。我观察到 PaLM-SayCan 在错误率上比 FLAN 改进 50%,实现了 84% 的正确技能选择和 74% 的成功执行。技术核心显然是 LLM 评分与学习到的 affordance 的结合——没有 API、没有云服务,仅是一个研究框架。
市场定位、优势与局限
SayCan 定位于使用 LLM 进行机器人任务规划的细分领域。与 ROS 的 MoveIt 或 Nvidia 的 Isaac Sim 等商业框架不同,SayCan 专注于语言的 grounding。竞争对手包括 Google 自家的 RT-2(视觉-语言-动作模型)和 Microsoft 的 RobotChat;SayCan 早于它们且更具模块化。优势:该方法优雅——无需重新训练 LLM 即可显式解决 grounding 问题。开源模拟可带来可重复性。使用 PaLM 的更新结果显示明显改进。局限:这纯粹是研究工具。没有即用 API、没有客户支持,且代码依赖 Google 内部基础设施(例如论文使用 Everyday Robots 硬件)。实际部署需要大量定制。定价未公开——因为根本不存在。该工具最适合希望集成 LLM 的机器人研究人员,而非构建商业产品的开发者。
目标用户与最终评价
SayCan 非常适合熟悉强化学习、LLM 和机器人控制的学术实验室及高级爱好者。如果你想在真实或模拟机器人上实验语言 grounding,发布的代码和论文是宝藏。但如果你需要工厂车间或智能家居设备的即插即用解决方案,请另寻他方——考虑新兴的商业化方案,如 Covariant.ai 或 Google 自己的 PaLM-E API(一旦可用)。我的诚实评价:SayCan 是出色的概念验证,推动了领域发展,但它不是产品。透明的文档和开源代码赢得信任,但陡峭的学习曲线和缺乏精致界面限制了受众。如果你有机器人技术栈和钻研研究代码的耐心,可以一试。请访问 SayCan 官网 https://say-can.github.io/ 自行探索。
评论