SayCan

SayCan 评测:将语言模型落地于机器人行动

文本AI 开发框架
4.3 (21 评分)
21
SayCan screenshot

探索 SayCan:功能与意义

访问 SayCan 页面后,我立刻注意到这并非典型的商业工具,而是 Google Robotics 与 Everyday Robots 大型团队开展的学术研究项目。网站清晰指出问题所在:GPT-3 等大型语言模型缺乏对物理现实的 grounding。它们能描述如何清理泼洒物,却可能建议机器人无法实际执行的步骤,比如在没有吸尘器时建议“使用吸尘器”。SayCan 通过结合 LLM 推理与学习到的 affordance 函数(即评估从当前状态执行某项技能成功概率的价值函数)来解决这一问题。该系统迭代式地选取既语义有用又物理可行的技能,然后在移动操作器上执行。该方法在厨房场景中得到演示:面对“我打翻了饮料,能帮忙吗?”的请求,机器人可能会捡起海绵并递过去,而非虚构出吸尘器。

动手体验与技术观察

在测试免费层级时(该项目为开源研究项目,故无定价),我探索了 GitHub 仓库及其发布的模拟桌面环境。仪表板并非产品 UI,而是基于 ROS 集成的代码库。我在本地机器上运行了模拟环境,安装过程需要大量依赖项(PyTorch、MuJoCo、Google 内部库)。工作流是学术式的:你先定义一组低级技能(例如“拿起杯子”“走到水槽”),为每个技能训练价值函数,然后将其与预训练的 LLM(FLAN 或 PaLM)配对。代码随后运行一个对话循环:LLM 提出下一个技能,affordance 函数对其概率重新加权。我观察到 PaLM-SayCan 在错误率上比 FLAN 改进 50%,实现了 84% 的正确技能选择和 74% 的成功执行。技术核心显然是 LLM 评分与学习到的 affordance 的结合——没有 API、没有云服务,仅是一个研究框架。

市场定位、优势与局限

SayCan 定位于使用 LLM 进行机器人任务规划的细分领域。与 ROS 的 MoveIt 或 Nvidia 的 Isaac Sim 等商业框架不同,SayCan 专注于语言的 grounding。竞争对手包括 Google 自家的 RT-2(视觉-语言-动作模型)和 Microsoft 的 RobotChat;SayCan 早于它们且更具模块化。优势:该方法优雅——无需重新训练 LLM 即可显式解决 grounding 问题。开源模拟可带来可重复性。使用 PaLM 的更新结果显示明显改进。局限:这纯粹是研究工具。没有即用 API、没有客户支持,且代码依赖 Google 内部基础设施(例如论文使用 Everyday Robots 硬件)。实际部署需要大量定制。定价未公开——因为根本不存在。该工具最适合希望集成 LLM 的机器人研究人员,而非构建商业产品的开发者。

目标用户与最终评价

SayCan 非常适合熟悉强化学习、LLM 和机器人控制的学术实验室及高级爱好者。如果你想在真实或模拟机器人上实验语言 grounding,发布的代码和论文是宝藏。但如果你需要工厂车间或智能家居设备的即插即用解决方案,请另寻他方——考虑新兴的商业化方案,如 Covariant.ai 或 Google 自己的 PaLM-E API(一旦可用)。我的诚实评价:SayCan 是出色的概念验证,推动了领域发展,但它不是产品。透明的文档和开源代码赢得信任,但陡峭的学习曲线和缺乏精致界面限制了受众。如果你有机器人技术栈和钻研研究代码的耐心,可以一试。请访问 SayCan 官网 https://say-can.github.io/ 自行探索。

域名信息

正在加载域名信息...
345tool Editorial Team
345tool Editorial Team

We are a team of AI technology enthusiasts and researchers dedicated to discovering, testing, and reviewing the latest AI tools to help users find the right solutions for their needs.

我们是一支由 AI 技术爱好者和研究人员组成的团队,致力于发现、测试和评测最新的 AI 工具,帮助用户找到最适合自己的解决方案。

评论

Loading comments...