March 2, 2026By Steven guo1 min read67 words

Smart Finder智能体开发心路历程

Technology

Agent

Glasses

大家好，我是steven，一名独立开发者。今天来为大家分享一下我在 Spatial Joy 2025 比赛中参赛的智能体 Smart Finder 的开发心路历程。前阵子运气不错，这个项目不仅拿了金奖，还意外获得了支付宝的特别奖和一笔创业种子基金。趁着这次马年春节的开发者社区征文，刚好把这段时间“折腾”硬件和 AI 的经历和大家聊聊。

什么是智能体？

智能体也叫 Agent。现在这个词在 2025 年被行业里炒得很热，但抛开那些高大上的学术概念，在我看来，可以把它简单的比作为“长了手脚和眼睛的程序”。

以前我们写代码，输入靠键盘，输出靠屏幕，甚至早期的 AI 也只是对话框里的聊天机器人。但有了 Agent，我们就可以来做一些实际的事情了，比如让它帮你查找最近的新闻，发送 Email，亦或者是对数据库的 CRUD等等。

那如果是在 AI 眼镜这种载体上，它的输入就变成了你眼前看到的真实画面，和你随口说出的一句话。在 Smart Finder 这个项目里，Agent 扮演的是一个帮你记东西的“赛博管家”。你不用再打开某个 App 去苦哈哈地打字记录，只要看着那个物品，说一句“帮我记一下”，它就会自己调用视觉大模型去识别，然后存进数据库里。

灵珠平台可以干什么？

我之前也做过一阵子的 AI 应用层的开发，但是主要是做高代码开发，使用 llamaindex 或者 autogen 做一些智能体的编排和一些知识库的应用。那灵珠平台是类似扣子平台那样的可视化智能体编排平台，我还是第一次接触。再了解完相关的信息后，我感觉灵珠平台才是真正的一个有用的智能体开发平台，相对于扣子这类只能靠文字输入，灵珠平台是少有的接入硬件的编排平台。

做过端侧硬件开发的兄弟们肯定都知道，最头疼的就是去抠各种底层的 SDK 和驱动接口。但这次基于 Rokid 灵珠 AI 平台开发，说实话，确实帮我省了不少问题。

灵珠平台对我最大的价值就是“搭积木”。它把底层能力都封装得很透彻，比如它直接提供了 Rokid Glasses 的端侧插件。我只需要在可视化面板上拖拽一个节点，就能控制眼镜去拍照、导航或者退出程序。另外，它原生集成了工作流编排、知识库记忆，甚至连支付宝的 MCP 都已经接好了（这也让我的应用能在找不到东西时，直接帮用户比价买个新的）。这意味着我一个人就能搞定全栈开发，甚至不用写一行代码，可以把精力全花在怎么让“找东西”这个核心体验更顺畅上，而不是天天面对着满屏的 API 报错发愁。

什么样算是一个好的 idea？

我一直觉得，AI 眼镜上的好 idea，绝对不能是把手机 App 强行照搬过来。一个好的 idea 必须能回答一个灵魂拷问：为什么这事儿非得戴着眼镜干？

就像 Smart Finder，它的切入点极其聚焦，就是“找东西”。春节这几天大家走亲访友肯定深有体会，随手放的车钥匙、茶几上的红包，转头就忘了在哪。如果用手机记，你得掏出手机、打开相册、甚至敲字备注，根本没人能坚持得下来。但戴着眼镜，这就是一句话的事，彻底解放双手（Hands-free）。好的 idea 就是要切中那种“用手机做嫌麻烦，但生活中又确实痛”的刚需小场景。希望对一些想要创业的朋友也有所启发，一个好的 idea有的时候真的可以作为一个 key result，但是创业也绝不仅仅是一个idea就可以的。

简单就一定好做吗？

这可能是大家对极简产品最大的错觉。Smart Finder 对用户来说确实极简：一句话记录，一句话查找。

但为了维持表面上的这份“简单”，我在后端留下的汗水可一点都不少。为了让系统听懂用户各种奇奇怪怪的口语化指令，我专门设计了一个

SmartFinder_MainFlow

作为调度中枢，它的下面挂载了12 个核心工作流。

比如，用户的一张照片里可能包含好几个物品，这就需要先用多模态视觉模型（doubao-seed-vision）去识别这到底是个啥、旁边有什么参照物，并且计算置信度；然后再交由大语言模型（qwen3-max）去提取颜色、位置等结构化信息并存入数据库。不仅如此，我还得处理模糊查询、位置更新、历史上下文清理等各种边缘情况。所谓的简单，不过是开发者把最脏最累的逻辑判断，全交给了代码和工作流去死磕。

未来畅想

目前的 Smart Finder 虽然好用，但它依然偏向“你问它答”的被动触发式交互。

但在未来，配合 Rokid Glasses 的“慧眼”（Live AI）以及越来越成熟的 Omni-Realtime 全模态实时模型技术，我期待灵珠平台能打通实时视频流的无缝分析能力。

到那时候，Smart Finder 就真正变成了一个 Always-on 的视觉伴侣。你不需要再刻意对它下指令，只要戴着眼镜在屋里走动，它就像行车记录仪一样，在后台无感地帮你把所有的物品建立起空间三维坐标。真正做到“走过即记录，所见即记忆”，让 AI 眼镜成为人类大脑最强大的数字孪生外挂。

以上就是我分几个不同的维度分享了一下我在开发Smart Finder中的一些心路历程，希望对大家有所帮助，也欢迎大家在Glasses 的智能体商店体验，按照要求现已更名为《智能找物助手》。