Smart Finder智能体开发心路历程
By Steven guo1 min read67 words

Smart Finder智能体开发心路历程

Technology
Agent
Glasses

大家好,我是steven,一名独立开发者。今天来为大家分享一下我在 Spatial Joy 2025 比赛中参赛的智能体 Smart Finder 的开发心路历程。前阵子运气不错,这个项目不仅拿了金奖,还意外获得了支付宝的特别奖和一笔创业种子基金。趁着这次马年春节的开发者社区征文,刚好把这段时间“折腾”硬件和 AI 的经历和大家聊聊。

什么是智能体?

智能体也叫 Agent。现在这个词在 2025 年被行业里炒得很热,但抛开那些高大上的学术概念,在我看来,可以把它简单的比作为“长了手脚和眼睛的程序”。

以前我们写代码,输入靠键盘,输出靠屏幕,甚至早期的 AI 也只是对话框里的聊天机器人。但有了 Agent,我们就可以来做一些实际的事情了,比如让它帮你查找最近的新闻,发送 Email,亦或者是对数据库的 CRUD等等。

那如果是在 AI 眼镜这种载体上,它的输入就变成了你眼前看到的真实画面,和你随口说出的一句话。在 Smart Finder 这个项目里,Agent 扮演的是一个帮你记东西的“赛博管家”。你不用再打开某个 App 去苦哈哈地打字记录,只要看着那个物品,说一句“帮我记一下”,它就会自己调用视觉大模型去识别,然后存进数据库里。

灵珠平台可以干什么?

我之前也做过一阵子的 AI 应用层的开发,但是主要是做高代码开发,使用 llamaindex 或者 autogen 做一些智能体的编排和一些知识库的应用。那灵珠平台是类似扣子平台那样的可视化智能体编排平台,我还是第一次接触。再了解完相关的信息后,我感觉灵珠平台才是真正的一个有用的智能体开发平台,相对于扣子这类只能靠文字输入,灵珠平台是少有的接入硬件的编排平台。

做过端侧硬件开发的兄弟们肯定都知道,最头疼的就是去抠各种底层的 SDK 和驱动接口。但这次基于 Rokid 灵珠 AI 平台开发,说实话,确实帮我省了不少问题。

灵珠平台对我最大的价值就是“搭积木”。它把底层能力都封装得很透彻,比如它直接提供了 Rokid Glasses 的端侧插件。我只需要在可视化面板上拖拽一个节点,就能控制眼镜去拍照、导航或者退出程序。另外,它原生集成了工作流编排、知识库记忆,甚至连支付宝的 MCP 都已经接好了(这也让我的应用能在找不到东西时,直接帮用户比价买个新的)。这意味着我一个人就能搞定全栈开发,甚至不用写一行代码,可以把精力全花在怎么让“找东西”这个核心体验更顺畅上,而不是天天面对着满屏的 API 报错发愁。

什么样算是一个好的 idea?

我一直觉得,AI 眼镜上的好 idea,绝对不能是把手机 App 强行照搬过来。一个好的 idea 必须能回答一个灵魂拷问:为什么这事儿非得戴着眼镜干?

就像 Smart Finder,它的切入点极其聚焦,就是“找东西”。春节这几天大家走亲访友肯定深有体会,随手放的车钥匙、茶几上的红包,转头就忘了在哪。如果用手机记,你得掏出手机、打开相册、甚至敲字备注,根本没人能坚持得下来。但戴着眼镜,这就是一句话的事,彻底解放双手(Hands-free)。好的 idea 就是要切中那种“用手机做嫌麻烦,但生活中又确实痛”的刚需小场景。希望对一些想要创业的朋友也有所启发,一个好的 idea有的时候真的可以作为一个 key result,但是创业也绝不仅仅是一个idea就可以的。

简单就一定好做吗?

这可能是大家对极简产品最大的错觉。Smart Finder 对用户来说确实极简:一句话记录,一句话查找。

但为了维持表面上的这份“简单”,我在后端留下的汗水可一点都不少。为了让系统听懂用户各种奇奇怪怪的口语化指令,我专门设计了一个

SmartFinder_MainFlow
作为调度中枢,它的下面挂载了12 个核心工作流。

比如,用户的一张照片里可能包含好几个物品,这就需要先用多模态视觉模型(doubao-seed-vision)去识别这到底是个啥、旁边有什么参照物,并且计算置信度;然后再交由大语言模型(qwen3-max)去提取颜色、位置等结构化信息并存入数据库。不仅如此,我还得处理模糊查询、位置更新、历史上下文清理等各种边缘情况。所谓的简单,不过是开发者把最脏最累的逻辑判断,全交给了代码和工作流去死磕。

未来畅想

目前的 Smart Finder 虽然好用,但它依然偏向“你问它答”的被动触发式交互。

但在未来,配合 Rokid Glasses 的“慧眼”(Live AI)以及越来越成熟的 Omni-Realtime 全模态实时模型技术,我期待灵珠平台能打通实时视频流的无缝分析能力。

到那时候,Smart Finder 就真正变成了一个 Always-on 的视觉伴侣。你不需要再刻意对它下指令,只要戴着眼镜在屋里走动,它就像行车记录仪一样,在后台无感地帮你把所有的物品建立起空间三维坐标。真正做到“走过即记录,所见即记忆”,让 AI 眼镜成为人类大脑最强大的数字孪生外挂。

以上就是我分几个不同的维度分享了一下我在开发Smart Finder中的一些心路历程,希望对大家有所帮助,也欢迎大家在Glasses 的智能体商店体验,按照要求现已更名为《智能找物助手》。