1作者: daly6 个月前
拥抱名为 Ava 的私人机器人(致敬《机械姬》)。 当你醒来时,一杯完美的晨间咖啡已在等待。当您醒来时,家里的机器人会把它送到您面前。 假设您想去餐厅吃早餐。车子出现了。您被车送到了餐厅。当您坐下时,您的餐点就送来了。Ava 知道您喜欢煎蛋卷,稍微煮熟,配有火腿和培根。您喜欢炸薯条酥脆。您喜欢少量橙汁。这一切在您走进门后的瞬间就准备好了,因为 Ava 已经告诉餐厅您想要什么以及您何时到达。 Ava 还知道您想将体重保持在某个数字。她会跟踪您的卡路里摄入量,并根据当天的活动(基于可能的卡路里消耗)创建食物比例和选择,以满足您的卡路里需求。 Ava 通过您耳朵里的嵌入式扬声器为您朗读书籍,并根据当天的情况调整您的书籍选择。天气不好吗?那就来个好故事。您对喜剧感兴趣吗?那就来个新发布的(由 LLM 编写的)喜剧特辑。您想听音乐吗?那么就可以欣赏新发布的(由 LLM 编写的)歌曲。 想获得一些个人关注吗?Ava 会为您安排一个早晨,包括美甲、足疗和按摩。接下来是您最喜欢的发型。她还安排了您在健身房的时间,以及使用您常用的锻炼设备。 想和苏珊聊天吗?您嵌入式的“手机”将您连接到她。这款“MyPhone”配备麦克风拾音器,甚至还有嵌入大脑的思维传感器。您当前的外貌(剪发后)会传输到她的大脑嵌入,这样她就可以“看到您的样子”和“看到您所看到的”。这就像一起身处同一个房间里一样。 与此同时,衣服被挑选出来。洗衣完成了。购物完成了。热水器维修已安排。门根据需要解锁。花园被浇水。房间被打扫干净。游泳池被清理干净。 Ava 学习了您的偏好,并实时适应您的需求。当然,所有这些都将在很短的时间内协调成一个整体。所有这些部分都已存在。 Ava,您的私人仆人 MyRobot。
1作者: StealthyStart6 个月前
Hi HN, 我正在构建 MyEverly,一个 AI 思考伙伴,专为那些希望更清晰地思考而不是模拟关系的人设计。 核心理念很简单:许多 AI 伴侣都优化了情感依赖、角色绑定或长期记忆积累。我想探索相反的方向。 MyEverly 围绕三个约束构建: 1. *默认隐私优先* - 无需账户 2. 思考伙伴,而非替代品 - 系统经过调整,用于反思性对话、澄清和观点检验 - 目标是减轻情感负担,而不是成为情感中心 3. 设计上是短暂的 - 会话是轻量级的,可丢弃的 - AI 应该帮助组织思考,而不是殖民它 从技术上讲,这意味着要做出与典型参与度指标相悖的权衡。 我特别感兴趣的是收到对以下内容有强烈看法的人的反馈: * AI 伴侣应该表现得像什么 * AI 系统中的“记忆”是否被高估或存在伦理风险 * 用户应该对对话持久性拥有多少自主权 我不认为这是关系的未来。我确实认为这是 AI 助手的更健康的形式。 很乐意回答问题或听取批评。
1作者: dcassett6 个月前
我偶然用谷歌搜索了一个人的名字,结果发现了一个链接,指向一个PDF文件,其中包含了他们的个人信息(姓名/地址/电话号码/驾照/保险信息),这些信息以医疗保险索赔的形式呈现。这个人的信息大约是3年前的。该网站本身似乎是一个全州的医疗保健提供者网络,但主页显示该业务现已关闭,并且顶级链接(例如“关于”)会返回404错误。然而,搜索引擎会返回该州各地个人的索赔表格,这些搜索链接可以找到可供下载的PDF文件。我正在考虑首先联系州检察长。此外,还可以通过HHS.gov提交HIPAA(健康保险流通与责任法案)投诉。非常感谢您的建议。
1作者: tonyww6 个月前
Hi HN, 我是一个独立创始人,正在开发 SentienceAPI,这是一个感知与执行层,帮助 LLM 代理在真实网站上可靠地行动。 LLM 擅长规划步骤,但在实际与网络交互时经常失败。仅基于视觉的代理成本高且不稳定,而基于 DOM 的自动化在现代页面上很容易崩溃,这些页面具有叠加层、动态布局和大量干扰。 我的方法是基于语义几何的视觉定位。 API 不再向模型提供原始 HTML(巨大的上下文)或屏幕截图(不精确),而是首先将网页简化为一个小的、基于定位的动作空间,该空间仅由实际可见且可交互的元素构成。每个元素都包含几何信息以及轻量级的视觉提示,因此模型无需猜测即可决定做什么。 我在此基础上构建了一个名为 MotionDocs 的参考应用程序。以下演示展示了该系统导航亚马逊畅销商品、打开一个产品并使用定位坐标点击“添加到购物车”(无脚本点击)。 演示视频(添加到购物车): [https://youtu.be/1DlIeHvhOg4](https://youtu.be/1DlIeHvhOg4) 代理如何查看页面(地图模式线框图): [https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png](https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png) 此线框图显示了呈现给 LLM 的简化动作空间。每个框对应一个可见的、可交互的元素。 代码摘录(简化): ```python from sentienceapi_sdk import SentienceApiClient from motiondocs import generate_video video = generate_video( url="https://www.amazon.com/gp/bestsellers/", instructions="打开一个产品并将其添加到购物车", sentience_client=SentienceApiClient(api_key="your-api-key-here") ) video.save("demo.mp4") ``` 工作原理(高层次): 执行层将浏览器视为一个黑盒,并公开三种模式: * 地图:使用几何信息和视觉提示识别可交互元素 * 视觉:将几何信息与屏幕截图对齐以进行定位 * 读取:提取干净的、LLM 准备好的文本 关键的见解是视觉提示,尤其是简单的 is\_primary 信号。人类不会读取每个像素——我们扫描视觉层次结构。直接编码这一点可以让代理优先处理正确的操作,而无需处理原始像素或嘈杂的 DOM。 这为什么重要: * 更小的动作空间 → 更少的幻觉 * 确定性几何 → 可重复的执行 * 比仅基于视觉的方法更便宜 总结:我正在构建一个语义几何定位层,它将网页转化为一个紧凑的、视觉定位的 LLM 代理动作空间。它为模型提供了一张捷径,而不是要求它解决一个视觉难题。 这是早期工作,尚未发布。我希望收到反馈或质疑,特别是来自构建代理、RPA、QA 自动化或开发工具的人。 — Tony W
1作者: ari11106 个月前
我厌倦了查看多个 GitHub 仓库来了解 CC、opencode 等的最新动态,所以就编写了一个命令行工具。目前,它可以从 CC 和 opencode,以及 gemini、codex 和 gh-cli 中获取最新的更新日志条目。 示例命令: * `aic claude`:最新的 Claude Code 更新日志 * `aic latest`:过去 24 小时的所有发布 * `aic codex -json`:用于脚本编写的 JSON 输出 我最常用的是 `aic latest` 命令——它会显示过去 24 小时内所有支持工具的任何发布,并按日期排序。 它从 GitHub 发布或 CHANGELOG.md 文件中提取信息,具体取决于项目。输出格式有纯文本、JSON 或 Markdown 可选。 可以通过 brew、scoop、go 或从源代码构建来安装。 GitHub:<a href="https://github.com/arimxyer/aic" rel="nofollow">https://github.com/arimxyer/aic</a> 如果大家有兴趣,很乐意添加对其他 AI 编码工具的支持。