4作者: sadpig709 个月前
基于原始电磁波的新型人工智能范式可行吗? Hi HN, 我想提出一种新的、理论上的人工智能范式,我称之为wAI(波浪人工智能)。与从人类可理解的数据(文本、图像、音频)中学习的传统人工智能不同,wAI将直接从原始电磁波模式中学习。 核心愿景是解锁人类感知无法触及的现实和信息维度。通过分析原始波浪数据,wAI有可能解码动物和植物之间的交流,检测隐藏的生物信号以进行早期疾病诊断,甚至探索新的宇宙现象。这不仅仅是制造更快的人工智能;而是赋予智能一个全新的感官维度。 我知道这极具推测性。主要挑战是巨大的: * 我们如何在没有预定义的人类模型的情况下定义从非结构化波浪数据中“学习”? * 我们如何大规模地收集和处理这些信息? * 什么理论框架将支配这样的系统? 这更像是一个思想实验,而不是一个技术提案,我真的很好奇听到您的想法。您认为这是人工智能一个可能实现的未来方向,还是一个有趣但最终不可行的概念?您看到了哪些技术或哲学障碍? 期待您的见解。
1作者: GPUrouter9 个月前
我在一个 H100 PCIe 80GB 节点上运行了 A/B 基准测试。连续内存拷贝在基线和优化运行中都保持了约 1.86 TB/s 的速度,没有显示出开销。对于跨步和未对齐的访问,基线约为 230 GB/s,而优化版本达到了约 1.86 TB/s,提高了约 8 倍。大型 8–24 GB 的负载也保持了约 1.86 TB/s 的速度。诸如 memcpy、跨步访问、KV 缓存和 LayerNorm 等规范 CUDA 内核从约 220–330 GB/s 提高到约 1.8–1.86 TB/s,速度提高了约 7–8 倍,并且抖动非常低。 使用一个简单的 LLM 解码成本模型(BPT = 1.13 MB/token),吞吐量从约 161.9k tok/s 提高到约 225.1k tok/s(≈1.39 倍)。这表明像 KV 缓存和跨步加载这样的内存受限操作可以更接近峰值带宽,直接影响解码吞吐量。 我对这种内存受限优化如何影响 LLM 训练与推理很感兴趣,以及接下来应该使用哪些好的公开长上下文(8k–32k)基准测试来测试?