当AI推动可穿戴发展提速,芯原做了些什么?
1 周前 / 阅读约8分钟
来源:集微网
4月16日,在芯原股份主办的可穿戴技术研讨会上,芯原股份解决方案架构工程师刘律宏向行业展示了AR/VR设备面临的严峻挑战:"随着AR眼镜功能复杂度指数级增长,系统能耗与设备重量正成为产业发展的'双重枷锁'。"

4月16日,在芯原股份主办的可穿戴技术研讨会上,芯原股份解决方案架构工程师刘律宏向行业展示了AR/VR设备面临的严峻挑战:"随着AR眼镜功能复杂度指数级增长,系统能耗与设备重量正成为产业发展的'双重枷锁'。"根据其披露的行业调研数据,当前主流消费级AR眼镜重量普遍在30-80克区间,但配备的电池容量仅450mAh左右,导致复杂场景下的续航时间不足6小时。

针对这一矛盾,刘律宏详细阐述了芯原的三级技术架构:"我们的Pico/Nano系列专用IP核通过动态精度调节技术,在保持95%识别准确率的前提下,将GPU渲染功耗降低至1.2mW/帧,NPU推理能效比达到5.3TOPS/W。"

以某客户实际项目为例,采用芯原ISP+Dewarp组合方案后,图像畸变校正环节的功耗从传统方案的23mW降至9.8mW,面积缩减27%。这些数据印证了专用IP对能效提升的关键作用。

在系统架构层面,刘律宏重点介绍了FLEXA互联技术:"通过点对点直连架构替代传统总线方案,数据搬运能耗降低40%,同时将DDR访问频率从800MHz压缩至480MHz。"配合DECNano有损压缩技术,该方案在医疗AR场景测试中,将3D解剖模型传输带宽从12Gbps压缩至3.2Gbps,同时保持98.7%的视觉保真度。

刘律宏以某AR眼镜芯片项目为例,展示了系统级优化效果:"客户原始设计存在50%的带宽超标和性能缺口,通过芯原方案重构数据通路后,视频处理流水线延迟从28ms缩短至8ms,外存带宽占用下降56.32%。"这得益于三个关键改进:

  1. 采用可配置IP核实现面积-功耗协同优化

  2. 基于场景特征的子系统重分配技术

  3. FLEXA压缩技术将DDR访问比例降至12%

在软件层面,芯原开发了精简版SDK。刘律宏指出:"我们的Lite版驱动代码体积缩减72%,在RTOS环境下仅占用38KB存储空间,CPU负载率控制在15%以内。"这种深度优化使得同个硬件平台可同时支持Linux和安卓双系统,在智能手表项目中实现30%的续航提升。

芯原股份NPU IP研发副总裁查凯南则从AI架构角度提出新思路:"Token化技术正在重塑边缘计算范式,通过将多模态数据转化为语义向量,我们实现了端-边-云的高效协同。"这一理念在与谷歌的联合研发中得到验证。

查凯南详细解析了SigLIP模型的创新应用:"该视觉Transformer模型可将1080P图像压缩为768维Token向量,数据量缩减至原始图像的0.3%,同时保留92.4%的语义信息。"在智能家居场景测试中,这种标记化处理使视频分析延迟从230ms降至58ms。

技术实现的关键在于:

  • 动态量化技术:将32位浮点特征压缩至8位定点

  • 注意力机制优化:计算复杂度降低至传统ViT的1/5

  • 分层Token选择:保留率从100%优化至18%

针对边缘设备算力限制,查凯南介绍了蒸馏技术的突破:"通过渐进式知识蒸馏,将70亿参数的Gemma模型压缩至3亿参数,在RISC-V RVV加速器上实现7.2TOPS/W的能效比。"在AR眼镜原型测试中,该方案支持实时多语言翻译功能,功耗控制在380mW以内。

硬件架构创新方面,查凯南透露:"我们与谷歌共同定义的RVV扩展指令集,使Kelvin处理器实现256MACs/cycle的吞吐量,相比标准RISC-V核提升8倍矩阵运算效率。"

在智能家居安防场景中,芯原方案展现出独特优势:"端侧设备通过Gating Model过滤98.7%的无意义画面,仅将0.3%的关键Token上传云端,使系统级功耗降低64%。"这得益于三级处理架构:

  1. 传感器端:运行100mW级轻量模型完成初步筛选

  2. 边缘网关:部署5TOPS级模型进行语义解析

  3. 云端:运行千亿参数模型完成复杂推理

刘律宏强调系统级优化的必要性:"我们的VIP9000 NPU与DECNano压缩引擎深度耦合,在视频处理流水线中实现数据'零拷贝'传输,延迟降低至传统方案的1/4。"这种软硬协同在工业AR场景中,使设备巡检系统的响应时间从900ms优化至210ms。

查凯南补充道:"在分布式AI框架中,我们开发了统一的Token接口规范,使不同设备的特征向量误差控制在±0.03以内。"这为跨设备协同奠定基础,在车联网测试中实现多摄像头目标跟踪的一致性提升。

在开发者支持方面,刘律宏介绍:"我们提供从RTL到SDK的全套工具链,客户可在72小时内完成IP核配置验证。"查凯南则透露:"与谷歌合作的Model Zoo已收录200+预量化模型,涵盖从1TOPS到100TOPS的不同场景。"

查凯南总结道:"当端侧设备具备环境感知与初步认知能力,云端专注深层推理时,真正的空间计算时代就会到来。"这种技术演进路径,正推动可穿戴设备从"智能终端"向"感知器官"的本质蜕变。

而后,芯原股份片上系统高级设计总监郝鹏鹏系统还阐述了芯原在AI眼镜芯片设计领域的创新实践:"当端侧AI能力从‘功能附加项’进化为‘设备核心引擎’,芯片架构必须重构才能打破性能、续航与成本的‘不可能三角’。"

郝鹏鹏指出,AI眼镜历经萌芽期、低潮期后,正迈入"AI Plus"爆发阶段。通过分析市面主流方案痛点,芯原创立三类设计范式:"大而全"方案受制于300mW+功耗与复杂供应链;"小而精"方案缺乏多模态处理能力;平衡型方案则面临AI算力不足的瓶颈。对此,芯原提出"动态性能密度"设计理念——通过22个独立电源域划分和RISC-V多核异构架构,实现芯片功耗从5μW待机到3.8mW全功能运行的30万倍动态调节范围。

在显示处理环节,芯原创新的AI超分辨率技术引发关注:通过将720P视频流在显示控制器端实时提升至1080P,使视频处理流水线带宽需求降低56%,配合FLEXA直连架构实现DDR-less数据传输。实测数据显示,该方案在动态文字识别场景下,功耗较传统方案降低63%,同时维持98.6%的视觉清晰度。

针对端侧AI算力需求,郝鹏鹏重点解析了"三级加速引擎":AI-PIPE硬件加速器:集成New Break算法硬化模块,使图像语义提取功耗降至0.7mW/帧;可扩展NPU阵列:支持1-4核动态配置,在语音降噪场景实现0.5ms延迟的实时处理;ZSP定制DSP核:通过RISC-V RVV扩展指令集,使Transformer模型推理能效比提升至12.3TOPS/W。

在落地实践方面,郝鹏鹏分享了两个典型案例,一个是家庭安防AI摄像头:采用芯原定制SoC方案,仅凭2节AA电池实现24个月续航,其秘密在于深度优化的电源管理系统——通过动态电压频率调节(DVFS)技术,使运动检测模块功耗低至8.3μW。另一个是全天候AI眼镜原型机:通过22个电源域精细管控,在保持30克重量的前提下,实现连续8小时多模态AI处理能力。其中视觉处理子系统采用"Token生成+超分辨率"组合方案,使3D导航场景下的数据传输量压缩至原始数据的0.2%

郝鹏鹏最后强调,芯原正通过三大技术路径重构行业基准:可配置计算平面:支持从1TOPS到16TOPS的弹性算力部署;混合精度数据流:实现FP16到INT4的动态精度切换,使AI推理能效波动范围收窄至±5%;异构通信架构:通过外挂蓝牙/CAT-1协处理器模块,使无线传输能耗降低42%

"当眼镜芯片的能效密度突破5TOPS/W临界点,设备将真正成为人体‘第六感官’。"郝鹏鹏表示,芯原已构建从IP核到量产芯片的全栈能力,正在帮助客户将AI眼镜开发周期从18个月压缩至9个月。