2026年1月,聆思正式上线 LNN算法训练推理平台 3.0。作为全自主研发的轻量级神经网络推理框架,LNN自2023年10月在GitHub开源以来,凭借其 “低代码甚至零代码” 的AI部署理念,已广泛应用于端侧AI场景。
本次3.0版本的全面升级,聚焦硬件兼容性扩展、量化训练性能跃升、推理工具链智能化三大方向,标志着LNN从“可用”迈向“好用、高效、专业”的新阶段。聆思始终致力于打通“芯片—算法—大模型—平台工具”的完整技术闭环,为行业提供友好、高效、一站式端侧AI开发体验。
此次LNN3.0的发布,不仅强化平台自身的易用性与性能,更将为聆思全栈生态体系注入更强的开发动能,进一步推动行业加速实现端侧 AI 的规模化落地与创新应用。
全面拓展硬件
支持覆盖全系芯片平台
LNN 3.0显著增强了对聆思自研芯片生态的支持。在原有支持Venus系列的基础上,新增对Arcs、VenusA及Mars全系列芯片平台的完整兼容:
新增 Arcs、VenusA 、Mars全系列支持;VenusA 是25年新发布芯片平台,400MHz主频,256Gops算力,支持SMP。芯片增加专属MTQ执行模式,直接硬件调度AI计算,完美支持多算法并行;
Arcs 是一款六合一高集成度芯片平台,集成AI、主控、图形加速、驱屏以及BLE、BT、WiFi6 多种无线连接能力于一体,充分满足AI+IOT场景需求;
Linger量化训练
速度提升5倍,兼容性更强
作为LNN的核心组件之一,Linger量化训练工具是基于pytorch神经网络量化训练的核心组件,负责对浮点计算图进行量化压缩以满足轻量化需求。
此次3.0 版本对其进行了深度重构与功能增强:
支持主流 CUDA 环境:针对开发环境难配置的问题,根据NVIDIA卡型号和CUDA版本提供三种典型配置:CUDA 10.2 / 11.8 / 12.4,解决旧版对特定 CUDA 版本的强依赖问题。
可兼容 H200 等主流 NVIDIA 训练卡,满足不同配置训练硬件的需求;量化训练速度提升 500%+:通过优化算子调度与改进内存管理,并支持主流显卡,尽量使用torch官方API减少自定义求导,实现大幅缩短量化训练周期;
更强的环境兼容性:通过开放 CPU/GPU 算子源码,用户可本地编译生成适配自身环境的动态库,彻底解决“import linger 找不到库” 的常见报错,提升部署可靠性。
此次升级使 linger 成为更稳定、更快速、更易集成的量化训练入口。开发者现在可在更广泛的硬件环境下,以更低门槛、更快速度完成高精度量化模型训练。
Thinker推理部署
工具更智能,执行更高效
Thinker 是 LNN 的通用推理引擎及配套工具集,负责模型打包、性能仿真、模拟部署与推理执行。
3.0 版本对其进行了系统性重构与功能扩展,涵盖架构重组、工具增强、新组件引入与执行器优化四大维度。
架构重组 | 模块清晰,工程友好
将执行器(runtime)与离线工具包解耦,pip 安装包生成逻辑与执行器编译代码分离,便于独立维护;新增 tools/ 目录,统一归类 tpacker、tprofile、tvalidator 等工具模块;
引入 workspace/ 目录机制,集中管理中间文件,避免项目污染,提升开发整洁度。
tPacker 打包工具增强 | 一键智能,支持调优极简使用体验:用户仅需指定 ONNX 计算图路径,其余流程(图分析、算子拆分、内存分配、平台适配)均由工具自动完成;配置可导出、可复用:支持将默认或自定义参数导出为配置文件,下次可直接加载;
支持命令行、配置文件、默认值三级优先级;内置芯片平台配置信息:根据计算图中平台信息自动加载对应配置,对用户自行设置参数的合理性进行校验;
优化算子拆分逻辑:结合芯片底层计算规则,对卷积与矩阵乘类算子拆分策略进行优化,减少重复低效拆分,大幅缓解原先对模型规模大小的限制;
增加手动调节的支持:新增四个关键阈值参数:卷积拆分阈值、矩阵乘拆分阈值、卷积输出阈值、中间节点存放到share-memory大小阈值,支持用户在复杂模型场景下手动调优以满足落地需求和提升模型效率;
增加目标平台校验:模型资源中嵌入目标芯片平台信息,执行器可据此进行平台校验,防止误部署。
新增 tProfile 性能评估工具
基于 ONNX 计算图结构,自动统计各算子的运行效率,运行热点分析,并可快速出具性能报表。可以在设计前期,帮助开发者快速判断是否满足端侧性能约束,避免“先训后测”的返工成本。
新增 tValidator
结果一致性验证工具
tvalidator可实现训练前向推理和仿真推理计算结果的自动比对:
自动生成统一随机输入数据;训练端通过 onnxrunner 收集量化训练前向推理中间层输出;推理端通过运行thinker仿真器收集对应所有中间结果;
自动比对差异,精准反馈偏差数值并定位位置信息;彻底替代传统“手动打印+肉眼比对”的低效调试方式,大幅提升模型验证效率与准确性。
执行器深度优化
全平台 NPU 算子库迭代升级,运行效率进一步提升,其中Venus 平台平均算子效率提升 10%;新增 VenusA 平台专属 MTQ 执行模式:所有计算任务由 NPU 指令队列独立完成,无需 CPU 参与,显著降低系统负载,提升端侧吞吐能力;
增强辅助校验机制:新增芯片平台信息校验、参数合规性检查、中间结果 CRC 校验等功能,确保仿真与真实芯片运行结果高度一致;通过宏指令控制编译开关,在启用校验功能的同时,确保主体计算路径性能不受影响。