nbsp; 韩国的研究型综合大学首尔成均馆大学教授权锡俊称:“TurboQuant有望将LLM的运行成本降低四至八成。乍看之下,这似乎会冲击HBM的需求。”但他补充道:“推理成本大幅下降,会解锁此前因成本过高而无法落地的算力任务”,例如实时编码助手以及多AI Agent并行运行等场景,“最终将推动整体算力需求上升,而非下降”。
当前文章:http://o7uunj.cenluoyu.cn/6oey7cf/cp9xdd.html
发布时间:11:54:18