大模型等AI技术最近几年持续地进化和迭代,模型的能力已经越来越强,关于模型上下文长度的研究和探索也层出不穷,有些模型上下文长度可达上百万tokens,但在实际应用中依然成为制约其向更深层次智能发展的瓶颈。其中的关键问题在于AI看似记住一些事情,但又没 ...
这个研究中心叫 Mind Lab,是 Macaron AI 背后的实验室。1 月 1 日,他们发布了亮相以来的第一款产品——Mind Lab Toolkit(MinT)。这是一个用 CPU 的机器就能高效训练万亿参数模型的后训练平台,且成本优化了十倍,一天即可轻松完成一轮训练。此外,它比 Thinking Machines 更早实现了 1T ...
腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 ...
大家好,我是已经摆烂了好几天的冷逸。今天上号了,给大家带来一篇 AI手机 的部署教程,手把手教学,教不会退网。最近我开始琢磨 ROI 的事情,不知道是在哪个地方看到了这样一句话:提高自己高 ROI 的付出,减少自己低 ROI 的内耗。ROI ...
在 OpenAI 经历了 Sam Altman 被解雇又回归的内部动荡后,Mira 选择离开,并迅速组建了一支 “梦之队”—— 核心成员包括 OpenAI 前研究副总裁 John Schulman、Lilian Weng ...