模型
-
AI大厂硬刚价格战:中小模型夹缝求生存
从去年3月文心一言发布至今,百模大战这一年诞生了不少明星玩家,却仍走不出一个实打实的超头部模型。 据AI产品榜数据,5月份国内AI产品中,百度文库以6536万的访问量跃居首位,其次是4月份刚刚发布的360AI搜索,Kimi、文心一言紧随其后。 从访问量来看,目前基于新鲜感的体验似乎仍是用户选择某一大模型的主要原因。360AI搜索自发布以来增速不断加快,5月份…
-
首次证实白盒Transformer可扩展性!马毅教授CRATE
在过去的几年里,Transformer架构在自然语言处理(NLP)、图像处理和视觉计算领域的深度表征学习中取得了显著进展。这些成果使得AI领域的主导技术成为了深度表征学习。
然而,虽然Transformer架构及其众多变体在实践中取得了巨大 -
把整个地球装进神经网络,北航团队推出全球遥感图像生成模型
北航的研究团队,用扩散模型“复刻”了一个地球?
在全球的任意位置,模型都能生成多种分辨率的遥感图像,创造出丰富多样的“平行场景”。
而且地形、气候、植被等复杂的地理特征,也全都考虑到了。受Google Earth启发,北航的研究团队从俯拍视 -
套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型
斯坦福团队抄袭清华系大模型事件后续来了——
Llama3-V团队承认抄袭,其中两位来自斯坦福的本科生还跟另一位作者切割了。
最新致歉推文,由Siddharth Sharma(悉达多)和Aksh Garg(阿克什)发出。
不在其中、来自南加利 -
AI预测极端天气提速5000倍!微软发布Aurora,借AI之眼预测全球风暴
个人类有历史以来,就一直执着于预测天气,以各种方式破解“天空之语”,我们慢慢发现,草木、云层似乎与天气有关,这不仅仅是因为人类从事生产的需要,也是人类想要对着大风歌唱、在月光下吟诗的需要。
《冰与火之歌》中的风雨歌师,就是通过歌声和吟唱来预 -
快速学会一个算法,xLSTM
今天给大家分享一个超强的算法模型,xlstm。
xLSTM(Extended Long Short-Term Memory)是对传统 LSTM(Long Short-Term Memory)模型的扩展和改进,旨在提升其在处理时间序列数据和序 -
英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
无情戳穿“长上下文”大模型的虚标现象——
英伟达新研究发现,包括GPT-4在内的10个大模型,生成达到128k甚至1M上下文长度的都有。
但一番考验下来,在新指标“有效上下文”上缩水严重,能达到32K的都不多。
新基准名为RULER,包含检 -
不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它
一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡这两项因素。增加模型参数量的好处是可以提高模型的复杂度和表达能力,从而更好地拟合训练
-
超越Devin!姚班带队,他们创大模型编程新世界纪录
超越devin!swebench排行榜上迎来了新玩家——
StarShip CodeGen Agent,姚班带队初创公司OpenCSG出品,以23.67%的成绩获得全球第二名的成绩。
同时创造了非GPT-4o基模的最高纪录(SOTA)。我们 -
速度秒掉GPT
对标 OpenAI 的法国 AI 独角兽 Mistral AI 有了新动作:首个代码大模型 Codestral 诞生了。作为一个专为代码生成任务设计的开放式生成 AI 模型,Codestral 通过共享指令和补全 API 端点帮助开发人员编