工程
-
小模型性能饱和、表现不佳,根源是因为Softmax?
小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象),那么这个现象的原因是什么?是否可以克服并利用它去提升小语言模型的性能?
语言建模领域的最新进展在于在极大规模的网络文 -
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazho
-
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
AIxiv专栏是本站发布学术、技术内容的栏目。 过去几年,本站AIxiv专栏接收报道道约2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道邮箱。投稿邮箱:liy
-
CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazho
-
CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou
-
CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazho
-
蚂蚁集团、浙江大学联合发布开源大模型知识抽取框架OneKE
最近,由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架 oneke 宣布开源,并且捐赠给 openkg 开放知识图谱社区。
知识图谱是实现大模型可信可控的关键技术之一,知识抽取可助力构建领域知识图谱。OneKE致力于帮助研究人员和开发者更好 -
CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
我们网站的AIxiv专栏是关于学术和技术内容的栏目。过去几年来,我们网站的AIxiv专栏已经收到超过2000篇内容,覆盖全球各大高校与企业的顶级实验室,有助于推进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或联系报道。投稿邮箱为
-
Meta无限长文本大模型来了:参数仅7B,已开源
谷歌之后,Meta 也来卷无限长上下文。
transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力力和状态空间模型等次二次解决方案,但从以往经验来看,它们在预训练效率和下游任务准确性方面表现不佳。
近 -
无向图最小割问题取得新突破,谷歌研究获SODA 2024最佳论文奖
谷歌博客放出新研究,求解无向图的最小割问题。
1996 年, 美国计算机科学家 David R Karger 连同其他研究者在论文《 A new approach to the minimum cut problem》中提出了一个令人惊讶的