文章资讯

CoT提出者Jason Wei:大模型评估基准的「七宗罪」

首先,Jason Wei列举了几种成功的评估基准,如GLUE/SuperGLUE、MMLU、GSM8K、MATH和HumanEval,并指出成功的评估基准通常与突破性论文相关联,并在社区中获得...

大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布

随着OpenAI发布ChatGPT,大模型和AIGC在技术社区中受到越来越多的关注。为了帮助CV领域从业者快速了解AI的最新科研成果和发展趋势,机器之心计划于2024年6月1...

全球首台生物计算机开放服务:16个人脑类器官,能耗节省百万倍

瑞士初创公司FinalSpark发布了全球首款生物处理器,由人脑类器官的生物神经元驱动,功耗低,可远程访问。其Neuroplatform平台提供体外生物神经元访问,可学习...

换了30多种方言,我们竟然没能考倒中国电信的语音大模型

TeleAI通过多年积累,构建了超过30种、30万小时的高质量方言数据库,为模型提供了丰富的训练材料。团队还自主研发了“蒸馏+膨胀”联合训练算法,实现了单一模型...

2024北京智源大会开启注册!

北京智源大会是一年一度的人工智能领域盛会,自2019年首次举办以来,已成功举办五届。大会以全球技术视野为特色,邀请了众多海内外顶尖专家进行深入交流和探...

马斯克烧几十亿美元造最大超算中心,10万块H100训练Grok追赶GPT-4o

马斯克旗下的人工智能初创公司xAI计划建造一个超算中心,预计2025年秋季建成,规模将是当前最大GPU集群的四倍。这个「超级计算工厂」旨在保证Grok 2及之后版...

Meta等最新研究:多token预测,提升大模型推理效率

多token预测是一种新型的预训练方法,旨在提高大语言模型(LLM)的推理效率。这种方法要求模型在每个位置上同时预测接下来的n个Token,而不是像传统的下一个T...

德勤:中国、印度等对ChatGPT等生成式AI应用,处领先地位

德勤发布的《Generative AI in Asia Pacific: Young employees lead as employers play catch-up》深度调查报告揭示了亚太地区对生成式AI(AIGC)的应用情况...

ICLR2024|姿势引导 | 一致性 | PCDMs:多阶段的高保真高质量人像生成

本文介绍了一种名为渐进式条件扩散模型(PCDM)的新技术,旨在解决人体图像合成中源图像与目标图像位姿不一致的问题。PCDM通过三个阶段逐步缩小目标姿态和源...

Attention优化|2w字原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3

文章首先从Online-Softmax的角度切入,逐步深入讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理。接着,详细讲解了FlashA...
16061626364119