标签:LLM

英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码

英伟达在其技术博客中详细介绍了如何利用Llama 3.1模型生成合成数据,以支持领域模型或RAG系统的微调。合成数据在AI领域已有十多年的应用历史,但其重要性随...

一文弄懂 LLM 结构化数据生成原理

详细摘要:大型语言模型(LLM)在文本补全和内容创作方面展现出了强大的生成能力,但生成符合JSON格式的结构化数据仍然是一个挑战。本文通过`lm-format-enfor...

微软开源的GraphRAG爆火,Github Star量破万,生成式AI进入知识图谱时代?

摘要:微软发布了一款名为GraphRAG的开源方案,该方案通过结合知识图谱与检索增强式生成(RAG)技术,显著提升了大型语言模型(LLM)的生成质量和结果的有用...

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

在探讨大型语言模型(LLM)的数学推理能力时,菲尔兹奖得主Timothy Gowers对GPT-4o进行了一项测试,以解决经典的“狼-山羊-卷心菜”过河问题。结果显示,即使是...

Is Scaling All You Need? LLM收益递减,AI小厂难活命

近日,马库斯的一句「Is scaling all you need?」引发了正反两方的论战。自GPT-4发布以来,尽管有约500亿美元投资在芯片上,但至今仍无模型能超越GPT-4,引发...

Meta等最新研究:多token预测,提升大模型推理效率

多token预测是一种新型的预训练方法,旨在提高大语言模型(LLM)的推理效率。这种方法要求模型在每个位置上同时预测接下来的n个Token,而不是像传统的下一个T...

任意模态输入输出?语音/文本/图像/音乐都拿下! 复旦提出AnyGPT:序列建模的统一多模态 LLM

本文介绍了AnyGPT,一种新型的any-to-any多模态大型语言模型(LLM),由复旦大学和上海AI Lab共同开发。AnyGPT能够统一处理包括语音、文本、图像和音乐在内的...

仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

步骤2:撰写摘要Snowflake公司发布了一款名为Arctic的顶级大型语言模型(LLM),专注于企业级应用。Arctic模型具备两个主要优势:高效智能和开源开放。在企业...

OpenAI在亚洲开设第一个办事处,GPT-4速度快3倍

OpenAI在亚洲设立首个办事处,并针对日语优化GPT-4模型,推理速度提升3倍,提高日文理解与文本生成精准度。日本办事处由长崎忠雄负责,旨在加速全球化市场布...

OpenAI在API新增”项目“功能,可精细化管理模型

OpenAI在其API仪表盘中新增了“项目”管理功能,旨在帮助企业和个人开发者更精细化地管理和跟踪模型。这项功能对于需要精细管理模型使用的大型企业和复杂部门的...
12