标签:tag3

自回归预训练 + Vision Transformer!大视觉模型 AIM:70亿参数量是我的底气

本文提出了一种名为Autoregressive Image Models (AIM)的大视觉模型,该模型受到大语言模型(LLM)的启发,采用自回归训练策略进行训练。AIM模型展示了与LLM...

不是Nvidia买不起,只是国产更有性价比!使用全国产CPU和GPU项目开发记录-训练篇—部署篇

摘要:本文详细介绍了如何将真实的客流统计算法从Nvidia环境迁移到国产海光CPU+DCU的部署过程。项目背景是在当前AI技术迅猛发展的背景下,国产AI软硬件也在不...

​NUS团队提出X-Ray:一种看透物体的3D表示和生成模型!

摘要:NUS研究团队胡涛博士等人近期发布了一种全新的3D表示技术——X-Ray,它能够序列化地表示从相机摄像角度看过去的物体的逐层次的物体表面形状和纹理,同时...

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

摘要:近日,Enkrypt AI的研究人员发现,对大型语言模型(LLM)进行微调和量化可能会影响其安全性,即使这些模型本身没有恶意。这一发现表明,经过量化或微调...

CVPR24|指定参考图像的风格迁移!DEADiff:解耦图像风格和语义表示进行成对训练

摘要:本文介绍了一种名为DEADiff的新型文本到图像模型,该模型通过双解耦表示提取机制和非重构学习方法,有效解决了文本和参考图像之间的语义冲突问题,实现...

一文搞懂车道线检测任务的前世今生

摘要:本文全面总结了车道线检测技术的发展和现状,从传统检测方法到基于深度学习的多种技术,再到BEV(鸟瞰图)视角下的检测方法,最后探讨了大一统的检测方...

颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑

摘要:颜水成教授团队联合新加坡国立、南洋理工大学共同开源了Vitron模型,这是一个通用视觉多模态大语言模型,支持从视觉理解到视觉生成、从低层次到高层次...

万字长文带你梳理Llama开源家族:从Llama-1到Llama-3

摘要:本文详细介绍了Meta公司发布的Llama系列模型的演进历程、模型架构、训练数据、训练方法、效果对比、社区影响以及总结。Llama模型的发布对全球AI领域产...

苹果OpenAI合作,力争今年生成式AI登陆iPhone

苹果公司正在积极寻求合作伙伴,以将其AI技术应用于即将发布的iOS 18操作系统。在中国市场,苹果已与中国AI公司百度达成战略合作,百度将为苹果提供语音智能...

54位大咖演讲精华!中国生成式AI大会圆满收官,TOP50企业榜单揭晓

2024中国生成式AI大会在京圆满收官,54位产学研投嘉宾代表共探生成式AI全产业链的发展现状与未来趋势。会上揭晓了「AI生产力创新先锋(AiiP)-中国生成式AI企...
123