“偏好数据”的搜索结果 - 晒应用导航

“偏好数据”的搜索结果

人人都能看懂的DPO数学原理

人人都能看懂的DPO数学原理

摘要总结本文深入探讨了DPO（...

关于post-training和一些思考

关于post-training和一些思考

摘要：本文深入分析了大模型...

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

对齐大型语言模型（LLM）的价...

谷歌开源Gemma-2：参数小，同类性能最佳之一

谷歌开源Gemma-2：参数小，同类性能最佳之一

谷歌在官网宣布开源其最新的...

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

Nemotron-4 340B模型由基础模...

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

SimPO的核心在于将奖励函数与...

英伟达开源大模型对齐框架—NeMo-Aligner

英伟达开源大模型对齐框架—NeMo-Aligner

随着大语言模型（LLM）如Chat...

Zephyr 141B-A35B开源大模型发布，基于ORPO新技术

Zephyr 141B-A35B开源大模型发布，基于ORPO新技术

近日，Zephyr 141B-A35B大模...

8.3K Stars!《多模态大语言模型综述》重大升级

8.3K Stars!《多模态大语言模型综述》重大升级

本篇文章是对多模态大语言模...

晒应用是一个专注于软件和资源网站分享的导航类网站。我们致力于为用户提供最新、最热门的应用推荐和AI资源，涵盖各种AI绘画、AI制图、AI工具、AI剪辑、AI文本、AI创作、实用工具、免费软件、在线服务和在线影视导航。无论您是寻找最佳的数字工具还是想要了解最新的黑科技应用，晒应用都能满足您的需求。

免责声明免费收录关于我们站点地图

Copyright © 2024 晒应用导航陕ICP备2023005068号-2 由 OneNav 强力驱动