杀疯了!Meta开源SAM-2:可商用,随意分割视频、图像

AI最新资讯2个月前发布 tree
28 0 0

今日应用


今日话题


杀疯了!Meta开源SAM-2:可商用,随意分割视频、图像
杀疯了!Meta开源SAM-2:可商用,随意分割视频、图像
 

重点标签 SAM-2开源视觉分割模型AIGC技术大语言模型Meta技术更新

文章摘要


Meta公司在AIGC领域取得了显著进展,特别是在视觉分割技术方面。2023年4月5日,Meta首次开源了SAM(Segment Anything Model),一个能够根据交互和自动化方式切割视频中所有元素的模型,被誉为计算机视觉界的“ChatGPT时刻”。SAM在GitHub上获得了超过45000颗星的认可。

最近,Meta在SAM的基础上进行了大量架构、功能和准确率的更新,发布了SAM-2,并支持Apache 2.0规则的商业化使用。SAM-2的开源地址为:https://github.com/facebookresearch/segment-anything-2,同时提供了在线demo:https://sam2.metademolab.com/ 和数据集地址:https://ai.meta.com/datasets/segment-anything-video/。

SAM-2架构特点
基础架构:基于transformer模型,引入流式记忆机制。
图像编码器:采用流式处理方法,使用预训练的Hiera模型,提供多尺度特征表示。
记忆编码器和记忆注意力模块:创新之一,将先前预测和用户交互编码为记忆,影响后续帧的分割结果。
提示编码器:接受点击、框选或遮罩等提示,定义对象范围。
掩模解码器:遵循第一代SAM架构,使用双向transformer块更新提示和帧嵌入。

SA-V训练数据集
特点:包含51,000个真实世界视频和超过600,000个时空遮罩,比其他同类数据集大50倍。
开发阶段:分为三个阶段,逐步提高标注效率,最终每帧标注时间从37.8秒下降到4.5秒,提升了约8.4倍。

SAM-2和SA-V数据集的开发,不仅提升了视频分割的效率和准确性,也为AIGC领域的开发者提供了强大的工具和资源,进一步推动了该技术的发展和应用落地。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...