前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作

互联网资讯6个月前发布 tree
59 0 0

今日应用


今日话题


前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
 

重点标签 AI自动化前端工程编程技术进步

文章摘要


摘要:
在最近的央视节目中,百度CEO李彦宏预测未来将不再有“程序员”这一职业,因为编程能力将普及。随着大模型技术的突破,软件开发行业正迅速实现自动化。ChatGPT等工具能够根据自然语言指令生成代码,而多模态技术的进步使得AI甚至能通过截图理解意图并生成设计。斯坦福大学和佐治亚理工学院的研究团队评估了多模态模型在自动化前端工程任务上的表现,提出了Design2Code基准,并开发了相应的评估指标。他们发现,尽管商用模型表现最佳,但开源模型Design2Code-18B在微调后也展现出竞争力。人类评估显示,AI生成的网页在某些情况下甚至优于原始设计。然而,尽管取得了显著进展,实现完全自动化的前端工程仍需时日。

详细摘要:

自动化前端工程的挑战:
前端工程师面临的挑战在于将视觉设计转化为功能性代码,这需要理解设计元素并将其结构化。这一过程不仅复杂,而且通常需要不同技能的专家合作,可能导致设计与实现之间的偏差。

多模态模型的进步:
多模态LLM(如Flamingo、GPT-4V和Gemini)能够处理视觉和文本输入,生成文本输出,为自动化前端工程提供了新的可能性。这些模型能够从用户网站设计的截图中生成完整的代码,实现端到端的网页构建。

Design2Code基准:
斯坦福大学和佐治亚理工学院的研究团队创建了首个真实世界基准,包含484个高质量、高难度和多样化的网页样本。他们开发了评估指标,包括边界框匹配、文本内容、位置和颜色等,以自动比较生成网页的截图与给定输入。

模型评估:
研究团队评估了GPT-4V和Gemini等模型的表现,并发现文本增强式prompt设计能提升性能。他们还贡献了一个开源的18B参数微调模型Design2Code-18B,其表现与商用模型相当。

自动与人类评估:
自动评估显示GPT-4V在多个维度上表现最佳,而人类评估则更关注视觉效果和布局。在直接评估中,人类标注者认为AI生成的网页在49%的案例中可与原始网页互换,且在64%的案例中更喜欢AI生成的设计。

未来展望:
尽管AI在前端工程自动化方面取得了显著进展,但实现完全自动化仍面临挑战。前端工作流程的复杂性意味着这一目标尚需时间实现。研究结果表明,专用型小型开放模型有发展潜力,且模型能从合成数据中学习技能。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...