标签:神经网络

OpenAI开源GPT-4 SAE,提供1600万个解释模式

OpenAI近期在其官网开源了GPT-4的稀疏自动编码器(SAE),这一技术对于开发具有前沿功能的大型语言模型(LLM)至关重要。SAE通过在训练过程中引入稀疏性约束...

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

文章接着提出了一个问题:基于网络文本数据集得到的Scaling law是否具有普适性?为了回答这个问题,AI数据公司Reworkd的研究者Rohan Pandey进行了一项研究。...

ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文

XAI的标准方法包括突出显示导致算法做出决策的图像部分,或构建决策树来近似AI的行为。尽管这些努力取得了一些成功,但XAI仍然是一个正在进行的工作。大型语...

Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴

图灵奖得主Geoffrey Hinton在一次访谈中分享了他对人工智能领域的深刻见解。Hinton认为大型语言模型通过寻找不同领域的共同结构来进行编码,能够压缩信息并形...

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

步骤2:撰写摘要最近,一种名为KAN的新型神经网络模型引起了深度学习领域的关注。KAN,全称为Knowledge Aware Networks,由来自MIT等机构的研究者提出,其在...

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

深度学习技术基于神经网络已在多个领域取得显著成果。神经网络的架构对学习效率有显著影响,好的架构能提高计算效率和稳定性。目前,经典的网络架构设计方法...

炼丹终结者出现 !单卡3.29s可训练精度94%的Backbone

本文介绍了一种新的训练方法,可以在单个NVIDIA A100 GPU上显著提高CIFAR-10数据库上神经网络的训练速度和准确率。该方法通过一系列技术改进,包括水平翻转增...

实践教程 | 浅谈 PyTorch 中的 tensor 及使用

摘要:本文由 PyTorch 张量的操作入手,详细讨论了张量的求导机制、设备转换、权重更新等关键技术点。首先,文章解释了 `requires_grad` 的作用,指出在训练...

芯片战争早已打响!谷歌15个月打造首个TPU,欲和老黄平起平坐

谷歌TPU的起源和发展:谷歌TPU的诞生源于对深度学习的需求,以及对现有硬件(如CPU和GPU)在执行神经网络任务时效率不高的不满。谷歌通过收购和合作,迅速组...

CVPR 2024|字节&南开提出CAMixerSR:2K/8K/轻量级/全景图像超分

摘要:本文介绍了一种名为CAMixer的内容感知混合器,它结合了模型加速和token混合设计策略,以改善图像超分辨率(SR)任务的性能。CAMixer通过根据内容复杂度...
12