标签：神经网络

OpenAI开源GPT-4 SAE，提供1600万个解释模式

OpenAI近期在其官网开源了GPT-4的稀疏自动编码器（SAE），这一技术对于开发具有前沿功能的大型语言模型（LLM）至关重要。SAE通过在训练过程中引入稀疏性约束...

3个月前

文章接着提出了一个问题：基于网络文本数据集得到的Scaling law是否具有普适性？为了回答这个问题，AI数据公司Reworkd的研究者Rohan Pandey进行了一项研究。...

3个月前

XAI的标准方法包括突出显示导致算法做出决策的图像部分，或构建决策树来近似AI的行为。尽管这些努力取得了一些成功，但XAI仍然是一个正在进行的工作。大型语...

3个月前

图灵奖得主Geoffrey Hinton在一次访谈中分享了他对人工智能领域的深刻见解。Hinton认为大型语言模型通过寻找不同领域的共同结构来进行编码，能够压缩信息并形...

4个月前

步骤2：撰写摘要最近，一种名为KAN的新型神经网络模型引起了深度学习领域的关注。KAN，全称为Knowledge Aware Networks，由来自MIT等机构的研究者提出，其在...

4个月前

深度学习技术基于神经网络已在多个领域取得显著成果。神经网络的架构对学习效率有显著影响，好的架构能提高计算效率和稳定性。目前，经典的网络架构设计方法...

5个月前

本文介绍了一种新的训练方法，可以在单个NVIDIA A100 GPU上显著提高CIFAR-10数据库上神经网络的训练速度和准确率。该方法通过一系列技术改进，包括水平翻转增...

5个月前

摘要：本文由 PyTorch 张量的操作入手，详细讨论了张量的求导机制、设备转换、权重更新等关键技术点。首先，文章解释了 `requires_grad` 的作用，指出在训练...

5个月前

谷歌TPU的起源和发展：谷歌TPU的诞生源于对深度学习的需求，以及对现有硬件（如CPU和GPU）在执行神经网络任务时效率不高的不满。谷歌通过收购和合作，迅速组...

5个月前

摘要：本文介绍了一种名为CAMixer的内容感知混合器，它结合了模型加速和token混合设计策略，以改善图像超分辨率（SR）任务的性能。CAMixer通过根据内容复杂度...

6个月前