Workers AI 更新:你好,Mistral 7B!(三)
注意力的类型
注意力的类型
近年来开发的大型语言模型使用三种常见的注意力块排列:多头注意力、分组查询注意力和多查询注意力。它们的不同之处在于相对于查询向量数量的 K 和 V 向量的数量。多头注意力使用与 Q 向量相同数量的 K 和 V 向量,在下表中用“N”表示。多查询注意力仅使用单个 K 和 V 向量。分组查询注意力是 Mistral 7B 模型中使用的类型,它将 Q 向量均匀地分成每个包含“G”向量的组,然后为每个组使用单个 K 和 V 向量,总共 N 个向量,除以 G 组 K 和 V 向量。这里简单总结了这些差异,我们将在下面深入探讨这些差异的含义。(图1 ,点击可跳转图片)
这张图有助于说明三种类型之间的区别:(图2)
● 多查询注意力
2019 年 Google 的论文“Fast Transformer Decoding: One Write-Head is All You Need”(快速 Transformer 解码:一个写头即可满足您的需求)描述了多查询注意力。这个理念是,不像上面的多头注意力那样为注意力机制中的每个 Q 向量创建单独的 K 和 V 条目,而是仅将单个 K 和 V 向量用于整个 Q 向量集。因此,多个查询组合成一个单一的注意力机制。在论文中,这是在翻译任务上进行基准测试的,并且在基准任务上表现出与多头注意力相同的性能。
最初的想法是减少执行模型推理时访问的内存总大小。从那时起,随着广义模型的出现和参数数量的增长,所需的 GPU 内存往往成为多查询注意力的瓶颈,因为它在三种注意力类型中所需的加速器内存最少。然而,随着模型规模和通用性的增长,多查询注意力的性能相对于多头注意力有所下降。
● 分组查询注意力
其中最新的(也是 Mistral 使用的)是分组查询注意力,这在 2023 年 5 月在 arxiv.org 上发布的论文“GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”(GQA:从多头检查点训练通用多查询 Transformer 模型)中进行了介绍。多组查询注意力结合了两者的优点:多头注意力的质量与多查询注意力的速度和低内存使用量。不是使用一组 K 和 V 向量,也不是每个 Q 向量使用一组,而是每个 Q 向量使用 1 组 K 和 V 向量的固定比例,从而减少内存使用量,同时在许多任务上保持高性能。
通常,为生产任务选择模型不仅仅是选择可用的最佳模型,因为我们必须考虑性能、内存使用、批量大小和可用硬件(或云成本)之间的权衡。了解这三种注意力方式可以帮助指导这些决策,并了解我们何时可以根据具体情况选择特定模型。
欢迎即刻试用 Mistral
作为第一个利用分组查询注意力并将其与滑动窗口注意力相结合的大型语言模型,Mistral 似乎已经达到了最佳状态——它具有低延迟、高吞吐量的特点,而且即使与更大的模型 (13B) 相比,它在基准测试中也表现得非常好。所有这一切都表明,它的尺寸与功能都达到了巅峰,我们非常高兴能够通过 Workers AI 将其提供给所有开发人员。
请前往我们的开发人员文档以开始使用。如果您需要帮助、想要提供反馈或想要分享您正在构建的内容,请进入我们的开发人员 Discord!
同时,我们的 Workers AI 团队也在扩大和招聘;如果您对 AI 工程充满热情,并希望帮助我们构建和发展我们的全球无服务器 GPU 驱动的推理平台,请查看我们的职位页面,了解空缺职位。
我们保护整个企业网络,帮助客户高效构建互联网规模应用,加速任何网站或互联网应用,抵御DDoS 攻击,阻止黑客,并为您的 Zero Trust 之旅提供协助。
从任何设备访问 1.1.1.1https://one.one.one.one/,使用我们的免费应用加速和保护您的互联网。
立即联系我们,获取更多相关信息https://t.cn/A6NPhIyW
#AI # #人工智能# #注意力# #分组查询# #Mistral 7B# #加快推理速度#
注意力的类型
注意力的类型
近年来开发的大型语言模型使用三种常见的注意力块排列:多头注意力、分组查询注意力和多查询注意力。它们的不同之处在于相对于查询向量数量的 K 和 V 向量的数量。多头注意力使用与 Q 向量相同数量的 K 和 V 向量,在下表中用“N”表示。多查询注意力仅使用单个 K 和 V 向量。分组查询注意力是 Mistral 7B 模型中使用的类型,它将 Q 向量均匀地分成每个包含“G”向量的组,然后为每个组使用单个 K 和 V 向量,总共 N 个向量,除以 G 组 K 和 V 向量。这里简单总结了这些差异,我们将在下面深入探讨这些差异的含义。(图1 ,点击可跳转图片)
这张图有助于说明三种类型之间的区别:(图2)
● 多查询注意力
2019 年 Google 的论文“Fast Transformer Decoding: One Write-Head is All You Need”(快速 Transformer 解码:一个写头即可满足您的需求)描述了多查询注意力。这个理念是,不像上面的多头注意力那样为注意力机制中的每个 Q 向量创建单独的 K 和 V 条目,而是仅将单个 K 和 V 向量用于整个 Q 向量集。因此,多个查询组合成一个单一的注意力机制。在论文中,这是在翻译任务上进行基准测试的,并且在基准任务上表现出与多头注意力相同的性能。
最初的想法是减少执行模型推理时访问的内存总大小。从那时起,随着广义模型的出现和参数数量的增长,所需的 GPU 内存往往成为多查询注意力的瓶颈,因为它在三种注意力类型中所需的加速器内存最少。然而,随着模型规模和通用性的增长,多查询注意力的性能相对于多头注意力有所下降。
● 分组查询注意力
其中最新的(也是 Mistral 使用的)是分组查询注意力,这在 2023 年 5 月在 arxiv.org 上发布的论文“GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”(GQA:从多头检查点训练通用多查询 Transformer 模型)中进行了介绍。多组查询注意力结合了两者的优点:多头注意力的质量与多查询注意力的速度和低内存使用量。不是使用一组 K 和 V 向量,也不是每个 Q 向量使用一组,而是每个 Q 向量使用 1 组 K 和 V 向量的固定比例,从而减少内存使用量,同时在许多任务上保持高性能。
通常,为生产任务选择模型不仅仅是选择可用的最佳模型,因为我们必须考虑性能、内存使用、批量大小和可用硬件(或云成本)之间的权衡。了解这三种注意力方式可以帮助指导这些决策,并了解我们何时可以根据具体情况选择特定模型。
欢迎即刻试用 Mistral
作为第一个利用分组查询注意力并将其与滑动窗口注意力相结合的大型语言模型,Mistral 似乎已经达到了最佳状态——它具有低延迟、高吞吐量的特点,而且即使与更大的模型 (13B) 相比,它在基准测试中也表现得非常好。所有这一切都表明,它的尺寸与功能都达到了巅峰,我们非常高兴能够通过 Workers AI 将其提供给所有开发人员。
请前往我们的开发人员文档以开始使用。如果您需要帮助、想要提供反馈或想要分享您正在构建的内容,请进入我们的开发人员 Discord!
同时,我们的 Workers AI 团队也在扩大和招聘;如果您对 AI 工程充满热情,并希望帮助我们构建和发展我们的全球无服务器 GPU 驱动的推理平台,请查看我们的职位页面,了解空缺职位。
我们保护整个企业网络,帮助客户高效构建互联网规模应用,加速任何网站或互联网应用,抵御DDoS 攻击,阻止黑客,并为您的 Zero Trust 之旅提供协助。
从任何设备访问 1.1.1.1https://one.one.one.one/,使用我们的免费应用加速和保护您的互联网。
立即联系我们,获取更多相关信息https://t.cn/A6NPhIyW
#AI # #人工智能# #注意力# #分组查询# #Mistral 7B# #加快推理速度#
苹果首部沉浸式体育影片将亮相,为Apple Vision Pro用户带来震撼体验
随着新一季美国职业足球大联盟(MLS)赛季的盛大开幕,科技巨头苹果公司也在积极推广其MLS Season Pass订阅服务。而令广大球迷和科技爱好者更为兴奋的是,苹果公司在今日的官方新闻稿中透露了一项重要消息——史上首部采用Apple Immersive Video技术拍摄的体育影片即将震撼登场。
这部全新的影片将以8K 3D、180度视角和空间音频的极致形式,为观众重现2023年美国职业足球大联盟季后赛的精彩瞬间。这将是苹果首次为Apple Vision Pro发布与体育相关的专属内容,将给观众带来前所未有的沉浸式体验,仿佛置身于激烈的赛场之中。
苹果公司在新闻稿中表示,所有Apple Vision Pro用户都将有机会免费欣赏这部影片,无需额外订阅MLS Season Pass服务。这一举措无疑将吸引更多用户关注并体验Apple Vision Pro的独特魅力。对于热爱体育和追求极致观影体验的观众来说,这无疑是一个令人振奋的消息。
MLS Season Pass订阅服务也可以通过Apple TV应用进行订阅,每月费用为14.99美元,或选择全季订阅仅需99.99美元。这一价格相较于其他体育赛事订阅服务来说具有一定的竞争力,相信将吸引众多球迷和用户的青睐。随着新一季MLS赛季的拉开帷幕,苹果公司也将继续加大在体育领域的投入和布局,为广大用户带来更多精彩的内容和体验。
随着新一季美国职业足球大联盟(MLS)赛季的盛大开幕,科技巨头苹果公司也在积极推广其MLS Season Pass订阅服务。而令广大球迷和科技爱好者更为兴奋的是,苹果公司在今日的官方新闻稿中透露了一项重要消息——史上首部采用Apple Immersive Video技术拍摄的体育影片即将震撼登场。
这部全新的影片将以8K 3D、180度视角和空间音频的极致形式,为观众重现2023年美国职业足球大联盟季后赛的精彩瞬间。这将是苹果首次为Apple Vision Pro发布与体育相关的专属内容,将给观众带来前所未有的沉浸式体验,仿佛置身于激烈的赛场之中。
苹果公司在新闻稿中表示,所有Apple Vision Pro用户都将有机会免费欣赏这部影片,无需额外订阅MLS Season Pass服务。这一举措无疑将吸引更多用户关注并体验Apple Vision Pro的独特魅力。对于热爱体育和追求极致观影体验的观众来说,这无疑是一个令人振奋的消息。
MLS Season Pass订阅服务也可以通过Apple TV应用进行订阅,每月费用为14.99美元,或选择全季订阅仅需99.99美元。这一价格相较于其他体育赛事订阅服务来说具有一定的竞争力,相信将吸引众多球迷和用户的青睐。随着新一季MLS赛季的拉开帷幕,苹果公司也将继续加大在体育领域的投入和布局,为广大用户带来更多精彩的内容和体验。
2024.2.27~29
蓝塞夫三文鱼在“第46届GFE广州国际餐饮展”公开发布合作
就在【B区10.2展馆E129展位】
欢迎您的到来~
我们主打三文鱼,金枪鱼,鳌虾,北极贝等刺身产品,持续专注产地源头供应,覆盖了全国60➕城市,门店突破300➕,凭借着品质新鲜,安全,线上线下相结合等优势,获得了天南地北的“鱼友”的喜爱❤️
展会上,免费领取刺身试吃套餐,欢迎来感受我们的产品品质与服务#广州餐饮加盟展##第46届GFE广州国际餐饮展##加盟展会##餐品加盟##蓝塞夫三文鱼##新鲜货##品牌合作#
蓝塞夫三文鱼在“第46届GFE广州国际餐饮展”公开发布合作
就在【B区10.2展馆E129展位】
欢迎您的到来~
我们主打三文鱼,金枪鱼,鳌虾,北极贝等刺身产品,持续专注产地源头供应,覆盖了全国60➕城市,门店突破300➕,凭借着品质新鲜,安全,线上线下相结合等优势,获得了天南地北的“鱼友”的喜爱❤️
展会上,免费领取刺身试吃套餐,欢迎来感受我们的产品品质与服务#广州餐饮加盟展##第46届GFE广州国际餐饮展##加盟展会##餐品加盟##蓝塞夫三文鱼##新鲜货##品牌合作#
✋热门推荐