(原标题:一颗“神奇”的芯片)
如若您但愿不错常常碰头,接待标星储藏哦~
来源:内容编译自chipsandcheese,谢谢。
最近,以色列芯片独角兽 NextSilicon 推出了一款新式超等揣度机芯片 Maverick-2,定位为 Nvidia 同类居品的径直竞争敌手。咫尺,只须少数几家公司涉足该鸿沟,而 NextSilicon 是其中的一家起首初创公司。据 Calcalist 了解,该公司的新芯片已取得数千万好意思元的订单。
据 NextSilicon 先容,Maverick-2 既不是 FPGA,也不是 GPU,而是不同的东西,是一款智能揣度加快器 (ICA),引入了智能软件界说的硬件加快,可提供及时顺应性。该时间旨在为 HPC、AI 和矢量数据库应用提供超卓的性能和服从。
据报说念,Maverick-2 重新界说了加快器架构,突破了基于 80 年前的冯·诺依曼架构的传统固定 GPU 遐想的收尾。它使用先进的遥测时间和 NextSilicon 的专利算法,把柄应用才能的专有需务及时动态调遣加快。这种顺应性可使组织已矣比传统 GPU 性能卓越 4 倍以上的每瓦性能和比高端 CPU 性能卓越 20 倍以上的每瓦性能,同期将运营本钱质问一半以上。
Maverick-2 ICA 旨在专注于 HPC 和 AI 环境中大部分时刻运行的关节代码和责任经过。其自优化架构可已矣即时、可彭胀的性能校正。这是通过创建针对每个应用才能的性能需求量身定制的软件界说处理器中枢来已矣的,然后在加快器硬件上实施。在应用才能运行时,遥测数据会被输入到 NextSilicon 的智能算法中,以及时阻抑自我优化性能、功耗和诓骗率。收尾是,对于条件最苛刻的 HPC 应用才能,其性能在限制上是高效的,同期功耗比传统 GPU 低 50-80%。
Intersect360 Research 高档分析师 Steve Conway 暗意:“传统的 CPU 和 GPU 架构频繁受到高蔓延管说念和有限的可彭胀性的收尾。昭彰,咱们需要减少 HPC 和 AI 基础设施中的动力销耗和无用要的揣度。NextSilicon 通过 Maverick-2 科罚了这些迫切问题,这是一种专为得志 HPC 和 AI 的专有需求而构建的新式架构。Maverick-2 旨在冲突接纳和从传统架构迁徙的遮拦。”
多年来,替代加快器一直试图挑战传统 GPU 和 CPU 的主导地位,但它们时时难以克服应用才能移植的复杂性和供应商特定框架,从而变成锁定。NextSilicon 的 Maverick-2 ICA 是第一个通过功能坚强、用户友好的软件套件突破这些遮拦的居品。它原生解救 C/C++、FORTRAN、OpenMP 和 Kokkos 等流行谈话,允许许多应用才能无需修改即可在 Maverick-2 上运行。这种软件兼容性和易用性检朴了数月的开发责任量,从而质问了科学和瞻念察的时刻。NextSilicon 致力于为客户应用才能提供全面解救,并策画行将集成 CUDA、HIP/ROCm 和起首的 AI 框架。
Maverick-2 不仅科罚了现在 HPC 交易和磋商揣度挑战,还融入了 NextSilicon 专有的常识产权,以搪塞阻抑发展和明天的责任负载。其智能天真是架构旨在卤莽顺应交融 HPC-AI 责任负载、矢量数据库应用、AI 模子的突破以及新兴的代理和生成 AI 应用的新用例。
Penguin Solutions 首席时间官 Phil Pokorny 暗意:“咱们很欣喜解救 Maverick-2 智能揣度加快器的推出,甚而极股东 HPC 市集性能和服从达到新水平的后劲。”“在 Penguin,咱们擅长将前沿理念滚动为后果——速率更快,限制更大,使咱们的客户不详搪塞最苛刻的责任负载。Maverick-2 的智能软件界说按次补充了咱们提供的平常时间,为组织提供了优化其基础设施并在 HPC 和 AI 方面取得突破性后果的坚强遴选。跟着应用才能复杂性的增多,像 Maverick-2 这么的更动为咱们的客户开辟了新的可能性,以加快科学和交易跳动。”
NextSilicon 创始东说念主兼首席实施官 Elad Raz 暗意:“我很欣喜告示推出 Maverick-2 智能揣度加快器,这是揣度鸿沟的一项突破性更动。Maverick-2 代表了首创的科罚决策,它无缝策动了先进的软件和硬件,以优化谢宇宙上最大的高性能揣度系统上运行的最复杂的科学代码。跟着咱们对更快、更高效的应用才能的需求阻抑增长,Maverick-2 开启了昔日被以为不可能已矣的可能性。我要向咱们的客户和职工暗意最深远的感谢,感谢他们坚持不懈的解救和快活。咱们对明天令东说念主难以置信的跳动感到欢乐。”
Maverick-2 ICA 咫尺正在向数十家客户发货,并将于 2025 年头开动批量发货,以得志多半积压订单。NextSilicon 解救多样组织,从好意思国动力部到起首的学术磋商机构,以及金融办事、动力、制造业和生命科学垂直鸿沟的交易客户。现在不错通过合营伙伴 Penguin Solutions 和 Dell Technologies 为新客户提供早期接纳者策画。
最近,chipsandcheese采访了这家厂商,让咱们看一下,一窥背后的精巧。
George Cozma:请谈谈 NextSilicon,以及为什么您遴选 HPC,因为 AI 如今风靡一时。
Elad Raz:是以咱们是下一代揣度,从加快揣度部分开动。咱们领有专有的架构,不错运行任何大限制并行揣度。咱们决定对准超等揣度行业,因为这是一个浩大的市集,亦然一个办事不及的市集。超等揣度是一个 500 亿好意思元的市集,其中包括存储、互连和总共基础设施。如若你只揣度销售的揣度芯片、CPU、GPU 和其他加快器的数目,每年就有 200 亿好意思元。是以这是一个浩大的市集,你不错列出数百个 AI 专用的加快器和 GPU,是以我以为看成一个需要筹集数亿好意思元的东说念主,最佳先展示收入,我以为 HPC 是一个很大的市集。是以咱们决定从 HPC 行业开动。
George Cozma:太棒了。说到你们的新芯片 Maverick 2,它有两个 100 千兆以太网端口。咱们看到许多对于 400 千兆和行将推出的 800 千兆的新闻头条;100 千兆似乎未几。为什么呢?
Elad Raz:是以你需要了解超等揣度的责任道理,与机器学习硬件芯片无关。因为在 AI 芯片中,HBM 中的快速内存数目有限,它们位于芯片的角落。而且 HBM 的容量有限。你不错在一个芯片上摈弃 2 TB 的超高速内存。现在 Maverick 2 有 192 GB。有些芯片不错达到 288 GB,这个容量很大。但对于 3500 亿个参数,举例,假定 FP16,你需要 700 GB。是以你不错把总共这个词分量放在一个芯片上。你需要几个。然后它们需要在缩减过程中相互通讯。是以互连速率格外快。
我之前的公司被 Mellanox 收购了。是以我一世中的大部分时刻齐在作念互连。超等揣度、Infiniband、以太网、Infiniband 上的 RDMA、RoCE、交融以太网上的 RDMA。这格外难。是以你需要商量居品的花式不是,嘿,你有一个芯片和一个互连科罚决策。每个东说念主齐会使用你的基于以太网的互连,并开动在其上作念 RDMA。这不会发生。但它将办事于金融行业。是以在金融鸿沟,你有高频交易、风险管理,优化点是蔓延而不是蒙胧量。咱们不需要 800 千兆。咱们需要的是让数据包格外快地插足处理器中枢并将其发送出去。是以到咫尺为止,我所说的一切齐是何如迟缓确立一家公司。去 HPC 公司,创造收入,然后转向其他垂直行业。这亦然咱们对互连的看法。
George Cozma:那么说到芯片的互连供电,我向你保证,我会诓骗这个时间取得一些说明,你以为这个芯片的 PCIe 总线带宽是几许?
Elad Raz:是的。PCIe 是有限的。PCIe Gen 5 有 16 个通说念,速率为每秒 64 GB。这远远不及以输入和输出数据。PCIe Gen 6 的速率将是它的两倍。而且有 112 Gbps 通说念,速率不是每秒千兆位。是的,你不错达到每秒 256 GB,但需要一些支拨。再说一次,你的 Apple M1 有 500 GB。M1 有 400 GB。现在有了 M4,它高潮到每秒 500 多 GB。每秒 550 GB。是以你的札记本电脑比 PCIe 领有更多的内存带宽。因此,加快揣度的指标是划单干作负载,一些揣度将在主机上进行,腹地化在主机内存中,而大多数时刻你想留在拓荒上,炒股平台在芯片上。好的。是以很昭彰,你想把最新和最佳的假定从 CPU 端解救,CXL,PCIe。但咱们的架构不受 PCE 的经管,因为咱们有这种智能算法,不错找出什么是迫切的,并将其放在芯片上。现在,一朝它在芯片上定位,你就会留在芯片上。
George Cozma:说到芯片,从 HBM 到芯片的带宽高达每秒 6.4 TB。您究竟何如使用总共这些带宽?那么这些带宽究竟能已矣什么呢?
Elad Raz:固然。也曾有过在 CPU 上添加 HBM(而不是 DDR)的现实。用户很快坚硬到他们无法使 HBM 带宽饱和,因为如若你仔细想想,假定 CPU 不错每个时钟周期向内存发出加载或复原高歌,况且你依然对总共内容进行了矢量化,况且取得了 512 位,那么也许你不错使 HBM 饱和,对吧?频繁,CPU 正在进行揣度,你会丢失未射中数据。因此,这就像 64、96 个内核在 HBM 上并行责任,每个 1 到 16 个时钟周期齐如斯。你无法为它们提供最新的 HBM,对吧?咱们有不同的架构。它不是处理器内核。它是硬件加快器,不错发出这些宽内存块并向 HBM 提供数据。
George Cozma:那么说到您的架构,从内存系统来看,这是一个详情或狡赖的问题,您的 SRAM 是否散布在总共不同的中枢之间?
Elad Raz:是的。
George Cozma:因为它看起来即是这个面目 指着墙上的一张die像片。
Elad Raz:是的,那些是 SRAM。
George Cozma:是以如若你有这个 SRAM,况且它正在移动总共这些数据,因为它是一个空间架构,那么 NOC 是什么,片上收集是什么,它需要几许带宽来移动总共这些数据,比如说如若这个中枢 指向芯片左上象限的处理器单位 需要走访该内存通说念 指向芯片右下角的 HBM PHY?
Elad Raz:是以咱们称之为——请宽恕我使用像垃圾身分这么的谈话,因为你不但愿中枢的一侧与另一侧通讯。你想让一切齐保捏腹地化。如若你看到这里,那些 NOC 障蔽,它们骨子上是两者之间的障蔽。你会受到刑事包袱,导致这些瓷砖相互往还。好的。是以有一个刑事包袱。
而亏损是以蔓延而不是蒙胧量来揣度的。咱们遐想了一个 NOC,您不错取得竣工的蒙胧量。但即便如斯,您也不想四处走动。是的,我固然会已矣。现在大多数专科架构齐运行鸿沟特定谈话,对吧?举例,您需要为 AMD 编写 ROCm 或为 Nvidia 编写 CUDA。而 AI 初创公司,每个齐有我方的谈话,这很好。您不错在这些加快器中看到的事情之一即是内存的责任花式。您不可使用 C++ 或全时架构的原因是它不是缓存一致的。好吗?因此,在谈话里面,有一个分享内存的见解,这是 CUDA 中的称号。在 LLVM 中,它是地址空间,地址空间 3,也即是说,这是一个腹地化内存。处理器代码,与之对话。如若您想走访另一个,您需要实施 DMA 并移动数据。昭彰咱们有这个功能,因为咱们不错运行 CUDA、ROCm 和其他。然而如若你运行 C++ 代码会发生什么?
智能揣度机架构的终末少量是,你不错在运行时优化这些功能并腹地化数据,这么这些数据流图中的每一个齐不错相互通讯,况且数据将保捏腹地化。是的,如若你偶尔有一个地址高歌发送到另一个芯片,那么你就会有蔓延亏损。但总的来说这并不迫切。
George Cozma:现在,正如您所策动的才能和数据,它们是一种具有空间架构的已知量,仅仅试图将才能装入芯片,从历史上看,这格外贵重,因为您长久莫得鼓胀的 SRAM 来容纳总共这个词才能。您何如尝试科罚无法容纳总共这个词才能的问题——因为才能是数据,您无法容纳总共才能,而您要处理数据,您何如科罚这个问题?
Elad Raz:是的。是以咱们有了可能流和不可能流的见解。可能流是大多数时候发生的揣度内核。那些是轮回。轮回不存储在内存中。它们不存储在 SRAM 或 HBM 中。它们不是处理器代码。我这里莫得教唆、索求用法和复杂的分支瞻望。它们就像根底莫得分支瞻望器相通。有一个数据流。而且我有收尾——咱们不想插足架构里面。是以现在,咱们仅仅保捏它——我的道理是,设想一个 FPGA,但就像用于软件的 FPGA,近似的东西。它的责任花式是——重新确立正在转变每个揣度图傍边的不同 ALU。然后你像函数图相通在芯片里面蚀刻。然后你在数据处理时索求数据。每个时钟,齐有新数据输入,新数据输出。是以在编译器代码中有一个见解,合并个才能,多个数据(SPMD)。
举例,您照实有一些函数,莫得分享矢量化教唆的见解。莫得格外长的教唆景况,因为数据流上不错有许多类型。我的道理是,它仅仅不同云尔。这就像一个念念维零乱,因为您需要以不同的花式念念考它。它正在旋转揣度架构,并说这是实施大限制并行应用才能的正确按次。咱们不详破解它。
George Cozma:太棒了。那么咱们的终末一个问题,或者说我的终末一个问题是,您最可爱哪种奶酪?
Elad Raz:好吧,我先说说我最敌视的奶酪,那即是意大利乳清干酪。我老婆很可爱。有一次她径直把它塞进我嘴里,我不可爱。但我最可爱滋味很臭的奶酪,蓝奶酪。举例,丹麦蓝奶酪即是我最可爱的。
https://chipsandcheese.com/p/nextsilicon-putting-hpc-first
半导体杰作公众号推选
专注半导体鸿沟更多原创内容
存眷大众半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或解救,如若有任何异议,接待关系半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3961期内容,接待存眷。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”分享给小伙伴哦