深挖 ASIC 芯片设计成本,我们问了 ProgPow 核心开发团队九个问题
对于那些更熟悉代码、却不太了解扇出(fan-out)和上升时间(rise-times)的读者来说,本文可能会对他们深入了解 ProgPow 算法有所帮助。
另一方面,加密货币生态系统里其实并没有太多文章介绍硬件知识。当然,加密货币本身就是一个以软件为主导的行业,而且绝大多数硬件工程都是在一些私人公司内部“闭门”研究的。
解析 ASIC 芯片设计成本
问题一:不管挖矿算法是 ProgPow,还是 ETHash,哈希值都是由外部动态随机存取存储器(DRAM)的存储带宽决定的,是这样吗?
事实并非如此。ProgPow 的哈希值是由两个因素决定的: 这就是为什么 Ethash 和 ProgPow 之间存在差异,如下图 1 和图 2所示: 事实上,ProgPow 和 ETHash 之间唯一的相似之处就是在全局内存(global memory)中使用了无环图(DAG)。从计算的角度来看,ETHash 只需要一个固定的“keccak_f1600”内核和一个模数函数(modulo function)。另一方面,ProgPow 需要的则是能够执行 16 通道宽的随机数学序列,同时还要能够访问高带宽一级缓存(L1 cache)。设计一个能够执行 ProgPow 数学序列的计算内核,比设计一个能够实现类似“keccak”这样的固定函数哈希要难得多。 另外需要注意的是,ETHash 的哈希值只取决于内存带宽,而 ProgPow 算法则同时取决于内存带宽和随机数学序列的核心计算——理解这一点非常重要。 ProgPoW 希望能够捕获全部硬件成本(尽可能地做到),由于该算法更新的部分能够捕获运行不同计算场景的计算硬件——直到架构褶皱(architectural wrinkles)——因此对于 ASIC 芯片设计来说,可能需要耗费不止 3-4 个月的时间。 如果有多个非数字数值(NaN)输入,其有效负载结果应该来自其中一个非数字数值输入,但标准却没有具体说明。 接下来,哈希率(Hashrate)和“hash-per-watt”又是什么呢? 首先,拥有两倍的带宽优势就需要两倍的计算,这其实是一种线性扩容(linear scaling),并不能看做是一种优势。 RTX2080 不是讨论这个问题的好参照物,由于一些新功能,英伟达(Nvidia)的 RTX 系列芯片中有些模块占据了大部分芯片模片区面积,比如光线追踪核心等。ProgPow 设计则是与英伟达和 AMD 生态系统中的存量芯片产品搭配使用的,因此无法使用英伟达和 AMD 新款芯片产品中的新功能。 怎么说好呢,这听上去像是在普及芯片制造知识,或许我们需要写一篇《芯片制造 101》的培训文档。此外,对于收益计算公式可以参考一篇 2006 年发表的文章《Compare Logic-Array To ASIC-Chip Cost per Good Die》,其中你会发现,早在 13 年之前芯片收益和流程控制就已经有很大创新了。 如果你看看 AMD 的 Polaris 20 系列产品和英伟达的 GP 104 产品,会在模拟镜头下发现这些 GPU 中部署了大量微小的“可拆卸”子模块组成。 当芯片仅由计算构成,那么低电压设计才能奏效,比如一个专门针对 SHA256d 挖矿算法计算的 ASIC 矿机。集成其他原件——比如 SRAM,这也是 ProgPow 数据缓存所必需的——的难度极大,也不可能在低电压下工作。 不能仅考虑能耗问题,LPDDR4x 的带宽比 GDDR6 低很多,前者每个引脚带宽是 4.2Gb / s,后者则是 16Gb / s。LPDDR4x 计算芯片上需要四倍的内存芯片和四倍的内存接口才能达到 GDDR6 相同的性能,这样一算,其成本其实是显著增加的。 在此要说的是,规模经济是一个重要因素。GPU 行业也是在全球各种销售渠道中摊销,目前总市场规模大约为 4200 亿美元,其中 AMD 市值约为 116 亿美元,英伟达约为 1545 亿美元,最大的英特尔约为 2548 亿美元。仅就内存市场而言,还需要在这个总规模达到 5000 亿美元的行业里分摊物理端口(PHY)和晶片的成本,其中拥有 320,671 名员工的三星电子市值约为 3259 亿美元,他们也是在美国最活跃的专利申请者;第二名是拥有 34,100 名员工的Micron Technology,其市值约为 601 亿美元,但是第一个开发出 20Gbps 高速 GDDR6 内存的芯片制造商;海力士拥有 187,903 名员工,市值约为 568 亿美元,他们开发了全球首款1Ynm 16Gb DDR5 DRAM。相比之下,用于加密货币挖矿的 ASIC 芯片行业总市值不过 1460 亿美元,其中 730 亿属于比特币。问题二:由于 ProgPow 现有架构和算法与 ETHash 存在相似之处,Innosilicon 的下一款 ASIC 芯片将会为 ProgPow 量身定制吗?
问题三:由于 GPU 是通用加速芯片,因此设计、制造和测试 GPU 的周期通常需要大约十二个月,而且还需要进行大量硬件模拟和软件开发工作,使其能够覆盖不同的计算方案和场景。
问题四:相比于 GPU,ASIC 芯片生产商可以使用较小的 GDDR6 内存来获得成本优势。在保持内存成本水平的同时,16 个 GDDR6 4GB 的内存条能够实现两倍的带宽优势,是这样吗?
问题五:RTX2090 芯片中有许多模块占用了大量芯片模片区面积,而且对 ProgPow 毫无用处,包括 PCIE、NVLINK、L2Cache、3072 分片单元、64 个 ROP、192 个时间测量单元(TMU)等,如何看待这个问题?
问题六:与大芯片相比,小芯片的收益会更高吗?
问题七:ASIC 矿机电压可以很轻松地降低到 0.4V,只有 GPU 的二分之一……这样低电压的 ASIC 设计已经被比特币挖矿设备 ASIC 矿机制造商所采用,所以现在我们没有理由不相信他们不会把这种策略应用在 ProgPow ASIC 矿机上,能谈谈这个问题吗?
问题八:同样的节能效果也能在 LPDDR4x DRAM 上实现,其功耗比 GDDR6 还低,谈谈这个问题吧。
问题九:像英伟达这样的 GPU 生产商雇佣了大约 8000 人来开发 GPU,这些 GPU 也非常复杂;而像 LinZhi 这样的 ASIC 生产商只雇佣了十几个人,而且只开发用于 ETHash 挖矿算法的 ASIC 矿机。这些公司的劳动力成本相差 100 被,因此可不可以说 ASIC 芯片在成本和上市时间方面比 GPU 芯片更具优势。
ProgPow 核心开发团队 IfDefElse 的最后一点想法