CUDA Tile和cuTile Python打通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。 [1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware ...
经过近20年的发展,英伟达已经在全球拥有500多万的CUDA生态开发者,该公司创始人兼CEO 黄仁勋 多次强调CUDA开发者是英伟达最重要的资产和竞争优势。“护城河不是芯片,是数百万开发者写下的代码惯性。”黄仁勋在2025年GTC大会演讲中提到。