Nsight Compute Profilier 分析

profiler报告包含每次内核启动分析期间收集的所有信息。在用户界面中,它包含一个包含常规信息的标题,以及用于在报告页面或单个收集的启动之间切换的控件。默认情况下,报告以选定的详细信息页面开始。             

页眉             

页面下拉列表可用于在可用报告页面之间切换,下一节将对此进行详细说明。             

探查器报告标头             

Launch下拉列表可用于在所有收集的内核启动之间切换。每个页面中显示的信息通常表示选定的启动实例。在某些页面(例如Raw),显示所有启动的信息,并突出显示所选实例。您可以输入这个下拉列表来快速过滤并找到一个内核启动。             

应用过滤器按钮打开过滤器对话框。可以使用多个筛选器缩小结果范围。在“过滤器”对话框中,输入过滤器参数并按“确定”按钮。将相应地过滤“启动”下拉列表。选择箭头下拉菜单以访问“清除过滤器”按钮,该按钮将删除所有过滤器。 

    

过滤器对话框             

“添加基线”按钮可将焦点中的当前结果提升为此报告中所有其他结果的基线,以及在同一个NVIDIA Nsight Compute实例中打开的任何其他报告的基线。选择箭头下拉列表以访问“清除基线”按钮,该按钮将删除所有当前活动的基线。

          

“应用规则”按钮应用此报表的所有可用规则。如果以前应用过规则,这些结果将被替换。默认情况下,一旦分析了内核启动过程,就会立即应用规则。这可以在“工具”>“选项”>“配置文件”>“报表UI”>“自动应用适用规则”下的选项中进行更改。             

右侧的按钮提供了可以在页面上执行的多个操作。可用操作包括:             

复制为图像-将页面内容作为图像复制到剪贴板。             

另存为图像-将页面内容作为图像保存到文件中。             

另存为PDF-将页面内容以PDF格式保存到文件中。             

导出到CSV-将页面内容导出为CSV格式。             

重置为默认值-通过删除任何保留的设置将页面重置为默认状态。             

请注意,并非所有的功能都在所有页面上可用。             

关于所选内核的信息显示为当前的。[+]和[-]按钮可用于显示或隐藏节正文内容。信息切换按钮i改变了章节描述的可见性。             

报告页数             

使用页眉中的Page下拉菜单在报表页之间切换。              

会话页面             

此会话页包含有关报告和计算机的基本信息,以及为其分析启动的所有设备的设备属性。在启动实例之间切换时,将突出显示相应的设备属性。             

摘要页             

摘要页面显示此报告中收集的所有结果的列表,以及选定的重要摘要度量。它为您提供了一个快速的比较概述,涵盖了所有已分析的内核启动。您可以使用“转置”按钮来转置内核和度量表。             

详细信息页 

          

Details页面是内核启动期间收集的所有度量数据的主页面。页面被分成单独的部分。每个部分由一个标题表和一个可选的可扩展正文组成。这些部分完全是用户定义的,可以通过更新它们各自的文件轻松地进行更改。有关自定义节的详细信息,请参见《自定义手册》。有关NVIDIA Nsight Compute附带的部分列表,请参阅《内核评测指南》。             

默认情况下,收集到新的概要文件结果后,将应用所有适用的规则。任何规则结果都将在此页面上显示为建议。大多数规则结果都是纯信息性的,或者有一个警告图标来指示某些性能问题。带有错误图标的结果通常表示应用规则时出错。             

规则结果通常指出性能问题并指导整个分析过程。

 

如果启用,SOL Rooflines部分包含一个Roofline图表,它对于直观地显示内核性能特别有用。(要在报告中启用roofline图表,请确保在分析时选择了GPU Speed of Light roofline Chart部分。)有关如何使用和读取此图表的更多信息,请参阅Kernel profiling Guide。             

屋顶线图样本。

可以使用下表中的控件缩放和平移屋顶线图表,以便进行更有效的数据分析。             

表1屋顶线图表缩放和平移控件

 

如果启用,内存工作负载分析部分将包含一个内存图表,用于可视化数据传输、缓存命中率、指令和内存请求。关于如何使用和阅读这个图表的更多信息可以在内核评测指南中找到。             

源计数器等部分可以包含源热点表。这些表显示了内核源代码中一个或多个度量的N个最高或最低值。选择位置链接以在源页面中直接导航到此位置。将鼠标悬停在某个值上,以查看哪些度量对该值起作用。             

热点表指出源代码中的性能问题。

 

人工智能芯片与自动驾驶
原文地址:https://www.cnblogs.com/wujianming-110117/p/13945121.html