Hello 大家好,今天继续为大家带来eIQ Time Series Studio系列讲解,上期咱们讲到“Utilities”模块中的“Data Labeling”数据标签工具。数据标签工具使用户能够通过可视化界面将相应的数据标签(如电弧或无电弧)应用于当前数据图形的不同部分,从而对导入的原始数据进行分类。然后,该工具根据标签对原始数据进行细分,并创建用于训练机器学习模型的优化数据集。本节会继续介绍“Utilities”模块中的“Data Intelligence”数据智能工具。
“Data Intelligence”
数据智能为用户提供了一种非常有价值的工具,它能够自动并智能地分析数据集,以完成分类和异常检测任务。本节介绍数据集分析的过程,并列出了优化和重新收集数据的步骤,以提高性能并从分析结果中获取更多数据信息。
数据智能的重要性
用户通常根据自身经验和对数据的了解导入时间序列数据集。然而,由于经验和时间等限制,对数据的分析不够全面无法得出令人满意的结果。例如,采样频率可能高于相应的应用需求。或者,对于分类任务,每个类别的训练数据量可能不均衡。为了应对这些挑战,数据智能工具可以帮助用户评估数据集的平衡性,并确定各个数据通道/轴的重要性。该工具不仅标记不平衡的数据集,还会建议忽略冗余通道。此外,该工具还可以帮助确定最佳采样频率和窗口大小,从而优化数据集,提高质量和分析结果。
数据集配置
第一步是配置导入数据的必需参数(以分类示例中风扇状态检测为例)。
输入以下信息:
数据集类型:“Segmented Data”分段数据或“Continuous Data”连续数据。
通道数:每个数据点由有多少个通道组成。
类别数:用户数据需要分析的类别数。
使用的采样频率:用户原始数据的采样频率。
最小频率:可设置的最低分频系数。
设置完成后,点击“Confirm”按钮,若有设置错误,可点击“Reset”并重新配置。
设置通道数后,用户可以为每个通道分配单独的别名,有助于区分各个通道并便于用户理解分析报告。
数据集导入
数据集配置后,导入用户数据:
点击每个类别旁边的“+”按钮弹出文件选择窗口并加载文件。文件中的分隔符、行数和列数都会被自动识别。
请确保每个文件符合指定的设置:当数据分段时,列数必须等于窗口大小乘以通道数。当数据连续时,列数必须等于通道数。同时还可以修改每个类别的别名,以便于标注各类别的表现。
完成这些步骤后,点击“START DATA ANALYSIS”按钮,继续进行数据分析并生成报告。
数据分析报告
点击“START DATA ANALYSIS”按钮后,启动分析,系统会自动处理数据,然后显示分析结果。
Segmented Data数据分析报告
Segmented Data数据分析报告主要包括:数据平衡,通道相关性,通道重要性和最佳采样参数分析。
Data Balance-数据平衡
用五星对数据量的平衡进行评价,点亮的星数越多,表明各分类的数据集量越平衡。
Channel Correlation-通道相关性
仅适用于通道数 >= 2 的情况。
显示混淆矩阵表,说明不同通道之间的相关值。
绝对值越高,通道之间的相关性越高。值越接近于零,表示通道彼此独立。该信息可用于识别并可能删除冗余通道。删除冗余通道有助于优化数据集以用于训练步骤。
Channel Importance-通道重要性
仅适用于分段数据集。
仅适用于通道数 >= 2 的情况。
在排名栏中显示每个通道的重要性得分,分数越高说明该通道越重要。
Best Sampling Params-最佳采样参数
采样频率:输出原始采样频率的推荐分频。此建议旨在帮助消除数据中潜在的高频噪声成分。通过这种方式降低频率,用户可以节省资源和功耗,同时保留基本信息。
窗口大小:输出推荐的窗口大小。对于分段数据,此大小保持不变,仅适用于连续数据。
采样时长:单个样本数据的采样时间。
Continuous Data数据分析报告
前面主要介绍导入“Segmented”数据后的数据分析报告,而导入“Continuous”的数据分析报告略有不同,如“Best Sampling Params”功能描述
在窗口大小和采样频率矩阵中,最推荐使用采样频率fs/1和窗口大小64的组合。
区分度:仅适用于连续数据。输出在最佳分段窗口大小和采样频率下连续数据的数据区分度。
用户可以将连续数据导入到“ Data Operation”中。使用生成数据样本并尝试推荐的采样参数,生成用于机器学习的样本数据集。如果推荐的采样频率不是fs/1,则数据会根据分频和推荐的窗口大小进行降采样。例如,如果智能分析后得到的分频为fs/2,则数据集将按如下方式进行降采样并保存。
最后,用户可以选择“quality”并点击 “Save PDF”按钮将分析报告保存在本地PC中。
结论
该数据智能工具可自动生成数据集质量报告,并向用户提供反馈,无需恩智浦的直接工程支持。分析的功能包括数据平衡、通道相关性、通道重要性、最佳采样参数和窗长。这些功能使用户能够就数据重新收集或重新格式化做出明智的决策,确保其数据集处于最佳状态以供后续处理。
-
恩智浦
+关注
关注
14文章
5991浏览量
118445 -
Studio
+关注
关注
2文章
210浏览量
29859 -
机器学习
+关注
关注
66文章
8510浏览量
134850 -
数据集
+关注
关注
4文章
1224浏览量
25539
原文标题:eIQ Time Series Studio 工具使用攻略(十)-数据智能
文章出处:【微信号:NXP_SMART_HARDWARE,微信公众号:恩智浦MCU加油站】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
恩智浦eIQ Time Series Studio 工具使用攻略(四)-数据导入

恩智浦eIQ Time Series Studio工具使用教程之数据记录

恩智浦车规级深度学习工具包使新一代汽车应用性能提高30倍
NXP eIQ Time Series Studio 工具使用攻略(九)-数据标签

恩智浦eIQ Time Series Studio工具使用教程之数据操作

恩智浦eIQ? Neutron神经处理单元
NVIDIA TAO工具套件功能与恩智浦eIQ机器学习开发环境的集成
恩智浦eIQ AI和机器学习开发软件增加两款新工具
恩智浦eIQ Time Series Studio的工作流程

恩智浦eIQ Time Series Studio工具使用教程之仿真

评论