从NASA DataPort到PyTorch：USGS光谱库.V7数据读取与预处理实战

张开发

• 2026/4/21 14:57:41 • 15 分钟阅读

分享文章

从NASA DataPort到PyTorch：USGS光谱库.V7数据读取与预处理实战

1. USGS光谱库V7数据初探第一次接触USGS光谱库V7版本时我被它庞大的数据量震撼到了。这个由美国地质调查局维护的数据库就像是一个光谱数据的百科全书包含了从地面矿物到人造物体的各种光谱特征。特别是其中的AVIRIS传感器数据对做高光谱图像分析的研究者来说简直是宝藏。但很快我就发现这些数据并不像常见的图片数据集那样拿来就能用。每个文件都带着一堆扩展名奇怪的附属文件.img、.hdr、.spc、.geo等等。刚开始我完全摸不着头脑直到花了两周时间研究文档和源码才搞明白它们各自的作用。比如那个不起眼的.spc文件其实存储着至关重要的光谱校准参数直接影响到后续分析的准确性。2. 从NASA DataPort获取数据2.1 数据下载实战在NASA DataPort找数据就像在图书馆查资料得知道怎么用它的检索系统。我通常先进入Data Table页面用AVIRIS作为关键词筛选。找到感兴趣的数据集后重点看两个信息一是采集日期不同时期的数据质量可能有差异二是link_ftp字段提供的下载链接。这里有个小技巧下载前一定要检查文件大小。AVIRIS的原始数据动辄几个GB我曾经不小心下了一套80GB的数据集结果发现根本用不上。建议新手先从Kennedy Space Center这类经典小数据集入手练手。2.2 文件结构解析解压后的文件包就像一套完整的产品说明书组合.img文件是二进制格式的原始数据.hdr头文件记录着行列数、数据类型等元信息.spc文件保存波长、带宽等光谱参数.geo文件包含空间分辨率信息我刚开始总忽略这些附属文件直到有次分析结果出现系统性偏差才发现是没考虑.spc文件中的波长校准参数。现在我的原则是所有文件都要保留一个都不能少。3. 数据预处理全流程3.1 MATLAB初步处理虽然最终要用PyTorch但我建议先用MATLAB做初步检查。因为它内置的multibandread函数能直接读取.img文件配合.hdr文件可以快速验证数据完整性。这是我常用的检查脚本info envihdrread(scene.hdr); data multibandread(scene.img, [info.lines, info.samples, info.bands],... uint16, 0, bsq, ieee-le); imshow(data(:,:,50), []);这个步骤能帮你确认数据是否损坏以及基本的显示效果。我曾经遇到过下载的.img文件前512字节损坏的情况幸亏用MATLAB提前发现了。3.2 Python转换方案转到Python环境后我推荐使用rasterio库进行初步读取import rasterio with rasterio.open(scene.img) as src: data src.read() profile src.profile但要注意这样读取的数据可能需要进行维度调整HSI数据通常是bands last格式。我习惯用numpy的transpose处理data np.transpose(data, (1, 2, 0)) # 转为(height, width, bands)4. PyTorch数据集构建4.1 自定义Dataset类在PyTorch中处理HSI数据最关键的是实现高效的__getitem__方法。这是我的一个基础实现from torch.utils.data import Dataset import torch class HSIDataset(Dataset): def __init__(self, data, labelsNone, transformNone): self.data torch.from_numpy(data).float() self.labels torch.from_numpy(labels) if labels is not None else None self.transform transform def __len__(self): return len(self.data) def __getitem__(self, idx): sample self.data[idx] if self.transform: sample self.transform(sample) return (sample, self.labels[idx]) if self.labels is not None else sample4.2 内存优化技巧高光谱数据很容易撑爆内存我总结了几个实用技巧使用内存映射文件np.memmap可以避免一次性加载全部数据分块处理将大图像切割成小patch再输入网络波段选择根据.spc文件筛选关键波段减少数据量5. 实战中的常见问题5.1 波段对齐问题不同传感器的波段设置不同直接混合使用会导致问题。我的解决方案是提取.spc文件中的中心波长信息使用线性插值将数据重采样到统一波长范围特别注意水吸收波段104-108, 150-163等的处理5.2 辐射定标处理原始数据通常是DN值Digital Number需要转换为辐射亮度。这时.gain文件就派上用场了with open(scene.gain) as f: gains np.array([float(line) for line in f]) radiance data / gains[None, None, :] # 逐波段校正6. 完整代码示例下面是我在一个真实项目中的预处理流程import numpy as np import rasterio from torch.utils.data import DataLoader def load_aviris_data(img_path, hdr_path): # 读取头文件信息 with open(hdr_path) as f: lines [line.strip() for line in f.readlines()] # 解析关键参数 info {line.split()[0].strip(): line.split()[1].strip() for line in lines if in line} # 加载图像数据 with rasterio.open(img_path) as src: data src.read() # 转换为(height, width, bands)并归一化 data np.transpose(data, (1, 2, 0)) data data / np.iinfo(data.dtype).max return data # 使用示例 data load_aviris_data(scene.img, scene.hdr) dataset HSIDataset(data) dataloader DataLoader(dataset, batch_size32, shuffleTrue)这个流程我在Indian Pines和Salinas数据集上都测试过能够稳定运行。关键是要处理好数据类型的转换和归一化否则可能会遇到数值溢出问题。

从NASA DataPort到PyTorch：USGS光谱库.V7数据读取与预处理实战

最新文章

基于深度徐恶习的YOLOv8和YOLOv11的汽车Logo识别汽车品牌视频实时检测项目

中兴光猫管理神器zteOnu：一键开启工厂模式与永久Telnet

p90RSK重组兔单抗能否解析激酶信号的多维调控？

p90RSK兔多克隆抗体能否覆盖激酶信号的全谱检测？

[工业互联-16] 从通用到确定：实时Linux内核补丁PREEMPT-RT的演进与工业实践

从零手搓一个DES-CBC加密库：用C语言一步步还原经典算法（附完整源码）

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

3步破解媒体碎片化：m4s-converter如何重塑你的离线视频体验？

跨越版本鸿沟：使用Oracle 19c OCI为DM8搭建连接Oracle 11G的DBLINK实战

从裁判打分到AI评分：我们如何用‘增量标签训练’让LSTM学会像专家一样‘边看边打分’？

H.264编码器内存访问与功耗优化关键技术解析

别再只盯着SE模块了！手把手教你用PyTorch实现CBAM注意力机制（附完整代码）

如何在Windows上直接安装Android应用：告别模拟器的5个创新方案

Linux开机卡住1分多钟？别慌，手把手教你排查并修复systemd的Timed out waiting for device错误

高通Camera Tuning面试复盘：从AE算法流程到LTM/Gamma调试顺序，我这样回答拿了Offer

文脉定序一文详解：BGE-Reranker-v2-m3在低资源语言上的迁移泛化能力

ssh总断 (by quqi99)

3分钟搞定：WarcraftHelper让魔兽争霸3在现代Windows系统焕发新生

Eclipse里Gradle项目导入总报错？手把手教你排查‘Initialize project test failed’等常见坑

从NASA DataPort到PyTorch：USGS光谱库.V7数据读取与预处理实战

最新文章

基于深度徐恶习的YOLOv8和YOLOv11的汽车Logo识别 汽车品牌视频实时检测项目

中兴光猫管理神器zteOnu：一键开启工厂模式与永久Telnet

p90RSK重组兔单抗能否解析激酶信号的多维调控？

p90RSK兔多克隆抗体能否覆盖激酶信号的全谱检测？

[工业互联-16] 从通用到确定：实时Linux内核补丁PREEMPT-RT的演进与工业实践

从零手搓一个DES-CBC加密库：用C语言一步步还原经典算法（附完整源码）

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

基于深度徐恶习的YOLOv8和YOLOv11的汽车Logo识别汽车品牌视频实时检测项目