不只是.ts后缀：用Python批量处理m3u8下载的‘变种’视频分片（附完整脚本）

张开发

• 2026/4/20 14:31:01 • 15 分钟阅读

分享文章

不只是.ts后缀：用Python批量处理m3u8下载的‘变种’视频分片（附完整脚本）

破解伪装视频分片Python自动化修复与合并实战指南最近在抓取某些视频资源时发现一个有趣的现象——明明应该是标准的TS视频分片却伪装成了PNG图片格式。这种变种分片不仅让常规下载工具束手无策还会导致FFmpeg这样的专业工具误判格式而无法合并。本文将分享一套完整的Python自动化解决方案从识别、修复到最终合并帮你轻松搞定这些狡猾的视频分片。1. 理解非常规m3u8分片的本质当你在Chrome中下载这些分片时浏览器会默认将它们识别为PNG图片。但如果你仔细观察会发现这些图片的大小明显异常——通常远大于普通缩略图。用十六进制编辑器打开后真相大白文件开头确实是PNG的魔数签名89 50 4E 47但后面跟着的却是标准的TS视频内容。为什么会出现这种情况这其实是某些平台为防止自动化抓取而设计的混淆手段。他们知道大多数爬虫会直接过滤非视频后缀的链接于是故意去掉.ts后缀甚至伪装成图片格式。但只要我们理解其本质就能轻松破解文件头欺骗前4个字节被设置为PNG签名真实内容从第5个字节开始是正常的TS视频数据关键特征文件大小通常在几百KB到几MB之间远大于普通PNG注意直接删除PNG文件头会导致文件损坏必须用特定字节填充替换2. 自动化处理流程设计完整的解决方案需要实现以下关键步骤智能下载自动解析m3u8文件并下载所有分片格式检测快速识别被伪装的分片内容修复安全地修复文件头而不损坏视频数据无缝合并使用FFmpeg将修复后的分片合并为完整视频2.1 核心组件与技术选型功能模块技术方案关键工具/库m3u8解析正则表达式Python re模块文件下载异步请求aiohttp格式检测魔数分析文件头读取内容修复二进制操作Python文件IO视频合并子进程调用subprocess FFmpeg3. 实战代码从下载到修复的全流程实现下面是一个完整的Python脚本实现了上述所有功能import os import re import aiohttp import asyncio from pathlib import Path async def download_file(session, url, save_path): async with session.get(url) as response: with open(save_path, wb) as f: while True: chunk await response.content.read(1024) if not chunk: break f.write(chunk) def is_disguised_ts(file_path): 检查文件是否被伪装成PNG的TS分片 with open(file_path, rb) as f: header f.read(4) return header b\x89PNG def repair_ts_file(input_path, output_path): 修复被伪装的TS文件 with open(input_path, rb) as infile, open(output_path, wb) as outfile: # 读取全部内容 data infile.read() # 替换前4个字节为0xFF repaired_data b\xFF\xFF\xFF\xFF data[4:] outfile.write(repaired_data) async def process_m3u8(m3u8_url, output_dir): 处理整个m3u8流程 os.makedirs(output_dir, exist_okTrue) raw_dir os.path.join(output_dir, raw) repaired_dir os.path.join(output_dir, repaired) os.makedirs(raw_dir, exist_okTrue) os.makedirs(repaired_dir, exist_okTrue) async with aiohttp.ClientSession() as session: # 下载m3u8文件 m3u8_content await (await session.get(m3u8_url)).text() # 提取所有分片URL ts_urls re.findall(r^[^#].*\.(?:ts|m4s|vtt)?$, m3u8_content, re.MULTILINE) # 下载所有分片 download_tasks [] for i, ts_url in enumerate(ts_urls): save_path os.path.join(raw_dir, f{i:04d}.ts) download_tasks.append(download_file(session, ts_url, save_path)) await asyncio.gather(*download_tasks) # 修复所有分片 for i in range(len(ts_urls)): input_path os.path.join(raw_dir, f{i:04d}.ts) output_path os.path.join(repaired_dir, f{i:04d}.ts) if is_disguised_ts(input_path): repair_ts_file(input_path, output_path) else: # 如果不是伪装文件直接复制 with open(input_path, rb) as infile, open(output_path, wb) as outfile: outfile.write(infile.read()) # 生成文件列表供FFmpeg合并 with open(os.path.join(output_dir, filelist.txt), w) as f: for i in range(len(ts_urls)): f.write(ffile {os.path.join(repaired_dir, f{i:04d}.ts)}\n) # 使用FFmpeg合并 cmd [ ffmpeg, -f, concat, -safe, 0, -i, os.path.join(output_dir, filelist.txt), -c, copy, os.path.join(output_dir, output.mp4) ] subprocess.run(cmd, checkTrue) if __name__ __main__: import sys m3u8_url sys.argv[1] if len(sys.argv) 1 else input(请输入m3u8 URL: ) output_dir sys.argv[2] if len(sys.argv) 2 else output asyncio.run(process_m3u8(m3u8_url, output_dir))4. 高级技巧与性能优化4.1 并行下载加速上述代码已经使用了异步IO来加速下载但对于大量分片我们还可以进一步优化# 在process_m3u8函数中添加semaphore控制并发数 semaphore asyncio.Semaphore(16) # 限制并发数为16 async def limited_download(session, url, save_path): async with semaphore: await download_file(session, url, save_path) # 然后替换原来的download_tasks创建方式 download_tasks [limited_download(session, ts_url, os.path.join(raw_dir, f{i:04d}.ts)) for i, ts_url in enumerate(ts_urls)]4.2 智能格式检测增强除了PNG伪装我们还可能遇到其他类型的混淆。增强的检测函数可以识别更多变种def is_disguised_ts(file_path): 增强版格式检测 with open(file_path, rb) as f: header f.read(8) # 检测常见图片格式 image_headers { b\x89PNG: PNG, b\xFF\xD8\xFF: JPEG, bGIF87a: GIF, bGIF89a: GIF, bBM: BMP } for sig, fmt in image_headers.items(): if header.startswith(sig): return True return False4.3 内存高效处理大文件对于特别大的分片文件我们可以采用流式处理来减少内存占用def repair_large_ts(input_path, output_path, chunk_size1024*1024): 流式修复大文件 with open(input_path, rb) as infile, open(output_path, wb) as outfile: # 处理前4个字节 outfile.write(b\xFF\xFF\xFF\xFF) infile.seek(4) # 流式复制剩余内容 while True: chunk infile.read(chunk_size) if not chunk: break outfile.write(chunk)5. 常见问题与解决方案在实际使用中你可能会遇到以下问题FFmpeg合并失败确保所有分片都已正确修复尝试使用-fflags genpts参数重建时间戳检查分片顺序是否正确下载速度慢调整并发数不要过高以免被封禁考虑使用代理轮换检查网络连接是否稳定部分分片无法修复检查这些分片是否使用了不同的混淆方式尝试手动分析文件结构考虑是否为加密分片需要额外解密步骤输出视频音画不同步确保m3u8中的EXTINF时长准确尝试使用-avoid_negative_ts make_zero参数检查原始分片的帧率和时间基这套解决方案已经在多个实际项目中验证有效能够处理绝大多数变种分片。根据我的经验最关键的是准确识别伪装模式并采用正确的修复方法——简单的删除会导致文件损坏而精确的填充则能完美保留视频内容。

更多文章

前端开发 2026/4/20 14:31:01

Markdown图片排版救星：一个CSS代码片段搞定GitHub README、博客和文档的图片居中对齐与响应式缩放

Markdown图片排版救星：一个CSS代码片段搞定GitHub README、博客和文档的图片居中对齐与响应式缩放每次在GitHub README、静态博客和在线文档之间切换，最让人头疼的就是图片排版问题。明明在本地预览时完美居中的图片，上传到GitHub就变成了左…

深度解析AMD Ryzen系统调试工具：底层硬件性能调优技术指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https:…

张开发

前端开发 2026/4/20 14:26:54

如何快速掌握Salt Player歌词系统：终极配置指南

如何快速掌握Salt Player歌词系统：终极配置指南【免费下载链接】SaltPlayerSource Salt Player (A local music player trusted and chosen by hundreds of thousands of users) for Android Release, Feedback. 项目地址: https://gitcode.com/GitHub_Trending/…

张开发

不只是.ts后缀：用Python批量处理m3u8下载的‘变种’视频分片（附完整脚本）

最新文章

Playwright Python iframe 完整深度指南（工程级详细版）

别再只会用--headless了！Selenium ChromeOptions 这10个参数才是爬虫效率翻倍的关键

BilibiliDown：一站式B站视频下载解决方案，轻松保存你喜欢的每一个视频

保姆级教程：在Ubuntu 20.04上从源码编译运行ORB_SLAM2（附TUM数据集测试）

告别臃肿安卓模拟器：3分钟掌握Windows原生APK安装神器

从Spring Boot到微服务：一文读懂架构演进的“双刃剑”

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

Markdown图片排版救星：一个CSS代码片段搞定GitHub README、博客和文档的图片居中对齐与响应式缩放

Win10更新后Keil编译报错？手把手教你升级ARMCC工具链到V6.10

从Verilog到SystemVerilog：用SV的队列和约束，5分钟重构一个更优雅的Round Robin仲裁器

用STM32的SPI接口驱动M62429电子音量芯片，告别模拟电位器（附完整代码）

微博超话自动签到终极指南：3分钟掌握全自动管理技巧

FanControl终极指南：如何解决Windows风扇控制软件的传感器检测问题

Cats Blender插件：5分钟完成VRChat模型优化的终极指南

如何快速搭建个人数字图书馆：Talebook私有书库完整指南

ZED 2相机在Ubuntu/Docker里一键安装SDK的保姆级教程（附避坑指南）

C++ 互斥量详解

深度解析AMD Ryzen系统调试工具：底层硬件性能调优技术指南

如何快速掌握Salt Player歌词系统：终极配置指南