Please enable Javascript to view the contents

硬字幕提取神器:Video Subtitle Extractor

 ·  ☕ 3 分钟

硬字幕、软字幕、外挂字幕

视频与字幕的结合一般有三种方式:硬字幕和软字幕、外挂字幕。

  1. 硬字幕:又叫内嵌字幕。字幕被直接嵌入到视频文件中,无法更改或删除。
  2. 软字幕:又叫内挂字幕、封装字幕、内封字幕。加字幕的过程叫做封装。视频一般为mkv格式。
  3. 外挂字幕:字幕文件与视频文件分开存储,播放时需要用户手动加载字幕文件(如字幕文件与视频文件相同命名,播放器会自动加载)。字幕一般为srt、ass、ssa等格式。

各种字幕的优缺点

特性 外挂字幕 硬字幕 软字幕
优点 易于替换或删除
不影响视频文件本身
可以灵活选择语言
兼容性好,无需额外文件
适合在不支持软字幕的设备上播放
保持视频文件的完整性
可以包含多种语言的字幕
允许用户选择是否显示字幕
缺点 需要额外的字幕文件
有时可能会遗漏或不匹配
不可更改或删除
可能会影响视频内容的观看
- 播放时需要额外处理
- 可能不支持所有播放器
- 字幕编辑和更换较为复杂
兼容性 需要支持字幕功能的播放器,已普及
能不适用于所有播放设备
与大多数播放器和设备兼容
无需额外组件
需要支持内封字幕的播放器,已普及
通常与MKV等容器格式一起使用
控制性 用户可以完全控制字幕的显示
可以轻松更改字幕样式和内容
一旦嵌入,用户无法更改
无法适应不同的语言需求
用户可以控制字幕的显示和隐藏
可以更换或删除字幕文件
应用场景 适合需要频繁更换字幕或多语言版本的视频
适合字幕编辑和翻译工作
适合商业发行或DVD制作
适合不需要字幕切换的视频
适合高清视频和多语言版本的需求
适合需要用户自定义字幕显示的环境

硬字幕提取神器:Video Subtitle Extractor

硬字幕本质上是字幕是视频画面的一部分,提取硬字幕的过程就是提取视频画面中的字幕部分。其本质上是一个OCR(Optical Character Recognition)问题,即光学字符识别。OCR技术是一种将图像中的文字转换为可编辑、可搜索的文本的技术。OCR技术比较成熟,有很多开源的OCR引擎,如Tesseract。

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

今天要介绍的Video Subtitle Extractor就是一个基于OCR技术的硬字幕提取工具。它是一个基于深度学习的视频字幕提取框架,包含字幕区域检测、字幕内容提取。它可以提取视频中的硬字幕,并生成srt文件。无需申请第三方API,本地实现文本识别。

https://github.com/YaoFANGUK/video-subtitle-extractor

Video Subtitle Extractor

这个工具是一个GUI工具,使用起来非常简单。只需要打开视频文件,选择字幕区域,然后点击提取按钮,就可以提取硬字幕了。提取的字幕会保存为srt文件,可以用于其他视频播放器。

视频演示

硬字幕提取神器:Video Subtitle Extractor 哔哩哔哩 bilibili

参考资料

分享

码中人
作者
码中人
Web Developer