Please enable Javascript to view the contents

DVD 字幕提取方案:Subtitle Edit + Tesseract

 ·  ☕ 2 分钟

字幕文件格式全面概述之 SRT – 码中人的博客

我们看视频时,除了面画和声音,字幕也是一个重要的元素,可以大大提高视频内容的可访问性。字幕主要有两种格式:

基于文本的格式:这些格式(如 SRT 或 SSA)将字幕存储为纯文本,您可以使用常规文本编辑器轻松阅读甚至编辑。

二进制格式:二进制格式,例如 IDX/SUB 和 STL,我们可能会在 DVD 和蓝光光盘中找到这些内容。

而我写的字幕工具箱 - 免费的在线字幕工具集合,全是基于文本字幕的。

今天,给大家介绍一个二进制字幕提取方法,可以从 DVD 和蓝光光盘中提取字幕文件。

DVD 字幕

DVD视频中的字幕,是一种图形字幕,文件存储的是图片信息,如IDX/SUB、PGS,在播放器中字幕作为位图渲染。字幕文件的格式有很多种,其中最常见的是IDX/SUB格式。

IDX/SUB字幕,用两个文件存储字幕信息,后缀分别为.idx与.sub,idx存储属性信息,可用记事本打开包括字幕缩放、延时等,与ASS的功能栏大同小异;sub存储字幕的图片信息。

Subtitle Edit + Tesseract

既然是图片,那本质上是一个OCR(Optical Character Recognition)问题,即光学字符识别。OCR技术是一种将图像中的文字转换为可编辑、可搜索的文本的技术。OCR技术比较成熟,有很多开源的OCR引擎,如Tesseract。

Tesseract 是一个开源的OCR引擎,由 Google 开发,支持多种语言,包括中文。Tesseract 4.0 之后,支持 LSTM 神经网络,识别效果更好。

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Subtitle Edit 是一个开源的字幕编辑器,支持多种字幕格式,包括IDX/SUB。Subtitle Edit 也支持OCR,可以使用 Tesseract 引擎识别字幕图片。

Releases · SubtitleEdit/subtitleedit

参考资料

分享

码中人
作者
码中人
Web Developer