我们看视频时,除了面画和声音,字幕也是一个重要的元素,可以大大提高视频内容的可访问性。字幕主要有两种格式:
基于文本的格式:这些格式(如 SRT 或 SSA)将字幕存储为纯文本,您可以使用常规文本编辑器轻松阅读甚至编辑。
二进制格式:二进制格式,例如 IDX/SUB 和 STL,我们可能会在 DVD 和蓝光光盘中找到这些内容。
而我写的字幕工具箱 - 免费的在线字幕工具集合,全是基于文本字幕的。
今天,给大家介绍一个二进制字幕提取方法,可以从 DVD 和蓝光光盘中提取字幕文件。
DVD 字幕
DVD视频中的字幕,是一种图形字幕,文件存储的是图片信息,如IDX/SUB、PGS,在播放器中字幕作为位图渲染。字幕文件的格式有很多种,其中最常见的是IDX/SUB格式。
IDX/SUB字幕,用两个文件存储字幕信息,后缀分别为.idx与.sub,idx存储属性信息,可用记事本打开包括字幕缩放、延时等,与ASS的功能栏大同小异;sub存储字幕的图片信息。
Subtitle Edit + Tesseract
既然是图片,那本质上是一个OCR(Optical Character Recognition)问题,即光学字符识别。OCR技术是一种将图像中的文字转换为可编辑、可搜索的文本的技术。OCR技术比较成熟,有很多开源的OCR引擎,如Tesseract。
Tesseract 是一个开源的OCR引擎,由 Google 开发,支持多种语言,包括中文。Tesseract 4.0 之后,支持 LSTM 神经网络,识别效果更好。
GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)
Subtitle Edit 是一个开源的字幕编辑器,支持多种字幕格式,包括IDX/SUB。Subtitle Edit 也支持OCR,可以使用 Tesseract 引擎识别字幕图片。
Releases · SubtitleEdit/subtitleedit
视频演示
下面是一个视频演示,演示如何使用 Subtitle Edit + Tesseract 提取 DVD 视频中的硬字幕。
DVD 图片字幕提取方案:Subtitle Edit + Tesseract_哔哩哔哩_bilibili