2017-02

Tesseract训练中文字体识别

注：目前仅说明windows下的情况

前言

网上已经有大量的tesseract的识别教程，但是主要有两个缺点： + 大多数比较老，有部分内容已经不适用。 + 大部分只是就英文的训练进行探索，很少针对中文的训练。接下来尽可能详细的介绍自己tesseract训练中文识别的经验。

本文中使用的tesseract版本为3.05; 为什么用3.05呢？从官方文档上看4.0版本（windows版本于2017年1月30号发布）显著的提高了识别率，同时也加大了性能的消耗。理论上我是应该用4.0。但这不是重点。重点是有windows的版本有诡异的bug! 花了好久没有解决。不过还好，4.0支持3.05版本的所有语法。换而言之，下面的所有内容在4.0都是可以用的。

2017年02月14日

欢迎来到Ali的秘密花园

既然来了，就别走了

2017-02

Tesseract训练中文字体识别

前言