学习日记 » 屏幕取词

tesseract_ocr 字符识别基础及训练字库、合并字库

admin — Sun, 11 Sep 2016 09:34:15 +0000

最近公司让我做文字串识别，通过查阅资料，谷歌的开源框架 tesseract-ocr可以帮助我们进行识别图像，文字等等，tesseract可以识别多种语言(一些常用的语言)，多种图片格式，非常强大。

首先体验一下tesseract的强大功能，先安装 tesseract_ocr ,下载地址为http://code.google.com/p/tesseract-ocr/，请务必下载3.0.1版本，我前面下的最新3.0.2版本，生成字符特征命令不能通过，最后勉强解决了，生成的字典识别出来的都是空字符

安装完成之后看下根目录

tessdata文件夹主要存放字典文件，只要把字典文件放进去，就可以用tesseract 识别相关语言的文字

现在先来识别一张图片

把他放入任意一个文件夹，cmd 命令cd到图片放置的目录，然后执行

tesseract 1.jpg 1

可以看到文件夹下生成了一个txt文本，发现识别的效果并不是很理想。为啥呢，因为我所用的这个图片中的字有所变形，我们的图片和 tesseract 存在的字做匹配，找相近的，但是字典中没有这种变形的字体，自然识别容易出错，为了提高识别率，所以我们需要训练一套字体来提高识别率

训练字库还需要一个工具jTessBoxEditor，下载地址为 http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

现在我们来实战一下，首先要生成一个 .tif 的图片集，我们使用 jTessBoxEditor 来合并多张格式为tif的图片

1、打开 jTessBoxEditor，选择tools->merge tif ,选择 tif图片，生成一个格式为tif的图片集

2、我生成一个名为 why4.tif 的图片集，进入 cd进入 why4.tif 所在的目录，生成对应的 .box 文件

执行命令

tesseract why.tif  why4 batch.nochop makebox

这个文件是通过 tesseract 识别出来的，标示了图片集中文字的位置，大小，识别后的字符结果。

3、调整，因为 tesseract 识别的不准确，所以我们用 jTessBoxEditor来调整识别文字的位置、结果。

用 jTessBoxEditor打开生成的图片集why4.tif ,注意 why4.tif 对应的box文件一定要和他处于同一个文件夹下(请保持文件名)，否则，用jTessBoxEditor打开没有位置、识别结果等信息，然后就可以调整了，调整完之后保存

4、生成.tr文件

tesseract why4.tif  why4   nobatch box.train

5、计算字符集,从生成的 box文件中提取

unicharset_extractor why4.box

6、生成字体特征文件，现在文件夹下新建任意文件名的特征文件，里面的内容格式为

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

fontname为字体名称，保持和图片集文件 .tif 和.box文件的前缀名一致，italic> 、、、、的取值为1或0，表示字体是否具有这些属性。

例如我新建了一个名为 font，内容为

why4 0 0 0 0 0

的文件

输入命令

mftraining -F font -U unicharset why4.tr

7 、聚集tesseract 识别的训练文件

cntraining why4.tr

执行完这一步之后发现文件夹下生产了许多文件，把unicharset, inttemp, normproto, pfftable这几个文件加上前缀 why4.

8、最后一步，合并相关文件，生成字典文件

combine_tessdata why4.

好了，至此字典文件就生产了，我们把生成的字典文件why4.traineddata放入到 tesseract_ocr 根目录下的 tessdata文件夹下

开始使用我们训练过得字体库

随便找一张图片测试一下

tesseract 13.jpg 13 -l why4

可以看到，效果好了许多

说了这么多，生成一个字库还是挺麻烦的，尤其是调整，看得我眼睛都花了，心情烦躁，好不容易做好了一个字库，但是不够，还要多添加一些训练内容进去该怎么办呢，经过我的研究，终于找到了3.0.1版本合并字库的方法

首先，需要生成的字符集.tif文件，位置文件 .box ,只要有这两个文件在，就可以合并字典

好了，我现在有三个需要合并的字典 why3 why4 why5，他他们的名字修改为 name.num 的形式，分别改为 why.3 why.4 why.5

1、先生成相对应的 .tr 文件

tesseract why.3.tif why.3 nobatch box.train
tesseract why.4.tif why.4 nobatch box.train
tesseract why.5.tif why.5 nobatch box.train

2、从所有文件中提取字符

unicharset_extractor why.3.box why.4.box why.5.box

3、生成字体特征文件

新建的font文件中把所有box文件对应的字体特征都加进去

why.4 0 0 0 0 0
why.3 0 0 0 0 0
why.5 0 0 0 0 0

mftraining -F font -U unicharset why.3.tr why.4.tr why.5.tr

4 、聚集所有.tr 文件

cntraining why.3.tr why.4.tr why.5.tr

6 、重命名文件，我把unicharset, inttemp, normproto, pfftable 这几个文件加了前缀why.

7、合并所有文件生成一个大的字库文件

combine_tessdata why.

wps的range对象

admin — Tue, 21 May 2013 09:00:52 +0000

环境:xp sp3,vs2008,wps2012,word2010

如果直接设置Range对象的Start或End属性可能会报异常，所以使用SetRange方法或者让Start小于等于Range的End值

word2010直接设置Start的值超过End不会跑出异常,但是会将End=Start

void Ctest09242Dlg::OnBnClickedOk()
{
	// TODO: 在此添加控件通知处理程序代码
	::CoInitialize(NULL);
	//OnOK();

	WPS::_ApplicationPtr g_app;
	CLSID clsid;
	HRESULT hr;
	hr=::CLSIDFromProgID(L"WPS.Application",&clsid);    //通过ProgID取得CLSID

	try
	{
		g_app.CreateInstance(__uuidof(WPS::Application )) ;
	}
	catch (...)
	{
		AfxMessageBox("啊呀不是没装wps吧？");
		return;
	}

	WPS::DocumentsPtr docs =g_app->GetDocuments();
	//内容:abcdefghijklmn
	CString sWord="e:\\1011.doc";

	WPS::_DocumentPtr p_doc;
	_bstr_t sNull;

	try
	{
		p_doc = docs->Open(
			_bstr_t(sWord),
			VARIANT_FALSE,            // 确认转换
			VARIANT_TRUE,            // 只读
			VARIANT_FALSE,            // 添加到最近文件中
			sNull,                    // 文档口令.
			sNull,                    // 模板口令.
			VARIANT_FALSE,            // 恢复原状.
			sNull,                    // 写文档口令.
			sNull,                    // 写模板口令.
			0,                        // 格式.
			KSO::ksoEncodingAutoDetect,   // 编码
			VARIANT_TRUE,            // 可见
			VARIANT_FALSE,            // 打开并修复
			0,                        // DocumentDirection wdDocumentDirection LeftToRight
			VARIANT_FALSE            // 无编码对话框
			);

	}

	catch(_com_error)
	{
		g_app->Quit(&vtMissing,&vtMissing,&vtMissing);
		return ;
	}

	g_app->put_Visible(VARIANT_TRUE);

	WPS::SelectionPtr p_sel = p_doc->Get_Selection();
	WPS::FindPtr p_fid = p_sel->GetFind();

	CString sField = "cde";
	_variant_t FindText=(LPCTSTR)sField;
	_variant_t ReplaceWith=vtMissing ;
	_variant_t Forward=VARIANT_TRUE;
	_variant_t Wrap=(_variant_t)(WPS::wpsFindContinue);
	_variant_t Format=VARIANT_FALSE;
	_variant_t MatchCase=VARIANT_FALSE;
	_variant_t MatchWholeWord=VARIANT_FALSE;

	_variant_t MatchWildcards=VARIANT_FALSE;
	_variant_t MatchSoundsLike=VARIANT_FALSE;
	_variant_t MatchAllWordForms=VARIANT_FALSE;

	VARIANT_BOOL bExec =  p_fid->Execute(
		&FindText, &MatchCase, &MatchWholeWord, &MatchWildcards, &MatchSoundsLike,
		&MatchAllWordForms, &Forward, &Wrap, &Format, &ReplaceWith,&vtMissing);

	WPS::RangePtr lprage = p_sel->GetRange();
	long ns = lprage->Start;	//2
	long ne = lprage->End;		//5
	CString str = lprage->GetText();
	try
	{
		//lprage->Start = 6;	//异常
		//lprage->End = 1;		//异常
		lprage->SetRange(6,7);	//正确
	}
	catch (_com_error& e)
	{
		CString ErrorStr;
		ErrorStr.Format( "Code = %08lx\n\tCode meaning = %s\n\tSource = %s\n\tDescription = %s\n",
			e.Error(), e.ErrorMessage(), (LPCSTR)(_bstr_t)e.Source(), (LPCSTR)(_bstr_t)(e.Description()));
	}

	long ns1 = lprage->Start;
	long ne1 = lprage->End;
	str = (CString)(LPCSTR)lprage->GetText();

	WPS::RangePtr lprage2 = p_sel->GetRange();
	long ns2 = lprage2->Start;
	long ne2 = lprage2->End;
}

基于VS 2005环境的MS office自动化开发之熟悉环境篇

admin — Mon, 20 May 2013 04:10:25 +0000

进行MS office自动化开发最好的工具或许是VBA，但是很多时候我们的应用系统往往和MS office的文件打交道，比如生成word文件和EXCEL报表等等，因此学习一下主流的开发工具关于MS office自动化的知识还是很有必要的。从今天起，我将推出一些基于VS 2005环境的MS office自动化开发的一些入门文章。第一篇是关于熟悉开发环境。

这次我使用的是VS C++ 2005。经过一番折腾，我感觉VS C++ 2005对MS office自动化开发的支持还比不上VC 6.0。我这么说是有根据的，因为基于VC 6.0和基于VS 2005环境的MS office自动化开发我都做过。在VC 6.0，你只需要找到TpyeLib那个dll文件（或tlb文件、olb文件），选择你要用的类，然后VC 6.0为你自动生成.h文件和.cpp文件，这样你就可以直接使用其中定义的类了。

我原以为VS C++ 2005会沿用VC 6.0的做法。但我发现VS C++ 2005采用了新的做饭，这也倒没什么，问题严重的是这种新的方式居然对MS office自动化开发支持比较的糟糕（Word操作部分）。

进行MS office自动化开发，做法基本都是选择MS office的组件，然后导出你要使用的接口类，这在VC 6.0和VS C++ 2005都是一样。下面我以一个简单例子说明一下VS C++ 2005的具体做法，对应的ms office版本是office 2003。

首先用VS 2005新建一个单文档工程Owner，然后为工程添加一个类，选择“TypeLib中的MFC类”，具体如下图：

单击“添加”按钮后出现下图，从下图我们看出VS 2005比VC 6.0的一点进步，这里多了一个导出来源：注册表。注册表的好处是名字直观，否则比如选择文件，你要操作word，你还要费一番心思去搜索操作word的类到底藏在哪个dll文件或olb文件、或tlb文件之中呢？

基于顾名思义的原则，我们在可用的类型库中选择Micro Word 11.0 Object Library<8.3>。这时出现一大堆接口类，我们也不知道该用哪个，干脆一古脑把它们全导入进来，具体如下图：

单击“完成”按钮后，你可以发现工程在一时之间出现了一大堆.h文件：CAddIn.h、CAddIns.h……你可能会疑惑，对应的cpp文件呢？对不起，VS 2005并没有为你生成。这时你或许感受到VS 2005和VC 6.0在office自动化开发的一点区别了吧。

既然一夜之间来了那么多新丁，先编译一下吧，OK，编译通过，这时你会说：VS 2005和VC 6.0的做法也不过大同小异罢了。先别那么早下结论，开始编码：