tesseract OCR锻炼新字体对图片的预处理和要求
admin | 取词 | 2014-01-22
tesseract OCR训练新字体对图片的预处理和要求
同tesseract OCR识别对图片有要求一样,在训练新的字符集或新的字体时,对图片也有一定要求,符合要求的图片,能大大提高训练的效率。
在图像处理方面,去除噪声,使训练的字符图片尽量连贯、清晰。
其他方面,通常的要求如下:
1. 在一幅图片内,字体统一,决不能将多种字体混合出现在一幅训练图片内;如... [阅读全文]
DDB To DIB
admin | 取词 | 2014-01-21
C++
HANDLE CGraphView::DDBToDIB( CBitmap& bitmap, DWORD dwCompression )
{
BITMAP bm;
BITMAPINFOHEADER bi;
LPBITMAPINFOHEADER lpbi;
DWORD dwLen;
HANDLE hDIB;
HANDLE handle;
HDC ... [阅读全文]
tesscallback.h(1011): error C2872: “remove_reference”: 不明确的符号
admin | 取词 | 2014-01-20
真正原因查明:\tesseract-ocr\include\tesseract\tesscallback.h(1011): error C2872: “remove_reference”: 不明确的符号。 引发的真正元凶是
#include “baseapi.h” 与
using namespace std;
在源码文件中出现顺序的问题,先 #include “baseapi.h” 后
using namespace std; 则OK, 如此可以避免名字的冲突!!!
[阅读全文]
QTextEdit 取词
admin | 取词 | 2014-01-15
C++
bool MyTextEdit::event(QEvent* event)
{
if (event->type() == QEvent::ToolTip)
{
QHelpEvent* helpEvent = static_cast<QHelpEvent*>(event);
QTextCursor cursor = cursorForPosition(helpEvent->pos());
cursor.select(QTextCursor::WordUnderCursor);
if (!cur... [阅读全文]
字样索引(Glyph Index)与字符之间的转换
admin | 取词 | 2014-01-14
本文是我研究针对复杂文本屏幕取词和动态翻译关键技术而写的日记(C语言)
马依尔江
首先我们必须要知道索引值(Glyph Index Value)和字符(Char)的关系。通常一个TTF字体中有很多字符,每个字符对应一个形状,有些字符的字符UNICODE码不一样,可是形状是一样的,也就是说不同的字符的形状有可能是同一个样的。所为字样索引就是字体中的那些形状的排序号。... [阅读全文]