1 (изменено: JSmаn, 2010-02-20 02:16:45)

Тема: JScript: распознавание текста в TIF файлах средствами MS Office

Для решения этой задачи используется объект MODI.Document. Описание объектной модели можно найти тут. Данный объект входит в состав MS Office, начиная с версии 2003. Недостатком данного объекта является его слабый механизм OCR, поддержка только TIF. По установке языка распознавания смотрите описание метода OCR в документации.

Функция CopyTextFromTIF распознает изображение, путь к которому указан в параметре Path, и возвращает распознанный текст.

function CopyTextFromTIF(Path)
{
    var Document = WScript.CreateObject ("MODI.Document");
    Document.Create(Path);
    Document.OCR(9);
    var Result = Document.Images.item(0).Layout.Text;
    Document.Close();
    return Result;
}

WScript.Echo(CopyTextFromTIF("C:\\text.tif"));

Обратите внимание, что требуется файл формата TIF/TIFF. Средства конвертирования из других форматов в данный тип данных можно найти в теме VBScript: работа с графическими файлами.

Также следует учитывать, что распознанный текст с одного и того же изображения может отличаться на другой машине.

Тема обуждения.