Тема: JScript: распознавание текста в TIF файлах средствами MS Office
Для решения этой задачи используется объект MODI.Document. Описание объектной модели можно найти тут. Данный объект входит в состав MS Office, начиная с версии 2003. Недостатком данного объекта является его слабый механизм OCR, поддержка только TIF. По установке языка распознавания смотрите описание метода OCR в документации.
Функция CopyTextFromTIF распознает изображение, путь к которому указан в параметре Path, и возвращает распознанный текст.
function CopyTextFromTIF(Path)
{
var Document = WScript.CreateObject ("MODI.Document");
Document.Create(Path);
Document.OCR(9);
var Result = Document.Images.item(0).Layout.Text;
Document.Close();
return Result;
}
WScript.Echo(CopyTextFromTIF("C:\\text.tif"));
Обратите внимание, что требуется файл формата TIF/TIFF. Средства конвертирования из других форматов в данный тип данных можно найти в теме VBScript: работа с графическими файлами.
Также следует учитывать, что распознанный текст с одного и того же изображения может отличаться на другой машине.