velior.ru » Сб июн 15, 2013 09:13
Привет, Бычара!
Токенайзеры — крайне полезная функция. Позволяет сопоставлять слова не один к одному, а по основам. Например, по умолчанию для CAT-программы слова calibration и calibrations — это два разных слова, потому что они не идентичны. Например, у вас в глоссарии есть: calibration — калибровка. А в текущем сегменте попадается calubrationS. Программа вам его в глоссарии не покажет, потому что не считает его совпадающим с calibration.
Теперь добавляем токенайзер. Он при сравнении слов обрезает их до основ. Поэтому в примере выше программа сравнивает calibration с calibration -s. Они совпадают. Программа в результате показывает вам calibration его в глоссарии. Тогда как без токенайзера ничего не показывает.
Таким образом, с токенайзером вы видите больше слов в глоссарии, потому что токенайзер распознает в оригинале не только одну словоформу, введенную в глоссарий, но и другие словоформы слова.
То же самое касается и памяти — будет больше совпадений.
Раньше с токенайзерами было работать довольно сложно, приходилось делать отдельный скрипт для запуска OmegaT на каждый токенайзер, а они разные для разных языков. Но начиная с версии 3.0 их встроили, так что теперь даже думать о них не приходится, они запускаются автоматически с учетом языковой пары проекта.
Кстати, OmegaT — практически единственная на данный момент программа с такой функцией. Даже у коммерческих аналогов ее нет.
P.S. Пользуясь случаем, приглашаю к сотрудничеству профессиональных переводчиков, работающих с OmegaT. Нас немного, так что давайте объединяться :). Ставки в диапазоне $0,05-0,08 за слово. Выше и ниже не предлагайте. Если что, присылайте ЛС.