Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Использование МП с CAT без подписки на МП

Использование МП с CAT без подписки на МП

Сообщение mikhailo » Чт фев 26, 2015 15:13

Очередной кратенький мануал по использованию МП с САТ при отсутствии платной подписки на МП (на примере Дежи).

http://rghost.ru/8FdZDyVLc

С конструктивной критикой сюда или в личку.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД





Re: Использование МП с CAT без подписки на МП

Сообщение AsIs » Чт фев 26, 2015 17:27

Можно вопрос?
Я делаю так: сохраняю сегменты к переводу в двуязычный rtf. Открываю rtf. Копирую левый (source) столбик в правый (target), выделяю правый столбик и жму горячие кнопки вставки гуглоперевода из Qtranslate (присваиваются пользователем).
Сохраняю ртф и заливаю обратно в мемоку.
Вопрос: для чего нужны манипуляции между "Экспортируем его в двуязычный RTF" и "Теперь можно заниматься редактированием ненастроенного машинного перевода"?
(Может, я упускаю что-то.)
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Использование МП с CAT без подписки на МП

Сообщение mikhailo » Чт фев 26, 2015 20:12

Можно вопрос?
Я делаю так: сохраняю сегменты к переводу в двуязычный rtf. Открываю rtf. Копирую левый (source) столбик в правый (target), выделяю правый столбик и жму горячие кнопки вставки гуглоперевода из Qtranslate (присваиваются пользователем).
Сохраняю ртф и заливаю обратно в мемоку.
Вопрос: для чего нужны манипуляции между "Экспортируем его в двуязычный RTF" и "Теперь можно заниматься редактированием ненастроенного машинного перевода"?


Почему нельзя - можно.
Я показал один из способов работы, когда в Pretranslated документе есть разбросанные по всему тексту переведенные сегменты, и хочется их сохранить.

Есть альтернативный вариант с их лочением и неэкспортом в RTF.

А, вообще, есть наверное и другие способы работы, которые не освещены в руководствах и не очевидны, и которыми более опытные товарищи могли бы делиться с менее опытными, как это стараюсь делать я.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Использование МП с CAT без подписки на МП

Сообщение AsIs » Пт фев 27, 2015 10:45

mikhailo, я без всякого срказама (если вдруг вы так подумали). Спасибо, дело нужное.
Немного добавлю по "своему" способу. Если после претранслейта появились сегменты, которые необходимо сохранить в том виде, в каком они вставились из ТМ, можно отсортировать сегменты по длине текста начиная с самых коротких. Тогда вначале будут идти сегменты без перевода. Соответственно нужно найти первый сегмент с текстом и, выделив шифтом до последнего, заблокировать. Затем сделать экспорт в ртф, сняв галочку Include locked segments. Я сейчас говорю про мемоку, но ртфный формат есть и в Мемсорсе, и в Студии, и в Деже...
а. Если сегментов немного (скажем, на 3 вордовских листах все уместилось), то нужно скопировать содержимое левого столбца в правый и, не снимая выделение, нажать команду Qtranslate "Заменить выделенный текст переводом".
б. Еслим сегментов много (например, 5678 сегментов), целесообразно временно отбить шапку ртфной таблицы, чтобы не тянуть ЛКМ через все 5678 сегментов. Для этого ставим курсор в сегмент №1 и жмем команду Ворда "Разбить таблицу". Далее наводим указатель над левым (сорсовым) столбцом так, чтобы появилась вертикальная направленная вниз черная стрелка. Это позовляет выделить весь столбец одним кликом. Выделили -> скопировали -> вставили. При этом стобец Таргет (пустой) сохраняется, смещаяясь вправо. Т.е. после вставки скопированного сорса на место таргета пустой таргет справа следует так же (вертикальной черной стрелкой) выделить и удалить.
Прогнать волшебным Qtranslate'ом все 5678 сегментов не получится. Придется в правом столбце выделять текст по 3-4 листа (сегментов по 400-500) и последовательно переводить qtranslatом.
После машиноперевода всего текста нужно вернуться к шапке и удалить разрыв, чтобы шапка прилепилась обратно к таблице. Сохранить ртф и залить обратно в "кошку". При желании/необходимости можно предварительно почистить машиноперевод. Например, заменить какой-то часто встречающийся термин, который был неудачно выбран машиной (e.g. "контракт" на "договор").
Пока писал, понял, что столько букав читать сложно. Попробую завтра сваять видеоурок, если кому-то это надо.
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Использование МП с CAT без подписки на МП

Сообщение mikhailo » Пт фев 27, 2015 11:20

AsIs

Ещё одним фактором в сторону той методики, которую я использовал, является возможность наличия табов внутри сегментов в деже. После такого копипаста всё идёт вразнос. (выход - предварительная замена с последующим возвратом)

Кстати при вставке в таблицу Ворд есть одно очень нехорошее свойство, замеченное пару раз — пустые строки просто не учитываются и при вставке происходит сдвиг вверх. На 5678 сегментов поиск точки сдвига превращается в веселуху.

Пока писал, понял, что столько букав читать сложно. Попробую завтра сваять видеоурок, если кому-то это надо.


Читать сложно из-за того, что текст плохо структурирован и не выделено самое важное. А смотреть 30 минутный ролик ради 1-5 минут действительно полезной информации, как-то не очень правильно.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Использование МП с CAT без подписки на МП

Сообщение AsIs » Пт фев 27, 2015 11:29

Я и не собираюсь делать ролик на 30 минут. Все действия занимают минуты 3-5.
Сдвигов никаких не происходит, если скоипровать целиком сорс и вставить его вместо таргета.
В сорсе не бывает пустых сегментов, поэтому как им появиться в таргете, если таргет получается путем копирования сорса? Или я что-то не так понял? Что за пустые строки?
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Использование МП с CAT без подписки на МП

Сообщение AsIs » Пт фев 27, 2015 11:43

Изображение
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Использование МП с CAT без подписки на МП

Сообщение mikhailo » Пт фев 27, 2015 11:48

Я и не собираюсь делать ролик на 30 минут. Все действия занимают минуты 3-5.
Сдвигов никаких не происходит, если скоипровать целиком сорс и вставить его вместо таргета.
В сорсе не бывает пустых сегментов, поэтому как им появиться в таргете, если таргет получается путем копирования сорса? Или я что-то не так понял? Что за пустые строки?


А как вы обратно вставите перевод если есть сегменты с табами внутри?
Пустые строки иногда появляются из-за неперевода в Qtranslate - нечасто, но бывает.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Использование МП с CAT без подписки на МП

Сообщение AsIs » Пт фев 27, 2015 12:05

Чтобы этого "нечасто, но бывает" не было, нужно (я об этом уже упоминал) не пытаться выделить слишком много сегментов. Кстати 400-500 я написал - погорячился. По 100-200. Тогда процесс перевода пройдет без сдвигов. Если слишком много захватывать, могут быть косяки, да. Выход - не хапай много, выделяй частями.
Что касается табуляции, то в мемоку она заменяется тэгом. Тэг в ртфе передается скобками с цифрой. В конце концов можно в редакторе кошки потом вставить. Сколько там этих тэгов должно быть, чтобы это стало проблемой...
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Использование МП с CAT без подписки на МП

Сообщение Platov » Пн сен 19, 2016 16:33

mikhailo писал(а):Очередной кратенький мануал по использованию МП с САТ при отсутствии платной подписки на МП (на примере Дежи).

http://rghost.ru/8FdZDyVLc.

Добрый день!
Файл удален, можно залить файл снова?
Platov

 
Сообщения: 3
Зарегистрирован: Ср сен 07, 2016 09:06

Re: Использование МП с CAT без подписки на МП

Сообщение Flape » Вт дек 19, 2017 04:56

mikhailo писал(а):Очередной кратенький мануал по использованию МП с САТ при отсутствии платной подписки на МП (на примере Дежи).

http://rghost.ru/8FdZDyVLc

С конструктивной критикой сюда или в личку.


Скиньте пожалуйста мануал в личку, к вам не достучаться. По ссылке файл удалён.
Flape

 
Сообщения: 1
Зарегистрирован: Вт дек 19, 2017 04:24

Re: Использование МП с CAT без подписки на МП

Сообщение mikhailo » Вт дек 19, 2017 10:23

Новая ссылка по просьбам трудящихся
http://rgho.st/7PbkrYz6q
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Использование МП с CAT без подписки на МП

Сообщение OlegV » Вт фев 06, 2018 15:18

mikhailo, спасибо за документ.

А что означает Ваш финальный параграф - "Теперь можно заниматься редактированием ненастроенного машинного перевода. Такая работа дополнительно позволит понять, стоит ли связываться с предложениями о постредактировании МП от БП Янус, Abbyy LS и иже с ними."

Насколько мне известно, упомянутые БП либо сами делают МП (и применяют для этого разные системы МП), либо получают от своих заказчиков проекты, где уже находится МП (выполненный на стороне заказчика).
Пока не откроешь конкретный файл, не увидишь качество МП.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Использование МП с CAT без подписки на МП

Сообщение Lohh_ness » Вт фев 06, 2018 16:22

OlegV писал(а):mikhailo, спасибо за документ.

А что означает Ваш финальный параграф - "Теперь можно заниматься редактированием ненастроенного машинного перевода. Такая работа дополнительно позволит понять, стоит ли связываться с предложениями о постредактировании МП от БП Янус, Abbyy LS и иже с ними."

Насколько мне известно, упомянутые БП либо сами делают МП (и применяют для этого разные системы МП), либо получают от своих заказчиков проекты, где уже находится МП (выполненный на стороне заказчика).
Пока не откроешь конкретный файл, не увидишь качество МП.

Можно получить файл на post-machine editing, за такую работу другие расценки, чем за просто перевод текста.
Je dépense donc je suis.
Lohh_ness

 
Сообщения: 1238
Зарегистрирован: Ср окт 12, 2011 00:31
Язык(-и): Eng<-> Ru

Re: Использование МП с CAT без подписки на МП

Сообщение OlegV » Вт фев 06, 2018 16:32

Еще вопросы:

Экспортируем его в двуязычный RTF. File -> Share -> Export ->Bilingual RTF и ставим флажки, как показано ниже.


1. Можно ли в Деже экспортировать из рабочего файла (проекта) сегменты NoMatch и/или Low Match?
2. Можно ли экспортировать их в ТМХе?
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Использование МП с CAT без подписки на МП

Сообщение mikhailo » Вт фев 06, 2018 22:09

1. В деже при экспорте можно исключить гарантированные, 100%, дубликаты и заблокированные сегменты.
2. Отдельно нельзя - можно загнать в пустую базу проект, потом перегнать базу в TMX из которой затем выбрать нужные сегменты фильтрами в слонике или Хертсаме.

Насколько мне известно, упомянутые БП либо сами делают МП (и применяют для этого разные системы МП), либо получают от своих заказчиков проекты, где уже находится МП (выполненный на стороне заказчика).
Пока не откроешь конкретный файл, не увидишь качество МП.


Ненастроенный МП это, как правило, самый худший МП... Хуже наверное будет только Стилус 3.0 или промт 98.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Использование МП с CAT без подписки на МП

Сообщение OlegV » Вт фев 06, 2018 23:29

1. В деже при экспорте можно исключить гарантированные, 100%, дубликаты и заблокированные сегменты.
2. Отдельно нельзя - можно загнать в пустую базу проект, потом перегнать базу в TMX из которой затем выбрать нужные сегменты фильтрами в слонике или Хертсаме.


Сам я с Дежей (пока) не работаю. Но очень интересно :). А можно в Деже сделать такой экспорт (пп. 1 - исключить все перечисленные сегменты), но не в файл, а в отдельную базу ТМ?

Ненастроенный МП это, как правило, самый худший МП... Хуже наверное будет только Стилус 3.0 или промт 98.


Батенька, да у вас опыт с МП - свыше 20 лет :). Я сам со Стайлуса начинал. В 1993 г. Тогда было только две системы англо-русских: для ИТ и бизнеса. Вот с ИТ я и начал свои игры-эксперименты с МП (PROMT). И его настройкой. Мы тогда переводили много документации по телекому для одной итальянской компании. У них исходник (на английском языке) был хорош: простые и правильные предложения. После ввода в словарь одной-двух сотен терминов машинный перевод "полез" с очень приличным качеством....

Вот тогда я и увидел впервые, какую пользу дает настроенный МП.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Использование МП с CAT без подписки на МП

Сообщение OlegV » Вт фев 06, 2018 23:34

Кстати, и что делает эта тема в разделе " Социально-правовой округ ‹ Улица просвещения ‹ Студенческий городок" :)?

Прямая дорога в ПО. В новый подраздел, если появится :).
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Использование МП с CAT без подписки на МП

Сообщение mikhailo » Вт фев 06, 2018 23:51

Сам я с Дежей (пока) не работаю. Но очень интересно :). А можно в Деже сделать такой экспорт (пп. 1 - исключить все перечисленные сегменты), но не в файл, а в отдельную базу ТМ?


Можно ненужные сегменты пометить как не для экспорта в ТМ, а дальше по старой накатанной в ТМ проекта -> ТМХ и так далее.
Надо понимать, что никто такие функции просто так делать не будет - они нужны единицам.

Батенька, да у вас опыт с МП - свыше 20 лет :). Я сам со Стайлуса начинал. В 1993 г. Тогда было только две системы англо-русских: для ИТ и бизнеса. Вот с ИТ я и начал свои игры-эксперименты с МП (PROMT). И его настройкой. Мы тогда переводили много документации по телекому для одной итальянской компании. У них исходник (на английском языке) был хорош: простые и правильные предложения. После ввода в словарь одной-двух сотен терминов машинный перевод "полез" с очень приличным качеством....

Вот тогда я и увидел впервые, какую пользу дает настроенный МП.


Вы вывод неправильный сделали. Качество вам дала не столько настройка Промта, сколько почти заточенный под ТМ исходник.
Тоже доводилось видеть пару простых английских текстов (на уровне школьных) очень неплохо переведенных машиной...
Тогда же делал кое-какие опыты по переводу на англ. Можно было получать приемлемый (на уровне школьных правил) перевод, если писать по-русски простыми, стилистически однородными предложениями. Но это создавало удручающее впечатление от исходника...

Кстати, Промт достиг бы гораздо большего, если бы к своему детищу написал модуль нормализации (адаптации под МТ) исходника с параллельным извлечением лексики для настройки глоссария.....
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Использование МП с CAT без подписки на МП

Сообщение OlegV » Ср фев 07, 2018 00:12

Можно ненужные сегменты пометить как не для экспорта в ТМ, а дальше по старой накатанной в ТМ проекта -> ТМХ и так далее.


Очень хорошо, что такая возможность есть. Я предпочитаю через PROMT прогонять именно ТМХ-файлы. Модуль пакетного перевода неплохо справляется с тегами. Плюс мне нравится иметь МП в отдельной базе (или рабочей ТМ). Конкорданс охватывает не только высокие фаззи. Но и пока "неотредактированные" (машинно переведенные) сегменты.

Вы вывод неправильный сделали. Качество вам дала не столько настройка Промта, сколько почти заточенный под ТМ исходник.


Источник не был специально заточен под МП. Просто итальянцы использовали "простой" английский в своей документации. По их же рассказам (их писателей), это они делали сознательно. В оправдание пользы настройки повторю: настроенный МП на выходе давал релевантную лексику (изначально ее вообще не было во встроенном словаре). Я тогда работал в небольшой команде переводчиков (в среднем, 10 человек). И настраивал словарь для всех документов, которые предстояло переводить. Мы все (после МП) работали с единой лексикой. То есть, единообразие лексики обеспечивалось, во многом, еще до начала пост-редактирования.

Кстати, Промт достиг бы гораздо большего, если бы к своему детищу написал модуль нормализации (адаптации под МТ) исходника с параллельным извлечением лексики для настройки глоссария


Имхо, такой модуль - это отдельная, очень сложная и дорогостоящая задача. По моему, Акронис подобной темой занимается?
А модуль извлечения лексики у них (ПРОМТа) уже давно есть. Увы, я им владею плохо.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

След.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в MT + PEMT

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0