Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Удаление сносок в ПДФ

Удаление сносок в ПДФ

Сообщение Tagfir » Сб апр 07, 2018 10:31

Всем привет. Это мой первый пост. Прошу помочь.
1) Сноски. Есть куча двуязычных PDF. Делаю на их основе базу ТМ. Система Align не нравится. Муторно. Может и есть такие настройки, что можно сразу сделать словарик, но, покопавшись, понял, что мне быстрее работать "cut and paste" в Trados Editor. Проблема вот в чём: в Source PDF текст имеет переносы слов. И эти чёртовы переносы переходят в Традос. И получается текст таким: "отбивка забоя на заданн- ой глу- бине." А отсюда и ТМ (память) получается с этими знаками переноса. Find and Replace не подходит. Есть такие места, которые заменять автоматом не нужно, скажем дефисы.
Заранее говорю Огромное спасибо!
Tagfir

 
Сообщения: 3
Зарегистрирован: Вт ноя 22, 2016 15:53





Re: Удаление сносок в ПДФ

Сообщение mikhailo » Сб апр 07, 2018 20:20

Вы как-то противоречите себе - то поиски автоматизации вам муторны и copy-paste - лучшее решение, то уже вдруг хочется автоматизации.

Путей много - самый простой распознать текст в FR.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Удаление сносок в ПДФ

Сообщение Bookworm » Вс апр 08, 2018 01:00

Скорее всего при переносе там после "-" еще есть непечатаемый символ типа #10. Я бы вытащил весь текст из pdf в xml (при помощи InFix), посмотрел бы, что там в xml получилось, сделал бы массовую замену в любом редакторе типа Notepad+, а затем отэлайнил бы эти xml.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1907
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Удаление сносок в ПДФ

Сообщение Tagfir » Вс апр 08, 2018 15:48

Bookworm писал(а):Скорее всего при переносе там после "-" еще есть непечатаемый символ типа #10. Я бы вытащил весь текст из pdf в xml (при помощи InFix), посмотрел бы, что там в xml получилось, сделал бы массовую замену в любом редакторе типа Notepad+, а затем отэлайнил бы эти xml.

Спасибо. Буду копать в этом направлении. Уже после поста своего вопроса догуглил до Олифанта. Смотрю обучалки. Возможно он мне быстрее поможет исправить ляпусы. Спасибо всем!
Tagfir

 
Сообщения: 3
Зарегистрирован: Вт ноя 22, 2016 15:53



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Trados

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3