Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Сравнение параллельных текстов (CompareParallelTexts)

Сравнение параллельных текстов (CompareParallelTexts)

Сообщение random_nick » Вт дек 01, 2015 14:01

Приходится часто осуществлять поиск в параллельных текстах. Написал простенькую программку - CompareParallelTexts.
Скриншот
Загрузить для Windows
Если я изобретаю колесо, подскажите аналоги :mrgreen:

Руководство:
О программе

Программа CompareParallelTexts предназначена для переводчиков и позволяет сравнивать файлы оригинала и перевода в формате txt.
После запуска пользователю предлагается выбрать файлы оригинала и перевода (порядок на данный момент не имеет значения). Файлы должны быть в формате plain text (txt), иметь кодировку UTF-8 и перенос строк Unix. ОБРАТИТЕ ВНИМАНИЕ: если текст имеет другую кодировку, программа попытается автоматически ее изменить с перезаписью исходного файла. Используйте на входе только временные файлы!
Навигация
Для навигации можно использовать мышь или стрелки на клавиатуре.
Щелкните левой кнопкой мыши (ЛКМ) в нужном месте. Программа найдет ближайший фрагмент текста, по которому можно более-менее достоверно ориентироваться и выделит его. После этого будет произведен поиск соответствующего фрагмента во второй области окна.
Алгоритм работы
Программа ориентируется по словам (фрагменты, разделенные пробелами или разрывами строк), не включающим кириллицу и латиницу (например, числа). Пунктуация и скобки игнорируются. Имеет значение только номер такого ключевого фрагмента. Если большую часть текста составляет кириллица, то слова на латинице также будут считаться ключевыми фрагментами.
Пример:
Рассмотрим такой оригинальный текст:
Компания Ford выпускает модель F-350 с 2006 года.
И перевод:
The Ford company puts the F-350 model into circulation since 2006.
Если нажать ЛКМ внутри слов "Компания" или "Ford" в первом тексте, то программа выделит "Ford" как в первом, так и во втором тексте. Если "Ford" повторяется несколько раз, то во втором тексте программа попытается отыскать "Ford" с учетом его повторов, т.е. выделение пятого по счету "Ford" в первом тексте приведет к выделению также пятого "Ford" во втором тексте. Ключевыми фрагментами также являются "F-350" и 2006.
Ключевые фрагменты также можно искать во втором тексте, однако, будут находиться только "F-350" и "2006", но не "Ford", потому что второй текст на английском.
Поиск по тексту
Как по первому, так и второму тексту можно производить поиск (Control-F3 - искать новое слово или слова, F3 - искать далее по тексту, Shift-F3 - искать назад по тексту).
random_nick

 
Сообщения: 518
Зарегистрирован: Ср июн 26, 2013 02:33





Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение random_nick » Чт дек 03, 2015 19:41

Исправлена ошибка, не позволяющая перекодировать файлы, не находящиеся изначально в кодировке UTF-8. Перекачайте программу. Ссылка та же.
random_nick

 
Сообщения: 518
Зарегистрирован: Ср июн 26, 2013 02:33

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение Валерий Афанасьев » Пт дек 04, 2015 21:02

Есть Compare Suite. Есть встроенные в CAT инструменты. Есть, в конце концов, Xbench и дочь ее Verifika. Что сподвигло автора темы ваять свою машинку - мне не понятно.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение random_nick » Пт дек 04, 2015 21:22

Валерий Афанасьев
Спасибо за инфу. Интересно будет взглянуть.
Что сподвигло автора темы ваять свою машинку - мне не понятно.

Я могу встроить какое-либо из этих проприетарных решений как модуль к своей программе по переводу? :-)
random_nick

 
Сообщения: 518
Зарегистрирован: Ср июн 26, 2013 02:33

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение John Gower » Сб дек 05, 2015 01:02

AntConc?
Last grace of style
Аватара пользователя
John Gower

 
Сообщения: 1413
Зарегистрирован: Ср июл 21, 2010 14:09
Блог: Просмотр блога (8)
Язык(-и): en-ru, ru-en, de-ru, de-en

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение Валерий Афанасьев » Сб дек 05, 2015 20:29

random_nick писал(а):Валерий Афанасьев
Спасибо за инфу. Интересно будет взглянуть.
Что сподвигло автора темы ваять свою машинку - мне не понятно.

Я могу встроить какое-либо из этих проприетарных решений как модуль к своей программе по переводу? :-)


Вставляйте что хотите и куда хотите. Только не претендуйте на первооткрывательство. Поскольку все, что могло быть украдено, уже had been украдено лет двести тому назад, украдено до вас.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение random_nick » Сб дек 05, 2015 20:41

Валерий Афанасьев писал(а):
Вставляйте что хотите и куда хотите. Только не претендуйте на первооткрывательство.

Вы считаете, что программы пишутся только потому, что нет аналогов? С моей стороны было бы глупо считать, что ничего подобного еще нет с учетом большого числа всяких "выравнивателей" и штук типа nltk. Да и первооткрывателем быть, писать все с нуля мне как-то совсем не хочется.
Поскольку все, что могло быть украдено, уже had been украдено лет двести тому назад, украдено до вас.

Красть не нужно, нужно выбирать правильную лицензию :lol:
random_nick

 
Сообщения: 518
Зарегистрирован: Ср июн 26, 2013 02:33

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение vladimir.sviridov » Вт янв 12, 2016 13:20

ABBYY Aligner хорош, жаль что там нельзя подключать пользовательские словари, чтобы лучше выравнивал.
Аватара пользователя
vladimir.sviridov

 
Сообщения: 15
Зарегистрирован: Вс янв 03, 2016 22:34
Откуда: Россия, Липецк
Язык(-и): En-Ru, Ru-En

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение random_nick » Сб мар 10, 2018 18:40

random_nick

 
Сообщения: 518
Зарегистрирован: Ср июн 26, 2013 02:33

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение random_nick » Пн мар 19, 2018 23:45

Я исправил досадную ошибку при выходе. Все остальное - то же самое. Ссылка старая. Прошу прощения :grin:
random_nick

 
Сообщения: 518
Зарегистрирован: Ср июн 26, 2013 02:33

Re: Сравнение параллельных текстов (CompareParallelTexts)

Сообщение BInc » Ср апр 04, 2018 10:22

Если я правильно понимаю, все это делает обычный бесплатный Xbench 2.9. Загружаете в него файлы, причем в куче разных форматов, и ищете по исходнику, по переводу, по ним обоим, с регулярными выражениями, с кучей параметров.
Never imagine yourself not to be otherwise than what it might appear to others that what you were or might have been was not otherwise than what you had been would have appeared to them to be otherwise.
Аватара пользователя
BInc

 
Сообщения: 421
Зарегистрирован: Ср май 21, 2008 21:51
Откуда: Киев
Язык(-и): Eng>Rus, Eng>Ukr



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 8