MIT-10M: Новый стандарт в области перевода изображений

Перевод изображений (Image Translation, IT) представляет собой задачу, заключающуюся в переводе текстового содержимого, встроенного в изображения, с одного языка на другой. Эта задача имеет огромный потенциал в различных областях, таких как перевод текстов на сценах, документы и фотографии, что значительно улучшает доступность и межъязыковую коммуникацию. Однако существующие наборы данных для IT часто страдают от ограничений в масштабе, разнообразии и качестве, что затрудняет развитие и оценку моделей IT.

В ответ на эти проблемы мы представляем MIT-10M — крупномасштабный параллельный корпус многоязычного перевода изображений, содержащий более 10 миллионов пар изображений и текстов, полученных из реальных данных. Этот набор данных прошел обширную очистку и валидацию многоязычного перевода, что делает его значительным улучшением по сравнению с существующими наборами данных.

Основные характеристики MIT-10M

MIT-10M включает 840 000 изображений, охватывающих 14 языков и 28 категорий задач с тремя уровнями сложности. Набор данных представляет собой крупнейший доступный набор данных для многоязычного перевода изображений, содержащий высококачественные изображения с реальными сценами.

Структура набора данных

Набор данных MIT-10M состоит из трех основных компонентов:

Сбор данных и предварительная обработка: В этом этапе мы собираем данные с высококачественных веб-сайтов, таких как Google, Baidu и Amazon, а затем очищаем и фильтруем их для удаления дубликатов и неподходящего контента.
Аннотация OCR и очистка: Мы применяем технологии оптического распознавания символов (OCR) для извлечения текста из изображений и фильтруем изображения, содержащие несуществующий или бессмысленный текст.
Многоязычный перевод и валидация: Мы используем модели машинного перевода, такие как GPT-4, для перевода текста на 13 языков, а затем выполняем перекрестную проверку с помощью Google Translate для повышения точности.

Оценка сложности задач

MIT-10M включает три уровня сложности для задач перевода изображений:

Легкий: Изображения с 1-2 ограничивающими рамками и коротким текстом (менее 16 токенов).
Средний: Изображения с переменным количеством ограничивающих рамок и текстом средней длины.
Сложный: Изображения с более чем 5 ограничивающими рамками или длинными текстами (более 25 токенов).

Сравнение с существующими наборами данных

MIT-10M значительно превосходит другие популярные наборы данных в области перевода изображений по нескольким критериям, включая масштаб данных, уровень сложности, разнообразие и качество изображений. Например, в отличие от наборов данных, созданных на основе синтетических данных, MIT-10M предоставляет реальные сценарии, что позволяет моделям лучше адаптироваться к сложным задачам перевода.

Преимущества MIT-10M

Масштаб: С более чем 10 миллионами пар изображений и текстов, MIT-10M является самым большим набором данных для перевода изображений на сегодняшний день.
Качество: Все изображения имеют высокое разрешение и проходят строгую очистку, что обеспечивает высокую точность распознавания текста.
Разнообразие: Набор данных охватывает 14 языков и 28 категорий, что позволяет моделям обучаться на разнообразных сценариях и контекстах.

Модели перевода изображений

Существуют два основных подхода в области перевода изображений: каскадные методы и методы "от начала до конца".

Каскадные методы

Каскадные методы разбивают задачу на последовательные этапы, обычно начиная с применения OCR для извлечения текста, а затем используя нейронные сети для машинного перевода (NMT). Хотя эти методы концептуально просты, они подвержены ошибкам на каждом этапе, что может снизить общую точность перевода.

Методы "от начала до конца"

Эти модели стремятся напрямую переводить текст из изображений с использованием единой архитектуры. Они обычно включают визуальный энкодер для извлечения признаков изображения и текстовый декодер для генерации целевого перевода. Появление многоязычных больших языковых моделей (MLLM) значительно улучшило эффективность этих методов, позволяя более эффективно интегрировать визуальную и текстовую информацию.

Эксперименты и результаты

Мы провели обширные эксперименты для оценки многоязычных возможностей перевода 7 современных моделей IT с использованием тестового набора MIT-10M. Результаты показали, что использование MIT-10M значительно улучшает производительность моделей, особенно в сложных задачах перевода.

Оценка производительности

Мы использовали три основных метрики для оценки производительности моделей: BLEU, chrF++ и METEOR. Результаты показали, что модели, дообученные на MIT-10M, значительно превзошли базовые модели, при этом значения BLEU увеличились на 230%, chrF++ на 88%, а METEOR на 130%.

Влияние разрешения и сложности

Мы также изучили влияние разрешения изображений и сложности задач на производительность моделей. Результаты показали, что модели лучше справляются с задачами, когда используются высококачественные изображения, а также что производительность моделей снижается с увеличением сложности задач.

Заключение

MIT-10M представляет собой значительный шаг вперед в области перевода изображений, предлагая исследователям и разработчикам мощный инструмент для обучения и оценки многоязычных моделей. Набор данных охватывает широкий спектр сценариев и языков, что делает его ценным ресурсом для дальнейших исследований и разработок в этой области. В будущем мы планируем расширить поддержку дополнительных языков и улучшить качество перевода, что поможет создать более универсальные модели для перевода изображений.

Статья на arxiv Оригинал pdf translation dataset images

Ай Дайджест