Ай Дайджест - категория images

MIT-10M: Новый стандарт в области перевода изображений

Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержание внутри изображений на различные языки. Однако существующие наборы данных часто страдают от ограничений по масштабу, разнообразию и качеству, что препятствует разработке и оценке моделей IT. Чтобы решить эту проблему, мы представляем MIT-10M, крупномасштабный параллельный корпус многоязычного перевода изображений с более чем 10 миллионами пар изображений и текста, полученных из реальных данных, которые прошли тщательную очистку и проверку многоязычного перевода. Он содержит 840 тысяч изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 языков пар изображений и текста, что является значительным улучшением существующих наборов данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает высокой адаптивностью при оценке производительности моделей в решении сложных задач перевода изображений в реальном мире. Более того, производительность модели, дообученной на MIT-10M, утроилась по сравнению с базовой моделью, что дополнительно подтверждает ее превосходство.

2024-12-12translation performance images

Визуализация предпочтений: Революция в персонализации рекомендаций

Мы предполагаем, что визуальная история пользователя, отражающая его повседневную жизнь, предоставляет ценные сведения о его интересах и предпочтениях, и может быть использована для персонализации. Среди множества задач, стоящих перед нами, наиболее важной является разнообразие и шум в визуальной истории, содержащей изображения, которые не обязательно связаны с задачей рекомендации, не обязательно отражают интересы пользователя или даже не имеют отношения к его предпочтениям. Существующие системы рекомендаций либо опираются на специфические для задачи логи взаимодействия пользователя, например, история онлайн-покупок для рекомендаций покупок, либо сосредотачиваются на текстовых сигналах. Мы предлагаем новый подход, VisualLens, который извлекает, фильтрует и уточняет представления изображений и использует эти сигналы для персонализации. Мы создали две новые эталонные базы данных с визуальными историями, не зависящими от конкретных задач, и показали, что наш метод улучшает рекомендации по сравнению с передовыми методами на 5-10% по метрике Hit@3, и превосходит GPT-4o на 2-5%. Наш подход открывает путь для персонализированных рекомендаций в сценариях, где традиционные методы не работают.

2024-11-26benchmarks filtering recommendation