Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "api"

Evalica: Надежные и Быстрые Лидирующие Таблицы для Оценки Моделей NLP

Быстрые достижения технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требуют разработки современных протоколов оценки с человеческой и машинной обратной связью. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который упрощает создание надежных и воспроизводимых таблиц лидеров моделей. В этой статье мы представляем его дизайн, оцениваем его производительность и демонстрируем его удобство через веб-интерфейс, интерфейс командной строки и Python API.

apinlpfeedback

Рассвет GUI-агентов: Предварительное исследование с использованием Claude 3.5 Computer Use

Вот перевод текста на русский язык: --- Недавно выпущенная модель, Claude 3.5 Computer Use, выделяется как первая модель искусственного интеллекта на передовой, предоставляющая возможность использования компьютера в публичной бета-версии в качестве агента графического интерфейса пользователя (GUI). Будучи ранней бета-версией, её способность функционировать в реальном и сложном мире остается неизведанной. В рамках данного кейс-стади для исследования возможностей Claude 3.5 Computer Use, мы собрали и организовали набор тщательно разработанных задач, охватывающих различные области и программное обеспечение. Наблюдения из этих случаев демонстрируют беспрецедентную способность Claude 3.5 Computer Use к преобразованию языка в действия на рабочем столе от начала до конца. Вместе с этим исследованием мы предоставляем готовую к использованию платформу агента для развертывания моделей автоматизации GUI на основе API с легкостью внедрения. Наши кейс-стади направлены на демонстрацию основных возможностей и ограничений Claude 3.5 Computer Use с детальным анализом, а также на выявление вопросов, связанных с планированием, действием и критикой, которые необходимо учитывать для будущего улучшения. Мы надеемся, что это предварительное исследование вдохновит будущие исследования в сообществе агентов GUI. Все тестовые случаи, описанные в статье, можно попробовать через проект: https://github.com/showlab/computer_use_ootb.

guimodelapi