Ай Дайджест - категория experiment

Исследование механизмов неявного рассуждения у крупных языковых моделей (LLM)

Известно, что цепочка рассуждений (Chain-of-Thought) может значительно улучшить производительность моделей языкового обучения (LLMs) при выполнении сложных задач. Однако, поскольку это также приводит к более медленным скоростям вывода и увеличению вычислительных затрат, многие исследования пытались использовать неявную цепочку рассуждений (implicit CoT), которая не требует от моделей явного генерирования промежуточных шагов. Однако между эффективностью этих методов и традиционными явными методами CoT все еще существует разрыв. Это вызывает сомнения в том, действительно ли неявная CoT равнозначна явной CoT? Поэтому в данном исследовании мы рассматриваем этот вопрос через эксперименты. Мы анализируем информацию о промежуточных шагах из скрытых состояний модели во время выполнения неявной CoT. Результаты удивительно показывают, что LLM почти не думают о промежуточных шагах, что наводит на мысль, что они могут полагаться скорее на опыт, чем на строгое пошаговое рассуждение. Более того, мы обнаружили, что способности моделей к неявному рассуждению подвержены воздействиям и нестабильны, что подтверждает необходимость явной CoT для эффективной поддержки сложных задач.

2024-11-26llm experiment inference

Оценка потенциала ИИ в научных исследованиях: Бенчмарк AAAR-1.0

Многочисленные исследования оценивали эффективность систем ИИ, особенно крупных языковых моделей (LLM), в выполнении повседневных задач, таких как написание электронных писем, ответы на вопросы и создание креативного контента. Однако исследователи сталкиваются с уникальными вызовами и возможностями при использовании LLM для своей работы, например, для мозгового штурма исследовательских идей, проектирования экспериментов и написания или рецензирования научных статей. В данном исследовании мы представляем AAAR-1.0, набор данных для оценки, разработанный для оценки производительности LLM в трех основных, требующих высокой квалификации, исследовательских задачах: (i) EquationInference — оценка корректности уравнений на основе контекстной информации в представленных статьях; (ii) ExperimentDesign — проектирование экспериментов для проверки исследовательских идей и решений; (iii) PaperWeakness — выявление слабых мест в представленных статьях; и (iv) REVIEWCRITIQUE — определение, какие сегменты в рецензиях людей недостаточны или нет. AAAR-1.0 отличается от предыдущих эталонных тестов двумя ключевыми способами: во-первых, он ориентирован на исследования, с задачами, требующими глубоких знаний в области; во-вторых, он ориентирован на исследователей, отражая основные виды деятельности, которыми исследователи занимаются ежедневно. Оценка как открытых, так и проприетарных LLM выявляет их потенциал, а также ограничения в проведении сложных исследовательских задач. Мы будем продолжать итерацию AAAR-1.0 до новых версий.

2024-11-01evaluation inference dataset