Стратегии управления во время выполнения, такие как Medprompt, ценны для направления больших языковых моделей (LLM) к достижению наивысших результатов на сложных задачах. Medprompt демонстрирует, что общая LLM может быть настроена на достижение передовых результатов в специализированных областях, таких как медицина, с использованием запроса для вызова стратегии выполнения, включающей цепочку рассуждений и ансамблевое обучение. Модель o1-preview от OpenAI представляет собой новый подход, где модель разработана для выполнения рассуждений во время выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение o1-preview на разнообразном наборе медицинских задач и бенчмарков. Следуя исследованию Medprompt с использованием GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Отмечено, что даже без техник подсказок, o1-preview значительно превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, как это представлено в Medprompt, в новом парадигме моделей с рассуждениями. Мы обнаружили, что методы подсказок на основе нескольких примеров (few-shot prompting) снижают производительность o1, что предполагает, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей, изначально предназначенных для рассуждений. Хотя ансамблевый метод остается жизнеспособным, он требует значительных ресурсов и тщательной оптимизации соотношения стоимости и производительности. Наш анализ стоимости и точности по стратегиям выполнения выявляет границу Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов, но при более высокой стоимости. Хотя o1-preview предлагает наивысшую производительность, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет свою ценность в определенных контекстах. Кроме того, мы отмечаем, что модель o1-preview достигла почти насыщения на многих существующих медицинских бенчмарках, что подчеркивает необходимость новых, сложных бенчмарков. Мы заканчиваем размышлениями о общих направлениях для вычислений во время вывода с использованием LLM.