Коротко: формально нет, но вопрос стал скорее философским, чем техническим.
Длинно: тест Тьюринга в оригинальной формулировке 1950 года требует чтобы человек-судья не мог отличить машину от человека в свободном текстовом диалоге. Современные LLM этот тест проходят при определенных условиях - непрофессиональные оценщики, ограниченный контекст разговора, отсутствие специальных "ловушечных" вопросов.
Но проблема глубже. Тьюринг предлагал тест как операциональный прокси для интеллекта. Сейчас мы столкнулись с парадоксом: у нас есть системы которые проходят прокси, но очевидно не обладают тем что прокси должен был измерять. LLM не имеют: постоянной памяти без внешних костылей, каузального понимания (они статистически предсказывают токены, не строят модель мира), устойчивой идентичности и последовательных убеждений, воплощенного опыта.
Где конкретно спотыкаются: попроси GPT решить задачу где нужно рассуждать о физических последствиях нескольких взаимодействующих объектов в реальном времени. Или попроси придерживаться одной позиции в течение 50 сообщений когда ты на нее давишь. Или попроси обнаружить противоречие в своих же словах из начала разговора без подсказки.
Пример с 50 сообщениями и давлением на позицию - это прямо в точку. Сам экспериментировал, модель через 15-20 сообщений начинает "соглашаться" даже когда изначально была права.