Советы ChatGPT программистам оказываются бесполезными в более чем половине случаев

08.08.23 15:09

Artificial_Intelligence_Human_Intelligence

Чат-бот ChatGPT более чем в половине случаев дает неверные ответы на вопросы по теме программирования, пишет The Register со ссылкой на результаты исследования, проведенного учеными Университета Пердью (штат Индиана, США). При этом даже некорректная информация, выданная детищем компании OpenAI, нередко воспринимается его пользователями как достоверная.

Команда исследователей проанализировала ответы ChatGPT на 517 вопросов, размещенных на популярной платформе для программистов Stack Overflow на предмет их корректности, последовательности, полноты и лаконичности. Специалисты также провели лингвистический и сентимент-анализ (анализ тональности) текста, выдаваемого ботом.

Затем участникам исследования в составе группы из 12 человек с различным опытом в сфере разработки программного обеспечения было в частности, предложено, определить, какой из ответов – данный ChatGPT или реальным человеком с платформы Stack Overflow – является правильным.

Исследование показало, что в 52% случаев ответы ChatGPT на вопросы, связанные с написанием программного кода, содержали ошибки. Тем не менее в 39,34% случаев эти ответы (77% из которых названы подробными) оказались в достаточной степени убедительными для участников исследования, поскольку отличались полнотой и были четко сформулированы.

Из препринта работы под названием “Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions”, опубликованного на площадке arxiv.org, также следует, что участникам исследования удавалось обнаружить ошибки в выдаче чат-бота OpenAI лишь тогда, когда они были совершенно очевидными.

Однако в случаях, когда для выявления ошибки было необходимо обращение к документации или к инструментам разработчика (например, к интегрированной среде разработки; IDE) с целью проверки работоспособности предложенного фрагмента кода на практике, участники исследования часто не справлялись с поставленной задачей вовсе или были склонны недооценивать серьезность ошибки.

Даже в ситуациях, когда ошибка в ответе ChatGPT оказывалась вопиющей, двое из 12 участников исследования отдавали предпочтение рекомендациям бота, а не пользователя Stack Overflow. По мнению авторов научной работы, такое поведение подопытных обусловлено формой подачи материала чат-ботом. Участникам исследования, как выяснилось, импонировали вежливость ChatGPT, точность использованных им формулировок и его стремление придерживаться научного стиля речи. Эти стилистические особенности, генерируемого чат-ботом текста, в совокупности с развернутостью предлагаемых им ответов убедили испытуемых в их правильности.

ChatGPT склонен к концептуальным ошибкам

Среди прочих любопытных наблюдений, зафиксированных в работе, – склонность ChatGPT к совершению концептуальных ошибок и в гораздо меньшей степени – фактологических, что обусловлено непониманием ботом контекста заданного ему вопроса.

В мае 2023 г. СМИ писали о том, что американский юрист Стивен Шварц (Steven Schwartz) использовал ChatGPT для подготовки документов по иску к компании Avianca. Попытка упростить свой труд с помощью алгоритмов обернулась для адвоката катастрофой – разработка OpenAI снабжала его недостоверной информацией, о чем опытный юрист даже не догадывался.

При этом на своем официальном сайте OpenAI предупреждает о том, что ChatGPT «может давать неточную информацию о людях, местах и фактах».