11월 15, 2024

Wpick

지상에서 한국의 최신 개발 상황을 파악하세요

ChatGPT는 소프트웨어 엔지니어링 질문의 절반 이상을 잘못 답변합니다.

준완/ZDNET

언제든지 질문에 대한 채팅 답변을 제공하는 ChatGPT의 기능 덕분에 챗봇은 귀하의 정보 요구에 유용한 리소스가 됩니다. 편리함에도 불구하고 새로운 연구에 따르면 소프트웨어 엔지니어링 주장에 ChatGPT를 사용하고 싶지 않을 수 있습니다.

AI 챗봇이 출현하기 전에 스택 오버플로는 ChatGPT와 유사한 질문 및 답변 모델을 사용하여 프로젝트에 대한 조언이 필요한 프로그래머를 위한 리소스였습니다.

또한: OpenAI의 새로운 AI 교육 웹 크롤러가 데이터를 수집하는 것을 방지하는 방법

그러나 Stack Overflow를 사용하면 다른 사람이 질문에 대답할 때까지 기다려야 하지만 ChatGPT를 사용하면 그렇지 않습니다.

그 결과 많은 소프트웨어 엔지니어와 프로그래머가 ChatGPT에 문의했습니다. ChatGPT가 이러한 유형의 프롬프트에 응답하는 데 얼마나 효과적인지 보여주는 데이터가 없기 때문에 퍼듀 대학교 연구 딜레마를 조사하십시오.

ChatGPT가 소프트웨어 엔지니어링 프롬프트에 얼마나 잘 응답하는지 확인하기 위해 연구자들은 ChatGPT 517 Stack Overflow에 질문을 제출하고 이러한 답변의 정확성과 품질을 조사했습니다.

또한: ChatGPT를 사용하여 코드를 작성하는 방법

그 결과 512개의 질문 중 ChatGPT의 답변 중 259개(52%)가 오답이었고 248개(48%)만이 정답이었습니다. 게다가 응답의 77%는 장황했습니다.

답변이 상당히 부정확했지만 결과는 답변이 전체 시간의 65%였으며 질문의 모든 측면을 다룬 것으로 나타났습니다.

ChatGPT 응답의 품질을 추가로 분석하기 위해 연구자들은 다양한 수준의 프로그래밍 경험을 가진 12명의 참가자에게 답변에 대한 통찰력을 제공하도록 요청했습니다.

또한: Microsoft의 레드 팀은 2018년부터 AI를 모니터링해 왔습니다. 다음은 5가지 큰 통찰력입니다.

참가자들은 다양한 범주에서 ChatGPT보다 스택 오버플로 응답을 선호했지만 그래프에서 볼 수 있듯이 참가자는 39.34%의 시간 동안 ChatGPT에서 생성된 오답을 올바르게 식별하지 못했습니다.

퍼듀 대학교

연구에 따르면 ChatGPT 점수의 잘 표현된 응답으로 인해 사용자는 응답의 잘못된 정보를 간과하게 되었습니다.

저자는 “사용자는 ChatGPT 답변의 포괄적이고 상세하며 인적 통찰력 때문에 ChatGPT 답변의 잘못된 정보(시간의 39.34%)를 무시합니다.”라고 썼습니다.

또한: ChatGPT가 기존 코드를 재작성하고 개선하는 방법

겉보기에 그럴듯하고 잘못된 답변을 생성하는 것은 잘못된 정보가 퍼질 수 있기 때문에 모든 챗봇에서 중요한 문제입니다. 이러한 위험 외에도 낮은 정확도 점수는 이러한 유형의 클레임에 대해 ChatGPT 사용을 재고하도록 만들기에 충분해야 합니다.