ChatGPT는 소프트웨어 엔지니어링 질문의 절반 이상을 잘못 답변합니다.

준완/ZDNET

언제든지 질문에 대한 채팅 답변을 제공하는 ChatGPT의 기능 덕분에 챗봇은 귀하의 정보 요구에 유용한 리소스가 됩니다. 편리함에도 불구하고 새로운 연구에 따르면 소프트웨어 엔지니어링 주장에 ChatGPT를 사용하고 싶지 않을 수 있습니다.

AI 챗봇이 출현하기 전에 스택 오버플로는 ChatGPT와 유사한 질문 및 답변 모델을 사용하여 프로젝트에 대한 조언이 필요한 프로그래머를 위한 리소스였습니다.

또한: OpenAI의 새로운 AI 교육 웹 크롤러가 데이터를 수집하는 것을 방지하는 방법

그러나 Stack Overflow를 사용하면 다른 사람이 질문에 대답할 때까지 기다려야 하지만 ChatGPT를 사용하면 그렇지 않습니다.

그 결과 많은 소프트웨어 엔지니어와 프로그래머가 ChatGPT에 문의했습니다. ChatGPT가 이러한 유형의 프롬프트에 응답하는 데 얼마나 효과적인지 보여주는 데이터가 없기 때문에 퍼듀 대학교 연구 딜레마를 조사하십시오.

ChatGPT가 소프트웨어 엔지니어링 프롬프트에 얼마나 잘 응답하는지 확인하기 위해 연구자들은 ChatGPT 517 Stack Overflow에 질문을 제출하고 이러한 답변의 정확성과 품질을 조사했습니다.

또한: ChatGPT를 사용하여 코드를 작성하는 방법

그 결과 512개의 질문 중 ChatGPT의 답변 중 259개(52%)가 오답이었고 248개(48%)만이 정답이었습니다. 게다가 응답의 77%는 장황했습니다.

답변이 상당히 부정확했지만 결과는 답변이 전체 시간의 65%였으며 질문의 모든 측면을 다룬 것으로 나타났습니다.

ChatGPT 응답의 품질을 추가로 분석하기 위해 연구자들은 다양한 수준의 프로그래밍 경험을 가진 12명의 참가자에게 답변에 대한 통찰력을 제공하도록 요청했습니다.

또한: Microsoft의 레드 팀은 2018년부터 AI를 모니터링해 왔습니다. 다음은 5가지 큰 통찰력입니다.

참가자들은 다양한 범주에서 ChatGPT보다 스택 오버플로 응답을 선호했지만 그래프에서 볼 수 있듯이 참가자는 39.34%의 시간 동안 ChatGPT에서 생성된 오답을 올바르게 식별하지 못했습니다.

퍼듀 대학교

연구에 따르면 ChatGPT 점수의 잘 표현된 응답으로 인해 사용자는 응답의 잘못된 정보를 간과하게 되었습니다.

저자는 “사용자는 ChatGPT 답변의 포괄적이고 상세하며 인적 통찰력 때문에 ChatGPT 답변의 잘못된 정보(시간의 39.34%)를 무시합니다.”라고 썼습니다.

또한: ChatGPT가 기존 코드를 재작성하고 개선하는 방법

겉보기에 그럴듯하고 잘못된 답변을 생성하는 것은 잘못된 정보가 퍼질 수 있기 때문에 모든 챗봇에서 중요한 문제입니다. 이러한 위험 외에도 낮은 정확도 점수는 이러한 유형의 클레임에 대해 ChatGPT 사용을 재고하도록 만들기에 충분해야 합니다.

“맥주 괴짜. 사악한 대중 문화 닌자. 평생 커피 학자. 전문 인터넷 전문가. 육류 전문가.”

More From Author