J.D. Zamfirescu-Pereira, Richmond Y. Wong, Bjoern Hartmann, and Qian Yang. 2023. Why Johnny Can’t Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI '23). Association for Computing Machinery, New York, NY, USA, Article 437, 1–21. https://doi.org/10.1145/3544548.3581388
다음은 논문 주요 내용의 번역(DeepL)
<h4>초록</h4>
GPT-3와 같이 사전 학습된 대규모 언어 모델("LLM")은 유창한 다중 턴 명령어 입력이 가능하므로 자연어 상호작용을 설계하는 데 매력적인 소재가 됩니다. 자연어를 사용하여 LLM 출력을 유도하는 것('프롬프트')은 AI 비전문가도 쉽게 접근할 수 있는 중요한 설계 기법으로 부상하고 있습니다. 그러나 효과적인 프롬프트를 만드는 것은 쉽지 않을 수 있으며 프롬프트 기반 상호 작용은 깨지기 쉽습니다. 여기서는 프롬프트 전략의 개발과 체계적인 평가를 지원하는 프로토타입 LLM 기반 챗봇 설계 도구인 디자인 프로브를 사용하여 비전문가도 '최종 사용자 프롬프트 엔지니어링'에 성공적으로 참여할 수 있는지 살펴봅니다. 궁극적으로 프로브 참가자들은 프롬프트 디자인을 체계적이지 않고 기회주의적으로 탐색했으며, 최종 사용자 프로그래밍 시스템과 대화형 머신 러닝 시스템을 반영하는 방식으로 고군분투했습니다. 인간 대 인간의 교육 경험에서 비롯된 기대와 지나치게 일반화하려는 경향이 효과적인 프롬프트 설계를 가로막는 장애물이었습니다. 이러한 연구 결과는 AI 전문가가 아닌 일반 사용자의 LLM 기반 도구 설계와 프로그래머 및 대중의 LLM 및 프롬프트 이해력 향상에 시사점을 제공하며, 추가 연구의 기회를 제시합니다.
<h4><br><br>5.1 What Do People Currently Do? Implications for Training and Education</h4>
<br><br>이번 연구를 통해 밝혀진 교육 및 훈련의 주요 기회 중 하나는 최종 사용자가 자연스러운 성향보다 더 많은 데이터를 수집해야 한다는 것입니다. 체계적인 테스트와 강력한 프롬프트 디자인(많은 사용자와 많은 대화에 걸쳐 작동하는 프롬프트를 디자인하는 것)은 사용자가 단 한 번의 대화에만 참여하거나 지속적으로 업데이트되는 경우 기본적으로 불가능합니다. 하지만 일부 상황에서는 비강력 프롬프트 디자인이 적절할 수 있습니다. 즉, 디자이너인 한 명의 사용자를 위한 챗봇의 경우 반드시 강력할 필요는 없습니다.
<br>두 번째 주요 기회는 참가자들이 안내를 받기 전에 시도한 대부분의 프롬프트 디자인 접근 방식(이 안내에 대한 자세한 내용은 §3.3 참조)이 어느 정도 효과가 있었기 때문에 참가자들이 실제로 프롬프트 변경으로 챗봇 출력에 영향을 미칠 수 있다고 느낄 수 있었지만, 예상보다 더 자주 면접관의 개입이 발생하는 막다른 골목에 부딪혔다는 사실에서 비롯되었습니다.
<br>DALL-E 2 프롬프트 북[37]과 같이 검색 가능한 예제 저장소는 사용자가 앞서 언급한 막다른 골목으로 이어지는 "디자인", "선택", "사용" 장벽을 극복하는 데 도움이 될 수 있습니다. 특히 이러한 예시에는 작동하는 구체적인 프롬프트와 그 프롬프트가 작동하는 컨텍스트가 포함되어야 하며, 이를 통해 사용자는 언제 어떤 종류의 인스트럭션을 시도할지, 어떤 종류의 샘플 대화(또는 기타 입출력 쌍)를 포함할지, 얼마나 반복할지, 얼마나 감정을 부여할지 등에 대한 기대치를 스스로 설정할 수 있습니다. 또한 예시를 통해 특정 유형의 프롬프트 디자인이 주어진 맥락에서 효과가 있는지, 그렇지 않다면 프롬프트 문구를 바꾸거나 위치를 변경하는 것이 도움이 될지 등에 대한 합리적인 기대치를 설정할 수 있습니다.
<br>셋째, 관련 연구에서 챗봇의 맥락에서 예시 입출력 쌍(예: 대화 전환 샘플)을 사용하고 프롬프트 내에서 반복을 사용하는 등 최근 문헌에서 효과적인 것으로 지지하는 몇 가지 프롬프트 디자인 접근법을 확인했습니다.그러나 일부 사용자는 면접관이 이러한 효과적인 전략을 시도해 보라고 권유해도 이를 피하는 경우도 있었습니다.이는 커뮤니케이션 연구자 클리포드 나스가 "컴퓨터는 사회적 행위자"(CASA)[35 ] 효과로 규명한 것의 결과일 수 있는데, 이 효과는 인간이 컴퓨터를 판단받는다고 느끼는 것으로 인식하면서도 자신이 적극적으로 상호작용하는 컴퓨터 시스템에 피드백을 제공하는 데 신중하다는 것을 보여줍니다. 나스의 연구 결과 중 하나는 인간이 컴퓨터에 지시하는 것이 인간이 상호작용 중인 컴퓨터가 아니라 존재하지 않는 제3자에게 적용되는 것으로 인식되면 인간은 사회적 함정, 즉 챗봇이 마치 자신이 지시하는 사회적 행위자인 것처럼 행동하는 것을 피할 수 있다는 것입니다. 이를 달성하기 위해서는 훈련과 특정 도구 설계를 결합해야 할 수 있으며, 다음 섹션에서 몇 가지 가능한 방향을 제시합니다.
<br>
넷째, 일부 사용자, 특히 프로그래밍 경험이 부족한 사용자들은 서문, 알림, 챗봇과의 대화에서 제공한 지시가 서로 다른 시간 범위를 갖는다는 점을 인식하는 데 어려움을 겪었습니다. 특히 대화 중 지시는 향후 대화에 아무런 영향을 미치지 않았으며, GPT-3에 전송되는 프롬프트는 서문과 진행 중인 단일 대화로만 구성되며 알림-사전 대화는 어떤 의미에서도 "기억"되지 않았습니다.이 문제는 소셜 대화형 인터페이스를 제공하는 챗봇에서 특히 두드러질 수 있지만, 사용자가 반복해야 한다는 느낌이나 "이미 말했잖아"라는 느낌으로 인한 불만을 피하려면 사용자가 지침이 적용되는 구체적인 라이프사이클을 이해하도록 하는 것이 중요합니다.마지막으로, 일반적으로 참가자들이 체계적인 테스트에 참여하지 않는다는 조사 결과를 바탕으로 사용자가 프롬프트에 대한 체계적인 테스트에 참여하도록 하려면 다음과 같이 교육하고 장려해야 한다는 점을 강조하며 교육에 대한 이 섹션을 마무리합니다.
마지막으로, 일반적으로 참가자들이 체계적인 테스트에 참여하지 않는다는 조사 결과를 바탕으로 사용자가 프롬프트에 대한 체계적인 테스트에 참여하도록 하려면 사용자가 그렇게 하도록 교육하고 장려해야 한다는 점을 강조하며 교육에 대한 이 섹션을 마무리합니다.