최근 화제의 논문. "Stealing Part of a Production Language Model" 입니다. API 로만 접근가능한 블랙박스 LLM 모델 (대표적으로 ChatGPT, Google PaLM 등) 을 API 로 모델의 최상위 레이어인 embedding projection layer 를 추측할 수 있다고 합니다. 이 의미는 API 만으로 공개되지 않은 모델의 final dimension 을 알아챈다는 것이고 그다음에 그 차원 에 속하는 weight 까지 추출할 수 있다는 것. 이 정보를 가지고 GPT3.5 turbo 모델을 $200 정도의 API 사용만으로 dimension 을 추론해냈고 $2,000 정도로 weight 까지도 알아냈다고 합니다. 이 연구에는 Google DeepMind, OpenAI 연구원등이 참여했구요. 구글과 OpenAI 연구원들이 함께 서로의 모델을 얼마나 추론할 수 있는지 공유하는 그런 연구인건가... 아무튼 그리고 나서 이러한 attack 을 완화시키기 위한 방법들도 포함되어 있습니다. (실제로 이 연구 이후 API 에서 사용가능한 옵션이 일부 변경된듯..) yc 댓글에서 일부 공감이 되는 부분이 있는데, 이러한 연구를 스스로 Steal 이라고 칭하고 또 attack 이라는 단어를 쓰고 있는데.. 이걸 그렇게까지 부정적으로 표현하는게 아무래도 구글과 OpenAI 입장에서 쓴 표현이라는 생각이 듭니다. reverse engineering 정도로 봐야 할듯.
Stealing Part of a Production Language Model | Hacker News
renonce 16 hours ago | next [–] It’s stealing the last layer (softmax head), not an arbitrary part, also it targets “production models wh…