AI VIDEO BRIEFING
챗GPT 5.5 인스턴트 분석: 환각 절반 감소와 생물안전 우회 취약점
Two Minute Papers가 챗GPT 5.5 인스턴트를 분석한다. 의료·법률 환각이 절반으로 줄고 즉답 모델이 추론 모델에 근접했지만, 다중 턴 적대적 프롬프트에 대한 거부율이 떨어져 분류기로 보완했다는 점을 짚는다.

핵심 메시지
쉽게 이해하기
화제는 늘 ‘생각하는’ 프런티어 모델이지만, 실제로 수억 명이 쓰는 것은 즉답형 인스턴트 버전이라고 영상은 짚는다. 새 인스턴트 모델의 좋은 소식은 의료·법률 영역의 환각률이 대략 절반으로 줄었다는 점이다.
또한 이 즉답 모델은 일부 과제에서 세계 최고 수준의 추론 모델에 근접했다. 실제 실험 오류를 다루는 ‘트러블슈팅 벤치’에서는 박사급 전문가가 약 36%를 받는데, 새 모델이 그 바로 아래까지 즉답으로 따라붙었다. 사이버보안에서는 이전 세대 추론 모델을 능가하기까지 했다. 다만 발표자는 이런 벤치마크가 개발사 1차 출처라는 점을 가려 봐야 한다고 덧붙인다.
헬스벤치는 답을 길게 쓸수록 점수가 오르는 허점이 있었고, AI 연구소들이 이 장황함 보상을 이용해 왔다. 이를 막기 위해 긴 답에 벌점을 주는 ‘길이세’가 도입됐다. 5.5는 더 길게 쓰고도 점수가 올랐는데, 이는 보정이 작동하는 동시에 모델이 조금 더 똑똑해졌음을 뜻한다.
나쁜 소식은 안전성이다. 오픈AI가 모델 단독으로 위험한 생물학 프롬프트를 거부할 수 있는지 시험한 결과, 어려운 합성 적대적 케이스에서 거부율이 약 절반으로 떨어졌다. 다중 턴 롤플레이로 우회하는 데 더 약했던 것이다. 전문가가 한 번 우회 프롬프트를 만들면 평범한 사용자가 그대로 복사해 쓸 수 있어 위험이 확산된다.
오픈AI는 이를 그대로 출시하지 않고 분류기로 패치했다. 질문이 본 모델에 닿기 전 작은 모델(‘경비원’)이 먼저 걸러내고, 답변도 또 다른 분류기가 점검한다. 효과는 매우 좋았지만, 발표자는 모델 자체가 아니라 사후 보완이라는 점을 우려한다 — 트랙이 위험한 차를 고치는 대신 트랙 둘레에 가드레일을 세우는 격이라는 것이다.
주요 인사이트
- 화제는 프런티어 추론 모델이지만, 실제 영향이 가장 큰 것은 평범한 사람들이 즉답으로 쓰는 인스턴트 모델이다.
- 벤치마크는 정치의 대법원처럼 중립을 표방하지만, 개발사 1차 출처 결과는 제3자 출처와 구분해 가려 봐야 한다.
- 모델은 말을 더 많이 해서 이겨선 안 된다 — 장황함 보상을 막는 ‘길이세’가 작동하기 시작했다.
- 전문가가 한 번 다중 턴 우회 프롬프트를 만들면 평범한 사용자가 그대로 복사해 쓸 수 있어 위험이 빠르게 확산된다.
- 안전을 모델 수준이 아니라 사후 분류기 수준에서 막으면 문제를 파이프라인 깊숙이 남길 수 있다는 우려가 있다.
자주 묻는 질문
새 인스턴트 모델의 가장 큰 개선점은?
의료·법률 영역 환각률이 대략 절반으로 줄었고, 트러블슈팅·사이버보안 등 일부 과제에서 즉답으로 추론 모델에 근접하거나 이전 세대 추론 모델을 능가했다.
‘길이세(length tax)’란 무엇인가?
헬스벤치에서 답을 길게 쓸수록 점수가 높아지는 허점을 막기 위해 긴 답에 벌점을 주는 장치다. 5.5는 더 길게 쓰고도 점수가 올라, 보정이 작동하면서 모델도 조금 더 똑똑해졌음을 보여준다.
생물안전 취약점은 어떻게 처리했나?
어려운 다중 턴 적대적 프롬프트에 모델 단위 거부율이 절반으로 떨어지자, 질문과 답변을 각각 검사하는 분류기(‘경비원’)를 추가해 막았다. 효과는 좋았지만 모델 자체가 아닌 사후 보완이라는 우려가 남는다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗