AIGC 진화: 단일 궤적과 초지능
DAOrayaki
2023-01-28 13:30
本文约5230字,阅读全文需要约21分钟
지난 20년 동안 인공 지능, 로봇 공학 및 제조의 발전, 특히 최근 AIGC의 발전을 관찰한 후 일부 지표는 기술이 특이점을 향해 가속되고 있음을 보여주었습니다.

원본: 단일 궤적

1999년 Ray Kurzweil은 다음과 같은 예측을 했습니다.

2009년에 컴퓨터는 고품질이지만 전통적인 디스플레이를 갖춘 태블릿 또는 소형 장치가 될 것입니다.

2019년에 컴퓨터는 대부분의 이미지가 망막에 직접 투사되어 "본질적으로 보이지" 않을 것입니다.

2029년에는 컴퓨터가 직접적인 신경 경로를 통해 통신할 것입니다.

지난 20년간 인공지능, 로봇, 제조업의 발전, 특히 최근 AIGC의 발전을 보면 기술의 발전이 특이점을 향해 가속되고 있다는 지표가 있다.

기술적 특이점

singularity의 원래 의미는 "singularity, prominence, rarity"를 의미하기도 하며, 이러한 의미는 점차 자연과학으로 확장되어 처음에는 수학 분야에 적용되었고, 이후 물리학과 천문학 분야로 확장되었습니다. 다양한 버전의 "기술적 특이성" 예측이 뒤따랐습니다.

기술적 특이점 "버전 1.0":

1958년 폴란드 수학자 Stanisław Marcin Ulam이 "기술적 특이점"이라는 개념을 처음 제안했습니다. 우리가 알고 있는 그 어떤 것도 계속되지 않을 것입니다." 그리고 세상은 뒤집어질 것입니다.

기술적 특이점 "버전 2.0":

1993년 컴퓨터 과학자이자 공상과학 작가인 Vernor Vinge는 그의 기사 "The Coming Technology Singularity"에서 "기술 특이점"의 도래는 인간의 도래를 의미할 것이라고 썼습니다. 새로운 초지능이 계속해서 스스로를 업그레이드하고 놀라운 속도로 기술적 진보를 이루면서 "기술적 특이점"의 출현.

기술적 특이점 "버전 3.0":

2005년 Singularity University의 창립자이자 총장이자 Google의 기술 이사인 Ray Kurzweil은 그의 저서 "The Singularity Is Near"에서 "기술적 특이점"의 개념을 재조정했습니다. 시간은 2045년에 기술 특이점이 나타날 것이라고 예측했습니다. 그는 "기술 특이점"이란 급속하고 광범위한 기술 변화가 미래에 인간의 삶에 가져올 돌이킬 수 없는 변화를 의미하며 주로 인공 지능의 급속한 발전을 가리킨다고 믿는다. 특이점은 우리가 생물학적 신체와 뇌의 한계를 초월할 수 있게 해줄 것이며, 미래에는 인간과 기계의 구분이 없을 것입니다.

기술적 특이점 "버전 4.0":

2013년 옥스퍼드대학교 인류미래연구소의 앤더스 샌드버그 선임연구원은 '기술적 특이점'의 범위를 넓혔다.

GPT 유저, 동반자를 꿈꾸시나요?

2022년 11월 30일 OpenAI는 대화형 인터페이스이자 대규모 언어 모델인 ChatGPT를 출시했습니다. 많은 사람들에게 지금은 혁명적인 순간입니다. 결과는 놀랍고 시간을 절약하며 대답은 설득력이 있습니다(OpenAI가 대답하는 것이 안전하다고 생각할 때).

오늘날 LLM을 사용하면 도메인 전문가가 몇 분 동안 심의하고 온라인 포럼에서 몇 시간 동안 토론하는 데 몇 초 만에 불완전하지만 효과적인 답변을 얻을 수 있다는 것이 놀랍습니다.

챗봇은 항상 사람들이 갈망하는 동반자였습니다. 튜링 테스트 이면의 동기는 몰입을 깨지 않는 챗봇을 원하는 것일 수 있습니다.

남은 테스트는 사회적 동물인 인간이 디지털 두뇌로 강화될 수 있는지 여부입니다. 우리는 함께 사냥하고, 함께 농사를 짓고, 이제 산업 규모 기계의 관리자와 운영자의 광대한 완충 지대라고 할 수 있는 사회는 그 어느 때보다 더 사회적입니다.

인간은 비판적 사고와 반복적인 실패를 통해 획득한 다양한 지식을 복제하거나 "구글"을 선택하여 저항이 가장 적은 경로를 최적화합니다. ChatGPT의 출현: 학생들은 LLM을 사용하여 논문을 작성하고 좋은 성적을 받을 수 있습니다. 스택 오버플로는 개인적 이익을 위해 시빌 공격을 받을 수 있으며 청중(프로그래머)은 어떻게든 딥페이크의 교향곡에 따를 수 있습니다. Script Kiddies는 ChatGPT가 맬웨어임을 나타낼 수 있습니다. LLM의 주류 사용이 특히 건전하고 효과적이며 다양한 사고 측면에서 생산적인 능력을 손상시키고 있습니까?

특이점 이전의 마지막 인형극

AI가 미칠 수 있는 가장 심오한 영향은 인적 자본 할당 문화에 있습니다. 최근 의견은 ChatGPT에 대한 반응을 잘 설명합니다.

가장 행복한 사람은 기계가 분명히 쓰기 작업을 할 수 있다는 사실을 발견하고 놀란 사람들입니다.

지금까지는 모든 것이 예상대로입니다. 역사를 돌아보면 사람들은 종종 새로운 통신 기술의 단기적 영향을 과대평가하고 장기적 영향을 심하게 과소평가합니다. 인쇄물, 영화, 라디오, 텔레비전, 인터넷도 마찬가지입니다.

AI의 영향을 이해하기 위해 우리는 중장기적 결과를 추측하기 위해 단기적인 중단을 분리하려고 합니다.

그렇긴 하지만, 이 랠리를 설명하는 좋은 방법은 아마도 시장 역학을 통해서일 것입니다. AI 도우미는 콘텐츠 제작의 희소성을 변화시켜 어느 정도 시장 조성자가 됩니다. 속담의 "지니"가 "병"을 떠날 때마다 소비자는 시장 가격을 재조정하고 최적이 아닌 공급업체를 단계적으로 제거함으로써 비대칭적으로 이익을 얻습니다. 차례로 AI 기반 생산 공급 업체는 시간이 지남에 따라 더 많은 자본을 축적했습니다.

교육 데이터 세트를 생성하기 위해 전체 인터넷을 크롤링할 수 있는 회사의 과점이 있다고 주장할 수 있습니다. 아마도 제한된 수의 SaaS만이 이러한 리소스를 소비하여 새로운 ML 모델을 생성할 수 있습니다. ML 기반 상거래가 충분히 불안정해지면 PMF를 달성하고 유지할 수 있는 사람이 줄어들 수 있습니다. 과거에 우리는 HAL 9000, Skynet 및 Butlerian Jihad와 같은 심리적 전술에 속았습니다.

많은 기업과 지능형 에이전트가 AI 경제의 희소성을 위해 협력합니다. 현재의 자본주의 사회가 사회경제적 계급, 인권/재산권과 같은 기본 원칙을 단계적으로 폐지하거나 어떤 형태의 대량 살상을 가속화할 수 있는 부정적인 피드백 없이 기술 관료를 생산할 가능성은 얼마나 됩니까?

진부하게 들릴지 모르지만 사회가 작동하는 방식에 근본적인 영향을 미칠 변곡점을 조심해야 합니다. 지금부터 1년 후, 누군가는 특정 AI 의존 제품에 대한 빠른 입법이나 튤립 열풍을 일으킬 수 있습니다. 5~10년 안에 개인 소유 경제, 기존 정부 형태, 개인의 자율성/소비가 청산될 것입니다. "Megacorp" 모델은 중단 프로세스 전반에 걸쳐 계속 지배적일 수 있으며 우리는 "사이버 상태" 또는 더 Orwellian에 있는 자신을 발견할 수 있습니다. 모든 것은 컴퓨터(어떤 수단을 통해 얻든)가 오늘날 사회의 많은 운영 및 경제 기능을 포괄하기 위해 자연어의 집합적 사용을 컴파일할 것이기 때문입니다. 타임라인이 무엇이든 간에 이것은 "특이점" 훨씬 이전의 분명한 변곡점이 될 것입니다.

방법 및 기술

이미지 설명

OpenAI의 RLHF 다이어그램

그러나 NLP를 "완벽하게" 만드는 데는 어려움이 있습니다.

이러한 기술은 매우 유망하고 영향력이 크며 인공 지능 분야에서 가장 큰 연구실의 관심을 끌었지만 분명한 한계가 있습니다. 이러한 모델은 불확실성 없이 유해하거나 실제로 부정확한 텍스트를 출력할 수 있습니다. 이러한 불완전성은 RLHF에 대한 오랜 도전과 원동력을 나타냅니다. 본질적으로 인간의 문제 영역에서 작동한다는 것은 모델이 완료로 표시되기 위해 교차해야 할 명확한 결승선이 없다는 것을 의미합니다.

RLHF를 사용하여 시스템을 배포할 때 인간의 선호도 데이터 수집은 의무적이고 의도적인 인적 요소로 인해 비용이 많이 듭니다. RLHF 성능은 InstructGPT의 초기 LM 미세 조정과 같은 사람이 생성한 텍스트와 모델 출력 사이에 사람이 선호하는 레이블의 두 가지 종류로 제공되는 사람이 주석을 다는 품질만큼만 우수합니다.

특정 프롬프트에 응답하기 위해 잘 작성된 사람의 텍스트를 생성하는 것은 제품 사용자나 크라우드소싱에 의존할 수 있는 것이 아니라 파트타임 직원을 고용해야 하는 경우가 많기 때문에 엄청난 비용이 듭니다. 고맙게도 대부분의 RLHF 애플리케이션에 대한 보상 모델을 교육하는 데 사용되는 데이터 크기(~50k 레이블이 지정된 기본 설정 샘플)는 그렇게 비싸지 않습니다. 그러나 여전히 학술 연구실이 감당할 수 있는 것보다 더 많은 비용이 듭니다.

현재 일반 언어 모델(Anthropic의)을 기반으로 하는 RLHF용 대규모 데이터 세트와 여러 개의 작은 작업별 데이터 세트(예: OpenAI의 요약 데이터)가 있습니다. RLHF 데이터 문제는 주석자 편향입니다. 여러 사람 어노테이터가 동의하지 않아 교육 데이터에 약간의 잠재적 변동이 발생할 수 있습니다.

RLHF는 자연어 처리(NLP)를 넘어 기계 학습에 적용될 수 있습니다. 예를 들어 Deepmind는 다중 모드 에이전트에 대한 사용을 탐색했습니다. 이 경우에도 동일한 문제가 적용됩니다.

확장 가능한 강화 학습(RL)은 쿼리 비용이 저렴한 정확한 보상 기능에 의존합니다. RL을 적용할 수 있을 때 인간의 재능 분포의 극단과 일치할 수 있는 AI를 생성하여 큰 성공을 거두었습니다(Silver et al., 2016; Vinyals et al., 2019). 그러나 이 보상 기능은 사람들이 정기적으로 참여하는 많은 개방형 행동에 대해서는 잘 알려져 있지 않습니다. 예를 들어, 누군가에게 "가까이 머그잔을 들고"라고 요청하는 일상적인 상호작용을 생각해 보십시오. 보상 모델이 그러한 상호 작용을 적절하게 평가할 수 있으려면 자연어로 요청을 할 수 있는 여러 가지 방법과 요청이 이행될 수 있는(또는 수행되지 않는) 여러 가지 방법에 대해 견고해야 합니다. 변수(컵의 색상)와 언어의 내재적 모호성("가까운"이란 무엇입니까?) 무감각함.

따라서 RL을 통해 더 광범위한 전문가 수준의 기능을 주입하려면 인간 행동의 복잡성, 가변성 및 모호성을 존중하는 정확하고 쿼리 가능한 보상 함수를 생성하는 방법이 필요합니다. 보상 기능을 프로그래밍하는 대신 한 가지 옵션은 기계 학습을 사용하여 보상 기능을 구축하는 것입니다. 보상 이벤트를 예측하고 공식적으로 정의하는 대신 인간에게 상황을 평가하고 감독 정보를 제공하여 보상 기능을 배우도록 요청할 수 있습니다. 인간이 그러한 판단을 자연스럽고 직관적이며 신속하게 제공할 수 있는 상황에서 이러한 학습 보상 모델을 사용하는 RL은 에이전트를 효과적으로 개선할 수 있습니다(Christiano et al., 2017; Ibarz et al., 2018; Stiennon et al., 2020 Year;)

Singularity로 이어지는 많은 요소는 아직 개발되지 않았으며, 이를 구현하는 데 걸리는 시간보다 더 확실하게 무엇인지 결정할 수 있습니다. Chris Lattner는 자신의 POV에서 "희박하게 게이트된 전문가 구성"을 언급했습니다.

간단히 설명하면 많은 "전문가"의 입력을 선별하고 결합하는 중개자가 있을 수 있습니다.

이것은 추가 연구를 위한 넓은 설계 공간을 제공합니다. 중간 계층이 다르게 선택했어야 했을 수도 있습니다.

예를 들어 공간 데이터를 사용합니다.

이미지 설명

텍스트


텍스트

제조업의 피드백은 좋았지만 의료 부문이 가장 필요했습니다. 바로 지금, 우리는 소매 바이오센서의 얼리어답터입니다. 시간이 지남에 따라 동형암호는 기계 학습이 방대한 양의 건강 데이터를 활용할 수 있도록 할 것입니다. 우리는 수만 년 동안 약물 소비를 크라우드소싱해 왔지만, 시간에 관계없이 임의의 물질을 투여할 수 있는 인공 지능과 어떻게 공존할지는 두고 볼 일입니다. 동시에 동형 암호화는 효율성 문제로 인해 아직 사용되지 않습니다.

Google Brain은 방금 Robotics Transformer-1을 출시했습니다. 첫 번째 릴리스에서는 단순한 작업을 수행하는 팔일 수 있지만 공통 빌드 환경에서 더 많은 토큰화된 작업으로 반복하는 것이 분명히 가능합니다. 세계 경제는 화물을 중심으로 하고 있기 때문에 현재 전 세계에 약 6,000척이 있는 것과 비교하여 100척 이상의 "무배출" 컨테이너선이 이러한 시설에서 건조되는 것이 합리적입니다. 또한 구역 조례가 완전한 효력을 발휘하도록 허용하는 주택 위기 상황에서 큰 변화가 될 것입니다.

또한 AGI 기능 개발을 위한 12가지 합리적인 단계인 앨버타 계획을 언급해야 합니다.

"로드맵"이라는 용어는 일련의 단계를 순차적으로 수행하고 통과해야 하는 선형 경로를 그리는 것을 의미합니다. 완전히 틀린 것은 아니지만 연구의 불확실성과 기회를 인식하지 못하는 것입니다. 아래에서 설명하는 단계는 처음부터 끝까지 일련의 단계가 아니라 여러 상호 의존성을 가집니다. 로드맵은 자연스러운 순서를 제시하지만 실제로는 이 순서에서 벗어나는 경우가 많습니다. 어떤 단계에든 들어가거나 붙임으로써 유용한 연구를 할 수 있습니다. 예를 들어, 우리 중 많은 사람들이 최근에 통합 아키텍처에서 흥미로운 발전을 이뤘지만 이러한 발전은 시퀀스의 마지막 단계에서만 나타났습니다.

먼저 로드맵과 그 근거에 대한 일반적인 아이디어를 얻으려고 노력합시다. 다음과 같은 12단계가 있습니다.

1. 표현 I: 주어진 기능을 사용한 지속적인 감독 학습. 2. 표현 II: 지도 기능 발견. 3. 예측 1: 연속 일반화 가치 함수(GVF) 예측 학습. 4. 통제 I: 지속적인 배우-비평가 통제. 5. 예측 2: 평균 보상 GVF 학습. 6. 컨트롤 II: 지속적인 컨트롤 문제. 7. 플랜 I: 동등한 보상을 위한 플랜. 8. Prototype-AI I: 연속 함수 근사를 사용한 모델 기반 1단계 강화 학습. 9. 계획 II: 검색 제어 및 탐색. 10. 프로토타입-AI II: STOMP 프로세스. 11. 프로토타입-AI III: 오크. 12. Prototype-IA: 지능형 증폭.

이러한 단계는 핵심 기능(표현, 예측, 계획 및 제어)을 위한 새로운 알고리즘 개발에서 이러한 알고리즘을 결합하여 지속적인 모델 기반 AI를 위한 완전한 프로토타입 시스템을 생성하는 단계로 진행됩니다.

이미지 설명

ChatGPT 출력

"기하급수적 진보"

위에서 설명한 앨버타 계획은 이상적인 상황입니다. 인간은 희박한 신경망 도구를 사용하는 개인으로서 이미 복잡하고, 그룹으로서는 자기 조직화, 사회적 학습 및 환경 공학 특성을 가지고 있습니다. 암호화 및 분산(적대적) 컴퓨팅의 최근 개발에서 인간은 Turing-complete 글로벌 상태(역사)를 유지할 정도로만 자율적입니다. Mechanical Turk로 알려진 현상도 있습니다. 요점은 AI 제품이 언제든지 떨어지고 조정된 실행으로 기존 수준을 능가할 수 있는 성숙한 개발자 에코시스템이 있을 것이며 동시 AI 도구 및 검증 가능한 작업으로 강화된다는 것입니다.

이것은 현재의 사고 실험으로 이어집니다. The Singularity™ 이전에 예측된 모든 변곡점을 달성해야 합니까? 상용 모델 교육의 모든 독점 개선에 대해 공개 도메인에서 구현하는 실행 가능한 방법이 있을 수 있습니다. StableDiffusion은 이 개념에 대한 대화를 촉발시켰습니다. Crowdsourcing은 지난 10년 동안 (Twitch Plays Pokemon, Social Networks 및 The DAO에서 알 수 있듯이) 특이점이 이미 주의를 산만하게 할 만큼 충분히 가속화되었습니다. 이더리움 스케일링 솔루션이 zk-SNARK와 같은 암호화를 사용하여 네트워크의 인프라 요구 사항을 줄이려고 하는 것처럼 우리는 기존 대기업이 무차별 대입하고 AI로 수익을 창출할 필요성을 줄이는 경량 솔루션을 구현하려고 노력할 것입니다.

사실 OpenAI 모델을 반박하는 가장 좋은 방법 중 하나는 금융 시장과 소셜 네트워크에서 유사한 사회적 자본 시스템이 어느 정도 예측 가능한 행동이라는 것입니다. Twitter는 사용자가 적법한 인격으로 전 세계적으로 방송하고 증폭할 수 있기 때문에 뉴스를 집계합니다. COVID 잠금 및 중앙 은행 통화 정책과 같은 글로벌 추세로 인해 성장주는 급격히 오르락 내리락 할 수 있습니다. AI와 같은 PMF를 짧은 시간 안에 자체 규제 및 자체 조정 커뮤니티로 나타낼 수 있는 스타트업을 상상하는 데는 많은 상상력이 필요하지 않습니다. 기존 기술과 추가 비즈니스 개발을 통해 많은 부문에서 잠금을 해제할 수 있는 잠재적으로 수천억 달러의 운영 비용이 있습니다.

TV 시리즈 Westworld에서 Rehoboam이라는 인공 지능 시스템은 미래를 조작하고 예측하기 위해 대규모 데이터 세트를 분석하여 인간사에 질서를 부여합니다. 산업 혁명 이후 파괴적 혁신은 관료주의 밖에서 반복적으로 등장했으며 오늘날에는 점점 더 빠른 속도로 일어나고 있습니다. 퍼블릭 도메인의 깊이와 범위는 최근 수십 년 동안 성장했으며 많은 기술이 얼마나 상업적인지에 관계없이 오픈 소스로 강제되고 있습니다.

DAOrayaki
作者文库