
GPT의 등장으로 대규모 언어 모델에 대한 전 세계적인 관심이 집중되고 있으며, 각계각층에서는 이 블랙 테크놀로지를 활용하여 작업 효율성을 높이고 산업 발전을 가속화하려고 노력하고 있습니다. Future 3 Campus는 Footprint Analytics와 협력하여 AI와 Web3의 결합의 무한한 가능성에 대한 심층 연구를 수행하고 현재 상황, 경쟁 환경 및 통합의 미래 기회 분석이라는 제목의 연구 보고서를 공동으로 발표했습니다. AI와 Web3 데이터 산업. 연구 보고서는 두 부분으로 나누어져 있는데, 이 글은 Footprint Analytics의 연구원인 Lesley와 Shelly가 공동 편집한 첫 번째 부분입니다. 다음 기사는 Future 3 Campus 연구원인 Sherry와 Humphrey가 공동 편집했습니다.
요약:
LLM 기술의 발전으로 사람들은 AI와 Web3의 결합에 더욱 주목하게 되었고, 새로운 응용 패러다임이 점차 펼쳐지고 있습니다. 이 기사에서는 AI를 사용하여 Web3 데이터의 경험과 생산성을 향상시키는 방법에 중점을 둘 것입니다.
Web3 데이터 산업은 산업 초기 단계와 블록체인 기술의 특성으로 인해 데이터 소스, 업데이트 빈도, 익명성 속성 등 많은 과제에 직면해 있으며 이러한 문제를 해결하기 위해 AI를 활용하는 것이 새로운 초점이 되고 있습니다.
기존 인공 지능과 비교하여 확장성, 적응성, 효율성 향상, 작업 분해, 접근성 및 사용 편의성과 같은 LLM의 장점은 블록체인 데이터의 경험과 생산 효율성을 향상시킬 수 있는 상상의 공간을 제공합니다.
LLM은 훈련을 위해 대량의 고품질 데이터가 필요하며, 블록체인 분야는 LLM에 대한 학습 자료를 제공할 수 있는 풍부한 수직적 지식과 오픈 데이터를 보유하고 있습니다.
LLM은 또한 데이터 정리, 주석, 구조화된 데이터 생성 등과 같은 블록체인 데이터의 가치를 생성하고 향상시키는 데 도움을 줄 수 있습니다.
LLM은 만병통치약이 아니며 특정 비즈니스 요구에 적용되어야 합니다. LLM의 높은 효율성을 활용하는 동시에 결과의 정확성에도 주의를 기울여야 합니다.
1. AI와 Web3의 개발 및 결합
1.1 AI 개발 역사
인공지능(AI)의 역사는 1950년대로 거슬러 올라간다. 1956년부터 사람들은 인공지능 분야에 주목하기 시작했고 전문 분야의 문제 해결에 도움을 주기 위해 점차 초기 전문가 시스템을 발전시켰다. 이후 머신러닝의 등장으로 AI의 활용 분야가 확대됐고, AI가 사회 각계각층에서 더욱 폭넓게 활용되기 시작했다. 지금까지 딥러닝과 생성적 인공지능의 폭발적인 발전은 사람들에게 무한한 가능성을 가져다 주었고, 그 모든 단계는 더 높은 지능 수준과 더 넓은 응용 분야를 추구하기 위한 지속적인 도전과 혁신으로 가득 차 있습니다.
그림 1: AI 개발 역사
2022년 11월 30일 ChatGPT가 출시되어 AI와 인간 간의 낮은 임계값, 고효율 상호 작용의 가능성을 처음으로 시연했습니다. ChatGPT는 인공 지능에 대한 광범위한 논의를 촉발하고 AI와 상호 작용하는 방법을 재정의하여 보다 효율적이고 직관적이며 인간적으로 만들었습니다. 또한 보다 생성적인 인공 지능인 Anthropic(Amazon), DeepMind(Google), Llama 및 이후 다른 모델도 사람들의 시야에 들어왔습니다. 동시에, 다양한 산업 분야의 실무자들은 AI가 어떻게 자신의 분야 발전을 촉진할 것인지 적극적으로 탐색하기 시작했으며, 이를 AI 기술과 결합해 업계에서 두각을 나타내기 위해 노력해 다양한 분야에서 AI의 침투가 더욱 가속화되기 시작했습니다.
1.2 AI와 Web3의 통합
Web3의 비전은 금융 시스템 개혁에서 시작되어 더 많은 사용자 파워를 달성하는 것을 목표로 하며 현대 경제와 문화의 변화를 주도할 것으로 예상됩니다. 블록체인 기술은 이러한 목표를 달성하기 위한 견고한 기술 기반을 제공하며, 가치 전달 및 인센티브 메커니즘을 재설계할 뿐만 아니라 자원 할당 및 권력 분산을 지원합니다.
그림 2: Web3 개발 내역
이르면 2020년 블록체인 분야 투자기업Fourth Revolution Capital(4 RC)블록체인 기술이 AI와 결합해 금융, 의료, 전자상거래, 엔터테인먼트 등 글로벌 산업의 탈중앙화를 통해 기존 산업을 전복시킬 것이라는 지적이 나왔다.
현재 AI와 Web3의 결합은 주로 두 가지 주요 방향에 중점을 두고 있습니다.
● AI를 사용하여 생산성과 사용자 경험을 개선합니다.
● 블록체인의 투명성, 보안성, 분산형 저장, 추적성, 검증 가능성이라는 기술적 특징과 Web3의 분산형 생산 관계가 결합되어 기존 기술로 해결할 수 없는 문제점을 해결하거나 커뮤니티 참여를 장려하여 생산 효율성을 향상시킬 수 있습니다.
시장에서 AI와 Web3의 결합은 다음과 같은 탐색 방향을 가지고 있습니다.
그림 3: AI와 Web3의 결합 파노라마
● 데이터: 블록체인 기술은 모델 데이터 저장, 암호화된 데이터 세트 제공, 데이터 개인 정보 보호, 모델 데이터의 소스 및 사용 기록, 데이터 진위 확인에 적용될 수 있습니다. AI는 블록체인에 저장된 데이터에 접근하고 분석함으로써 귀중한 정보를 추출하고 이를 모델 훈련 및 최적화에 사용할 수 있습니다. 동시에 AI는 Web3 데이터의 생산 효율성을 향상시키기 위한 데이터 생산 도구로도 사용될 수 있습니다.
● 알고리즘: Web3의 알고리즘은 AI를 위한 보다 안전하고 신뢰할 수 있으며 자율적으로 제어되는 컴퓨팅 환경을 제공하고 AI 시스템에 대한 암호화 보호를 제공할 수 있습니다. 모델 매개변수에 보안 펜스가 내장되어 시스템이 남용되거나 악의적으로 사용되는 것을 방지합니다. 움직이는. AI는 스마트 계약을 사용하여 작업을 수행하고, 데이터를 확인하고, 결정을 실행하는 등 Web3의 알고리즘과 상호 작용할 수 있습니다. 동시에 AI 알고리즘은 Web3에 더욱 지능적이고 효율적인 결정과 서비스를 제공할 수도 있습니다.
● 컴퓨팅 성능: Web3의 분산 컴퓨팅 리소스는 AI를 위한 고성능 컴퓨팅 기능을 제공할 수 있습니다. AI는 모델 훈련, 데이터 분석 및 예측을 위해 Web3의 분산 컴퓨팅 리소스를 사용할 수 있습니다. AI는 컴퓨팅 작업을 네트워크의 여러 노드에 분산함으로써 계산 속도를 높이고 더 많은 양의 데이터를 처리할 수 있습니다.
이 기사에서는 AI 기술을 사용하여 Web3 데이터의 생산성과 사용자 경험을 향상시키는 방법을 탐구하는 데 중점을 둘 것입니다.
2. Web3 데이터 현황
2.1 Web2와 Web3 데이터 산업 비교
AI의 핵심 구성요소인 데이터인 Web3는 우리가 익숙한 Web2와는 매우 다릅니다. 차이점은 주로 Web2와 Web3의 애플리케이션 아키텍처에 있으며 이로 인해 데이터 특성이 달라집니다.
2.1.1 Web2와 Web3 애플리케이션 아키텍처 비교
그림 4: Web2 및 Web3 애플리케이션 아키텍처
Web2 아키텍처에서는 일반적으로 단일 엔터티(일반적으로 회사)가 웹 페이지나 앱을 제어합니다. 회사는 자신이 구축하는 콘텐츠를 절대적으로 제어하며, 서버의 콘텐츠와 로직에 액세스할 수 있는 사람과 사용자를 결정할 수 있습니다. 귀하가 갖고 있는 권리에 따라 콘텐츠가 온라인에 존재하는 기간도 결정됩니다. 많은 사례에서 인터넷 회사는 사용자가 창출된 가치를 유지할 수 없는 상태에서 플랫폼의 규칙을 변경하고 사용자에 대한 서비스를 중단할 수 있는 권리가 있음을 보여주었습니다.
Web3 아키텍처는 Universal State Layer의 개념을 사용하여 콘텐츠와 논리의 일부 또는 전부를 퍼블릭 블록체인에 배치합니다. 이러한 내용과 로직은 블록체인에 공개적으로 기록되어 누구나 접근할 수 있으며, 사용자는 체인의 내용과 로직을 직접 제어할 수 있습니다. Web2에서 사용자는 블록체인의 콘텐츠와 상호 작용하려면 계정이나 API 키가 필요합니다. 사용자는 해당 온체인 콘텐츠와 로직을 직접 제어할 수 있습니다. Web2와 달리 Web3 사용자는 블록체인의 콘텐츠와 상호 작용하기 위해 승인된 계정이나 API 키가 필요하지 않습니다(특정 관리 작업 제외).
2.1.2 Web2와 Web3의 데이터 특성 비교
그림 5: Web2와 Web3의 데이터 특성 비교
Web2 데이터는 일반적으로 복잡한 권한 제어, 높은 성숙도, 다양한 데이터 형식, 업계 표준에 대한 엄격한 준수 및 복잡한 비즈니스 논리 추상화로 인해 폐쇄적이고 매우 제한적입니다. 이러한 데이터는 규모가 크지만 상대적으로 상호 운용성이 낮고 중앙 서버에 저장되는 경우가 많으며 개인 정보 보호에 주의를 기울이지 않으며 대부분 익명성이 없습니다.
이와 대조적으로 Web3 데이터는 덜 성숙하고 비정형 데이터가 지배하고 표준화가 거의 없으며 비즈니스 논리 추상화가 상대적으로 단순화되기는 하지만 더 개방적이고 더 넓은 액세스 권한을 갖습니다. Web3의 데이터 크기는 Web2에 비해 작지만 상호 운용성(EVM 호환성 등)이 높고 데이터를 분산 또는 중앙 집중식으로 저장할 수 있으며 사용자 개인 정보 보호를 강조하며 사용자는 일반적으로 익명으로 체인에서 상호 작용합니다.
2.2 Web3 데이터 산업의 현황과 전망, 그리고 직면한 과제
Web2 시대에 데이터는 석유 매장량만큼 소중하며, 대규모 데이터에 접근하고 획득하는 것은 항상 큰 도전이었습니다. Web3에서는 데이터의 개방성과 공유로 인해 모든 사람이 갑자기 석유는 어디에나 있다는 느낌을 갖게 되었고, AI 모델이 모델 성능과 지능을 향상하는 데 중요한 더 많은 훈련 데이터를 더 쉽게 얻을 수 있게 되었습니다. 그러나 신석유인 Web3의 데이터 처리에는 아직 해결해야 할 문제가 많이 남아 있는데, 주로 다음과 같습니다.
● 데이터 소스: 체인의 데이터 표준은 복잡하고 분산되어 있으며 데이터 처리에는 많은 인건비가 소비됩니다.
온체인 데이터를 처리할 때 시간이 많이 걸리고 노동 집약적인 인덱싱 프로세스를 반복적으로 수행해야 하므로 개발자와 데이터 분석가는 서로 다른 체인과 프로젝트 간의 데이터 차이에 적응하기 위해 많은 시간과 리소스를 소비해야 합니다. 온체인 데이터 산업은 통일된 생산 및 처리 표준이 부족하며, 블록체인 원장에 기록되는 것 외에도 이벤트, 로그, 추적 등은 기본적으로 프로젝트 자체에서 정의 및 생성(또는 생성)되므로 비전문 거래자로 이어집니다. 가장 정확하고 신뢰할 수 있는 데이터를 식별하고 찾는 것이 어려워 온체인 거래 및 투자 결정을 내리는 데 어려움을 가중시킵니다. 예를 들어 탈중앙화 거래소인 유니스왑(Uniswap)과 팬케이크스왑(Pancakeswap)은 데이터 처리 방식과 데이터 크기에 차이가 있을 수 있으며, 그 과정에서 구경의 검사와 통일 등의 절차가 데이터 처리의 복잡성을 더욱 가중시킨다.
● 데이터 업데이트: 체인상의 데이터는 용량이 크고 자주 업데이트되므로 적시에 정형화된 데이터로 처리하기가 어렵습니다.
블록체인은 항상 변경되며 데이터 업데이트는 몇 초 또는 밀리초 단위로 측정됩니다. 데이터의 빈번한 생성 및 업데이트로 인해 고품질 데이터 처리 및 적시 업데이트를 유지하기가 어렵습니다. 따라서 자동화된 처리 프로세스는 매우 중요하며 이는 데이터 처리의 비용과 효율성에 대한 주요 과제이기도 합니다. Web3 데이터 산업은 아직 초기 단계에 있습니다. 새로운 계약이 지속적으로 등장하고 반복적인 업데이트가 진행되면서 표준이 부족하고 데이터 형식이 다양해 데이터 처리가 더욱 복잡해졌습니다.
● 데이터 분석: 체인에 있는 데이터의 익명 속성으로 인해 데이터의 신원을 구별하기가 어렵습니다.
온체인 데이터에는 각 주소를 명확하게 식별할 만큼 충분한 정보가 포함되어 있지 않은 경우가 많으므로 해당 데이터를 오프체인의 경제적, 사회적 또는 법적 발전과 연결하기가 어렵습니다. 그러나 체인의 데이터 추세는 현실 세계와 밀접한 관련이 있으므로 체인의 활동과 현실 세계의 특정 개인 또는 실체 간의 상관 관계를 이해하는 것은 데이터 분석과 같은 특정 시나리오에 매우 중요합니다.
LLM(Large Language Model) 기술로 촉발된 생산성 변화에 대한 논의와 함께, AI를 사용하여 이러한 과제를 해결할 수 있는지 여부도 Web3 분야의 초점 중 하나가 되었습니다.
3. AI와 Web3 데이터의 충돌로 인한 화학반응
3.1 전통 AI와 LLM의 특성 비교
모델 훈련 측면에서 기존 AI 모델은 일반적으로 규모가 작고 매개 변수 수가 수만에서 수백만에 이르지만, 출력 결과의 정확성을 보장하려면 수동으로 레이블이 지정된 대량의 데이터가 필요합니다. . LLM이 그토록 강력한 이유 중 하나는 수백억, 수천억 개의 매개변수를 맞추기 위해 대규모 자료를 사용하기 때문입니다. 이는 자연어 이해 능력을 크게 향상시킵니다. 값비싼.
기능 범위와 운영 방식 측면에서 기존 AI는 특정 분야의 업무에 더 적합하며 비교적 정확하고 전문적인 답변을 제공할 수 있습니다. 이와 대조적으로 LLM은 일반적인 작업에 더 적합하지만 환각 문제가 발생하기 쉽습니다. 즉, 어떤 경우에는 답변이 정확하지 않거나 전문적이지 않거나 완전히 틀릴 수도 있습니다. 따라서 객관적이고 신뢰할 수 있으며 추적 가능한 결과가 필요한 경우 다중 확인, 다중 교육 또는 추가 오류 수정 메커니즘 및 프레임워크의 도입이 필요할 수 있습니다.
그림 6: 기존 AI와 LLM(대형 모델 언어 모델)의 기능 비교
3.1.1 Web3 데이터 분야에서 전통적인 AI의 실천
전통적인 AI는 블록체인 데이터 산업에서 그 중요성을 보여주면서 이 분야에 더 많은 혁신과 효율성을 가져왔습니다. 예를 들어, 0x Scope 팀은 AI 기술을 사용하여 그래프 컴퓨팅 기반의 클러스터 분석 알고리즘을 구축했는데, 이는 서로 다른 규칙의 가중치 분포를 통해 사용자 간의 관련 주소를 정확하게 식별하는 데 도움이 됩니다. 이 딥러닝 알고리즘을 적용하면 주소 클러스터링의 정확도가 향상되어 보다 정확한 데이터 분석 도구를 제공할 수 있습니다. Nansen은 NFT 가격 예측에 AI를 사용하여 데이터 분석 및 자연어 처리 기술을 통해 NFT 시장 동향에 대한 통찰력을 제공합니다. 한편, Trusta Labs는 자산 그래프 마이닝 및 사용자 행동 순서 분석을 기반으로 하는 기계 학습 방법을 사용하여 Sybil 탐지 솔루션의 신뢰성과 안정성을 향상시키고 블록체인 네트워크 생태계의 보안을 유지하는 데 도움을 줍니다. 반면 Trusta Labs는 그래프 마이닝 및 사용자 행동 분석 방법을 사용하여 Sybil 탐지 솔루션의 신뢰성과 안정성을 높이고 블록체인 네트워크의 보안을 유지하는 데 도움을 줍니다. Goplus는 운영에 전통적인 인공 지능을 활용하여 분산형 애플리케이션(dApp)의 보안과 효율성을 향상합니다. 이들은 dApp에서 보안 정보를 수집 및 분석하고 신속한 위험 경고를 제공하여 이러한 플랫폼에서 위험 노출을 줄이는 데 도움을 줍니다. 여기에는 오픈 소스 상태 및 잠재적인 악의적 행위와 같은 요소를 평가하고 감사 회사 자격 증명, 감사 시간 및 감사 보고서 링크를 포함한 자세한 감사 정보를 수집하여 dApp 마스터 계약의 위험을 탐지하는 것이 포함됩니다. Footprint Analytics는 AI를 사용하여 구조화된 데이터를 생성하고 NFT 거래, 워시 거래 거래, 로봇 계정 심사 및 문제 해결을 분석하는 코드를 생성합니다.
그러나 기존 AI는 정보가 제한되어 미리 정해진 알고리즘과 규칙을 사용하여 미리 설정된 작업을 수행하는 데 중점을 둔 반면, LLM은 대규모 자연어 데이터에서 학습하고 자연어를 이해하고 생성할 수 있으므로 복잡하고 거대한 작업을 처리하는 데 더 적합합니다. 텍스트 데이터의 양.
최근 LLM이 상당한 발전을 이루면서 사람들은 AI와 Web3 데이터의 결합에 대해 새로운 사고와 탐색을 진행했습니다.
3.1.2 LLM의 장점
LLM은 기존 인공 지능에 비해 다음과 같은 장점이 있습니다.
● 확장성: LLM은 대규모 데이터 처리를 지원합니다.
LLM은 확장성이 뛰어나고 대량의 데이터와 사용자 상호 작용을 효율적으로 처리할 수 있습니다. 따라서 텍스트 분석이나 대규모 데이터 정리 등 대규모 정보 처리가 필요한 작업에 이상적입니다. 높은 수준의 데이터 처리 기능은 블록체인 데이터 산업에 대한 강력한 분석 및 적용 가능성을 제공합니다.
● 적응성: LLM은 여러 분야의 요구 사항에 적응하는 방법을 배울 수 있습니다.
LLM은 적응성이 뛰어나고 특정 작업에 맞게 미세 조정되거나 산업 또는 개인 데이터베이스에 내장될 수 있으므로 다양한 도메인의 미묘한 차이를 빠르게 학습하고 적응할 수 있습니다. 이 기능을 통해 LLM은 다중 도메인 및 다목적 문제를 해결하고 다양한 블록체인 애플리케이션에 대한 광범위한 지원을 제공하는 이상적인 선택이 됩니다.
● 효율성 향상: LLM은 작업을 자동화하여 효율성을 향상시킵니다.
LLM의 높은 효율성은 블록체인 데이터 산업에 상당한 편의성을 제공합니다. 상당한 양의 수동 시간과 리소스가 필요한 작업을 자동화하여 생산성을 높이고 비용을 절감합니다. LLM은 대량의 텍스트를 생성하고, 대규모 데이터 세트를 분석하거나, 다양한 반복 작업을 몇 초 만에 수행하여 대기 및 처리 시간을 줄이고 블록체인 데이터 처리를 더욱 효율적으로 만들 수 있습니다.
● 작업 분해: 특정 작업에 대한 구체적인 계획을 생성하고 대규모 작업을 작은 단계로 나눌 수 있습니다.
LLM 에이전트에는 특정 작업에 대한 특정 계획을 생성하여 복잡한 작업을 관리 가능한 작은 단계로 나누는 고유한 기능이 있습니다. 이 기능은 대규모 블록체인 데이터를 처리하고 복잡한 데이터 분석 작업을 수행하는 데 매우 유용합니다. LLM은 대규모 작업을 작은 작업으로 분할함으로써 데이터 처리 프로세스를 더 잘 관리하고 고품질 분석을 출력할 수 있습니다.
이 기능은 로봇 자동화, 프로젝트 관리, 자연어 이해 및 생성과 같은 복잡한 작업을 수행하는 AI 시스템에 매우 중요하며, 이를 통해 높은 수준의 임무 목표를 세부적인 작업 경로로 변환하고 작업 실행의 효율성과 정확성을 향상시킬 수 있습니다.
● 접근성 및 사용 용이성: LLM은 자연어로 사용자 친화적인 상호 작용을 제공합니다.
LLM의 접근성을 통해 더 많은 사용자가 데이터 및 시스템과 쉽게 상호 작용할 수 있으므로 이러한 상호 작용이 더욱 사용자 친화적으로 됩니다. LLM은 자연어를 통해 사용자가 데이터 수집 및 분석을 위해 복잡한 기술 용어나 SQL, R, Python 등과 같은 특정 명령을 배울 필요 없이 데이터 및 시스템에 더 쉽게 액세스하고 상호 작용할 수 있도록 해줍니다. 이 기능은 블록체인 애플리케이션의 사용자 범위를 넓히고 기술에 대한 지식 여부에 관계없이 더 많은 사람들이 Web3 애플리케이션 및 서비스에 액세스하고 사용할 수 있도록 하여 블록체인 데이터 산업의 발전과 대중화를 촉진합니다.
3.2 LLM과 Web3 데이터의 통합
그림 7: 블록체인 데이터와 LLM의 통합
대규모 언어 모델을 훈련하려면 대규모 데이터에 의존하여 데이터의 패턴을 학습하여 모델을 구축해야 합니다. 블록체인 데이터에 포함된 상호 작용 및 행동 패턴은 LLM 학습의 원동력입니다. 데이터의 양과 질도 LLM 모델의 학습 효과에 직접적인 영향을 미칩니다.
데이터는 LLM에게 단순한 소모품이 아닙니다. LLM은 데이터 생성을 돕고 피드백도 제공할 수 있습니다. 예를 들어, LLM은 데이터 분석가가 데이터 정리 및 주석과 같은 데이터 전처리에 기여하거나 구조화된 데이터를 생성하여 데이터에서 노이즈를 제거하고 효과적인 정보를 강조하는 데 도움을 줄 수 있습니다.
3.3 LLM 향상을 위한 공통 기술 솔루션
ChatGPT의 출현은 복잡한 문제를 해결하는 LLM의 일반적인 능력을 보여줄 뿐만 아니라 일반 기능에 외부 기능을 중첩하는 글로벌 탐구를 촉발합니다. 여기에는 일반 기능(컨텍스트 길이, 복잡한 추론, 수학, 코드, 다중 양식 등 포함)의 향상과 외부 기능(비정형 데이터 처리, 보다 복잡한 도구 사용, 물리적 세계와의 상호 작용 등) 확장이 포함됩니다. ). 암호화폐 분야의 독점 지식과 개인의 개인화된 개인 데이터를 대형 모델의 일반 역량에 어떻게 접목시킬 것인가는 암호화폐 수직 분야의 대형 모델 상용화를 위한 핵심 기술 이슈입니다.
현재 대부분의 애플리케이션은 힌트 엔지니어링, 임베딩 기술 등 RAG(Retrieval-Augmented Generation)에 중점을 두고 있으며, 기존 에이전트 도구는 대부분 RAG 작업의 효율성과 정확성을 향상시키는 데 중점을 두고 있습니다. 시장에 출시된 LLM 기술 기반 애플리케이션 스택의 주요 참조 아키텍처는 다음과 같습니다.
● Prompt Engineering
그림 8: 프롬프트 엔지니어링
현재 대부분의 실무자는 애플리케이션을 구축할 때 Prompt Engineering이라는 기본 솔루션을 사용합니다. 이 방법은 특정 애플리케이션의 요구 사항을 충족하도록 특정 프롬프트를 설계하여 모델의 입력을 변경하는 가장 편리하고 빠른 방법입니다. 그러나 기본 프롬프트 엔지니어링에는 시기적절하지 않은 데이터베이스 업데이트, 번거로운 콘텐츠, 입력 컨텍스트 길이(컨텍스트 내 길이) 지원 및 여러 라운드의 질문 및 답변 제한과 같은 몇 가지 제한 사항이 있습니다.
이에 업계에서는 임베딩(Embedding), 미세 조정(Fine-Tuning) 등 보다 진보된 개선 솔루션도 연구하고 있다.
● 삽입
임베딩(Embedding)은 인공지능 분야에서 널리 사용되는 데이터 표현 방법으로, 객체의 의미 정보를 효율적으로 포착할 수 있습니다. 임베딩 기술은 객체 속성을 벡터 형식으로 매핑함으로써 벡터 간의 상관관계를 분석하여 가장 가능성이 높은 정답을 빠르게 찾을 수 있습니다. 임베딩은 LLM 위에 구축되어 광범위한 말뭉치에서 모델이 학습한 풍부한 언어 지식을 활용할 수 있습니다. 특정 작업이나 분야에 대한 정보는 임베딩 기술을 통해 사전 학습된 대형 모델에 도입되어 기본 모델의 다양성을 유지하면서 모델을 특정 작업에 보다 전문화하고 적응할 수 있게 만듭니다.
평신도 입장에서 임베딩은 종합 훈련을 받은 대학생에게 참고서를 주고, 특정 작업과 관련된 지식이 담긴 참고서를 가지고 과제를 완수하라고 하는 것과 비슷하다. 특정 문제 문제.
● 미세 조정
그림 9: 미세 조정
미세 조정은 사전 훈련된 언어 모델의 매개변수를 업데이트하여 특정 작업에 맞게 조정하는 임베딩과 다릅니다. 이 접근 방식을 사용하면 모델이 일반성을 유지하면서 특정 작업에서 더 나은 성능을 발휘할 수 있습니다. 미세 조정의 핵심 아이디어는 모델 매개변수를 조정하여 대상 작업과 관련된 특정 패턴과 관계를 포착하는 것입니다. 그러나 모델의 일반적인 미세 조정 기능의 상한은 여전히 기본 모델 자체에 의해 제한됩니다.
일반인의 관점에서 파인튜닝은 종합훈련을 받은 대학생에게 전문지식 과정을 제공하는 것과 유사하며, 종합적인 능력에 더해 전문적인 과정지식을 습득하고 전문분야의 문제를 스스로 해결할 수 있도록 하는 것이다.
● LLM 재교육
현재 LLM이 강력하기는 하지만 모든 요구 사항을 충족할 수는 없습니다. LLM 재교육은 새로운 데이터 세트를 도입하고 모델 가중치를 조정하여 특정 작업, 요구 사항 또는 도메인에 더 적합하게 만드는 고도로 맞춤화된 솔루션입니다. 그러나 이 방법에는 많은 컴퓨팅 리소스와 데이터가 필요하며, 재학습된 모델을 관리하고 유지하는 것도 과제 중 하나입니다.
● 에이전트 모델
그림 10: 에이전트 모델
에이전트 모델은 LLM을 핵심 컨트롤러로 사용하는 지능형 에이전트를 구축하는 방법입니다. 또한 시스템에는 보다 포괄적인 인텔리전스를 제공하기 위한 몇 가지 주요 구성 요소가 포함되어 있습니다.
● 계획: 큰 작업을 더 작은 작업으로 나누어 완료하기 쉽도록 합니다.
● 기억, 반성: 과거 행동을 반성하여 향후 계획을 개선합니다.
● 도구, 도구 사용: 에이전트는 외부 도구를 호출하여 검색 엔진 호출, 계산기 호출 등 추가 정보를 얻을 수 있습니다.
인공지능 에이전트 모델은 강력한 언어 이해 및 생성 기능을 갖추고 있으며 일반적인 문제 해결, 작업 분해 및 자기 성찰을 수행할 수 있습니다. 이는 다양한 응용 분야에서 광범위한 잠재력을 제공합니다. 그러나 에이전트 모델에는 컨텍스트 길이에 따른 제한, 장기 계획 및 작업 분할 오류 발생 가능성, 출력 콘텐츠의 불안정한 신뢰성 등 몇 가지 제한 사항도 있습니다. 이러한 제한으로 인해 다양한 분야에서 에이전트 모델의 적용을 더욱 확장하기 위해서는 장기간의 지속적인 연구와 혁신이 필요합니다.
위의 다양한 기술은 상호 배타적이지 않으며 동일한 모델을 훈련하고 향상시키는 과정에서 함께 사용할 수 있습니다. 개발자는 기존 대규모 언어 모델의 잠재력을 최대한 활용하고 점점 더 복잡해지는 애플리케이션 요구 사항을 충족하기 위해 다양한 방법을 시도할 수 있습니다. 이러한 포괄적인 사용은 모델의 성능을 향상시키는 데 도움이 될 뿐만 아니라 Web3 기술의 빠른 혁신과 발전을 촉진하는 데에도 도움이 됩니다.
그러나 우리는 기존 LLM이 Web3의 급속한 발전에 중요한 역할을 했지만 이러한 기존 모델(예: OpenAI, Llama 2 및 기타 오픈 소스 LLM)을 완전히 시도하기 전에 더 얕은 것부터 더 깊은 것으로 시작할 수 있다고 믿습니다. , 신속한 엔지니어링 및 임베딩과 같은 RAG 전략으로 시작하고 기본 모델의 미세 조정 및 재교육을 신중하게 고려하십시오.
3.4 LLM이 블록체인 데이터 생산의 다양한 프로세스를 가속화하는 방법
3.4.1 블록체인 데이터의 일반적인 처리 흐름
오늘날 블록체인 분야의 빌더들은 점차 데이터 제품의 가치를 깨닫고 있습니다. 이 가치는 제품 운영 모니터링, 예측 모델, 추천 시스템, 데이터 기반 애플리케이션 등 다양한 영역을 포괄합니다. 이러한 인식이 점차 높아지고 있음에도 불구하고, 데이터 수집에서 데이터 적용까지 필수적인 핵심 단계로서 데이터 처리가 간과되는 경우가 많습니다.
그림 11: 블록체인 데이터 처리 프로세스
● 이벤트, 로그 등 블록체인의 비정형 데이터 원본을 정형 데이터로 변환
블록체인의 모든 거래나 이벤트는 이벤트나 로그를 생성하며, 이러한 데이터는 일반적으로 구조화되지 않습니다. 이 단계는 데이터를 얻기 위한 첫 번째 진입점이지만 유용한 정보를 추출하고 구조화된 원시 데이터를 얻으려면 데이터를 추가로 처리해야 합니다. 여기에는 데이터 구성, 예외 처리 및 공통 형식으로 변환이 포함됩니다.
● 구조화된 원시 데이터를 비즈니스 의미가 있는 추상 테이블로 변환합니다.
구조화된 원시 데이터를 얻은 후에는 비즈니스를 추가로 추상화하고 데이터를 트랜잭션 볼륨, 사용자 볼륨 및 기타 비즈니스 지표와 같은 비즈니스 엔터티 및 지표에 매핑하여 원시 데이터를 비즈니스 및 의사 결정을 위한 의미 있는 데이터로 변환해야 합니다. .
● 추상 테이블에서 비즈니스 지표 계산 및 추출
추상적인 비즈니스 데이터를 얻은 후 추상적인 비즈니스 데이터에 대한 추가 계산을 수행하여 다양한 중요한 파생 지표를 얻을 수 있습니다. 예를 들어, 총 거래량의 월간 증가율, 사용자 유지율과 같은 핵심 지표입니다. 이러한 지표는 SQL 및 Python과 같은 도구의 도움으로 구현될 수 있으며 비즈니스 상태를 모니터링하고 사용자 행동 및 추세를 이해하여 의사 결정 및 전략 계획을 지원하는 데 도움이 될 가능성이 높습니다.
3.4.2 블록체인 데이터 생성 프로세스에 LLM 추가 후 최적화
LLM은 다음을 포함하되 이에 국한되지 않는 블록체인 데이터 처리의 여러 문제를 해결할 수 있습니다.
구조화되지 않은 데이터 처리:
● 거래 로그 및 이벤트에서 구조화된 정보 추출: LLM은 블록체인의 거래 로그 및 이벤트를 분석하고 거래 금액, 거래 당사자 주소, 타임스탬프 등과 같은 주요 정보를 추출하고 비정형 데이터를 비즈니스 의미가 있는 데이터로 변환할 수 있습니다. 분석하고 이해하기가 더 쉽습니다.
● 데이터 정리 및 비정상적인 데이터 식별: LLM은 일관되지 않거나 비정상적인 데이터를 자동으로 식별하고 정리하여 데이터 정확성과 일관성을 보장함으로써 데이터 품질을 향상시킬 수 있습니다.
비즈니스 추상화 수행:
● 원본 온체인 데이터를 비즈니스 개체에 매핑: LLM은 블록체인 주소를 실제 사용자 또는 자산에 매핑하는 등 원본 블록체인 데이터를 비즈니스 개체에 매핑하여 비즈니스 처리를 더욱 직관적이고 효과적으로 만들 수 있습니다.
● 구조화되지 않은 온체인 콘텐츠를 처리하고 레이블을 지정합니다. LLM은 트위터 감정 분석 결과와 같은 구조화되지 않은 데이터를 분석하고 이를 긍정적, 부정적 또는 중립적 감정으로 표시하여 사용자가 소셜 미디어 경향에 대한 감정을 더 잘 이해할 수 있도록 돕습니다.
데이터의 자연어 해석:
● 핵심 지표 계산: 비즈니스 추상화를 기반으로 LLM은 사용자 거래량, 자산 가치, 시장 점유율 등과 같은 핵심 비즈니스 지표를 계산하여 사용자가 비즈니스의 주요 성과를 더 잘 이해할 수 있도록 돕습니다.
● 쿼리 데이터: LLM은 AIGC를 통해 사용자 의도를 이해하고 SQL 쿼리를 생성할 수 있으므로 사용자는 복잡한 SQL 쿼리 문을 작성할 필요 없이 자연어로 쿼리 요청을 할 수 있습니다. 이는 데이터베이스 쿼리의 접근성을 높입니다.
● 지표 선택, 정렬 및 상관 분석: LLM은 사용자가 서로 다른 여러 지표를 선택, 정렬 및 분석하여 지표 간의 관계와 상관 관계를 더 잘 이해하도록 도와줌으로써 심층적인 데이터 분석 및 의사 결정을 지원합니다.
● 비즈니스 추상화에 대한 자연어 설명 생성: LLM은 사실 데이터를 기반으로 자연어 요약 또는 설명을 생성하여 사용자가 비즈니스 추상화 및 데이터 지표를 더 잘 이해하고 해석성을 향상시키며 보다 합리적인 결정을 내릴 수 있도록 돕습니다.
3.5 현재 사용 사례
LLM의 자체 기술 및 제품 경험 장점에 따라 다양한 온체인 데이터 시나리오에 적용할 수 있으며 기술적으로 이러한 시나리오는 쉬운 것부터 어려운 것까지 4가지 범주로 나눌 수 있습니다.
● 데이터 변환: 텍스트 요약, 분류, 정보 추출 등 데이터 강화 및 재구성 등의 작업을 수행합니다. 이러한 유형의 애플리케이션은 개발 속도가 더 빠르지만 일반 시나리오에 더 적합하며 대용량 데이터의 간단한 일괄 처리에는 적합하지 않습니다.
● 자연어 인터페이스: LLM을 지식 베이스 또는 도구에 연결하여 질문과 답변 또는 기본 도구 사용을 자동화합니다. 이는 전문적인 챗봇을 구축하는 데 사용될 수 있지만 실제 가치는 연결된 지식 기반의 품질과 같은 다른 요소의 영향을 받습니다.
● 워크플로 자동화: LLM을 사용하여 비즈니스 프로세스를 표준화하고 자동화합니다. 이는 스마트 계약 운영 프로세스 해체, 위험 식별 등 보다 복잡한 블록체인 데이터 처리 프로세스에 적용될 수 있습니다.
● 보조 로봇 및 보조 보조 시스템: 보조 시스템은 자연어 인터페이스를 기반으로 더 많은 데이터 소스와 기능을 통합하여 사용자 작업 효율성을 크게 향상시키는 향상된 시스템입니다.
그림 12: LLM 응용 시나리오
3.6 LLM의 한계
3.6.1 업계 현황: 성숙한 애플리케이션, 극복 중인 문제, 해결되지 않은 과제
Web3 데이터 분야에서는 몇 가지 중요한 진전이 있었지만 여전히 몇 가지 과제가 있습니다.
비교적 성숙한 애플리케이션:
● 정보 처리를 위해 LLM 사용: LLM과 같은 AI 기술은 텍스트 요약, 요약, 설명 등을 생성하는 데 성공적으로 사용되어 사용자가 긴 기사 및 전문 보고서에서 핵심 정보를 추출하도록 돕고 데이터의 가독성과 이해성을 향상시킵니다.
● AI를 사용하여 개발 문제 해결: LLM은 개발자에게 질문 답변 및 프로그래밍 지원을 제공하기 위해 StackOverflow 또는 검색 엔진을 대체하는 등 개발 프로세스의 문제를 해결하는 데 사용되었습니다.
해결하고 탐구해야 할 문제:
● LLM을 사용하여 코드 생성: 업계에서는 데이터베이스 쿼리의 자동화 및 이해 가능성을 향상시키기 위해 자연어를 SQL 쿼리 언어로 변환하는 데 LLM 기술을 적용하기 위해 열심히 노력하고 있습니다. 그러나 그 과정에는 많은 어려움이 있을 것입니다.예를 들어, 생성된 코드는 매우 높은 정확성을 요구하며, 프로그램이 버그 없이 실행되고 올바른 결과를 얻으려면 구문이 100% 정확해야 합니다. 어려움에는 질문에 대한 답변의 성공률과 정확성을 보장하는 것뿐만 아니라 비즈니스에 대한 깊은 이해도 포함됩니다.
● 데이터 주석 문제: 데이터 주석은 머신러닝과 딥러닝 모델의 훈련에 매우 중요하지만, Web3 데이터 분야에서는 특히 익명의 블록체인 데이터를 다룰 때 데이터 주석의 복잡성이 높습니다.
● 정확성 및 환각 문제: AI 모델에서 환각의 발생은 편향되거나 불충분한 훈련 데이터, 과적합, 제한된 상황 이해, 도메인 지식 부족, 적대적 공격, 모델 아키텍처를 비롯한 여러 요인의 영향을 받을 수 있습니다. 연구원과 개발자는 생성된 텍스트의 신뢰성과 정확성을 향상시키기 위해 모델의 훈련 및 보정 방법을 지속적으로 개선해야 합니다.
● 비즈니스 분석 및 기사 출력을 위한 데이터 활용: 비즈니스 분석 및 기사 생성을 위해 데이터를 사용하는 것은 여전히 어려운 문제로 남아 있습니다. 문제의 복잡성, 세심하게 설계된 프롬프트의 필요성, 고품질 데이터, 데이터 양, 환각 문제를 줄이는 방법 등 모두 해결해야 할 문제입니다.
● 데이터 추상화를 위해 비즈니스 도메인을 기반으로 스마트 계약 데이터를 자동으로 인덱싱합니다. 데이터 추상화를 위해 다양한 비즈니스 도메인에 걸쳐 스마트 계약 데이터를 자동으로 인덱싱하는 것은 여전히 해결되지 않은 문제입니다. 이를 위해서는 다양한 사업 분야의 특성은 물론, 데이터의 다양성과 복잡성에 대한 종합적인 고려가 필요합니다.
● 시계열 데이터, 테이블 문서 데이터 및 기타 복잡한 양식 처리: DALL·E 2와 같은 다중 모드 모델은 텍스트에서 이미지 및 음성과 같은 공통 양식을 생성하는 데 매우 효과적입니다. 블록체인 및 금융 분야에서는 일부 시계열 데이터를 특수하게 처리해야 하는데 이는 단순히 텍스트를 벡터화하는 것만으로는 해결할 수 없습니다. 시계열 데이터와 텍스트의 결합, 교차 모달 공동 훈련 등은 지능형 데이터 분석 및 적용을 달성하기 위한 중요한 연구 방향입니다.
3.6.2 LLM만으로는 블록체인 데이터 산업의 문제를 완벽하게 해결할 수 없는 이유
언어 모델로서 LLM은 더 높은 유창성을 요구하는 시나리오를 처리하는 데 더 적합하지만 정확성을 추구하려면 모델에 대한 추가 조정이 필요할 수 있습니다. 블록체인 데이터 산업에 LLM을 적용할 때 다음 프레임워크는 몇 가지 참고 자료를 제공할 수 있습니다.
그림 13: 블록체인 데이터 산업에서 LLM 결과의 유창성, 정확성 및 사용 사례 위험
다양한 응용 프로그램에서 LLM의 적합성을 평가할 때 유창성과 정확성에 중점을 두는 것이 중요합니다. 유창성은 모델의 출력이 자연스럽고 매끄러운지 여부를 나타내고, 정확도는 모델의 답변이 정확한지 여부를 나타냅니다. 이 두 차원은 서로 다른 애플리케이션 시나리오에서 서로 다른 요구 사항을 갖습니다.
자연어 생성, 창의적 글쓰기 등과 같이 유창성이 요구되는 작업의 경우 자연어 처리 성능이 뛰어나 유창한 텍스트를 생성할 수 있는 LLM이 일반적으로 적합합니다.
블록체인 데이터는 데이터 분석, 데이터 처리, 데이터 활용 등 많은 문제에 직면해 있습니다. LLM은 뛰어난 언어 이해 및 추론 기능을 갖추고 있어 블록체인 데이터와 상호 작용하고, 구성하고, 요약하는 데 이상적인 도구입니다. 그러나 LLM은 블록체인 데이터 분야의 모든 문제를 해결할 수는 없습니다.
데이터 처리 측면에서 LLM은 온체인 데이터의 신속한 반복 및 탐색 처리에 더 적합하며 지속적으로 새로운 처리 방법을 시도합니다. 그러나 LLM은 프로덕션 환경의 세부 조정과 같은 작업에 여전히 몇 가지 제한 사항을 가지고 있습니다. 일반적인 문제는 토큰이 긴 컨텍스트 콘텐츠를 처리할 만큼 길지 않다는 것입니다. 시간이 많이 걸리는 프롬프트는 다운스트림 작업에 영향을 미치는 불안정성에 대한 질문에 답하여 불안정한 성공률을 초래하고 대규모 작업 배치 실행 시 효율성이 낮습니다.
둘째, LLM의 콘텐츠 처리 과정에서 환각 문제가 발생할 가능성이 높습니다. ChatGPT의 환각 확률은 약 15~20%로 추정되며 처리의 불투명성으로 인해 많은 오류를 감지하기 어렵습니다. 따라서 프레임워크 구축과 전문지식의 접목이 중요하다. 또한 LLM이 온체인 데이터를 결합할 때 여전히 많은 과제가 있습니다.
● 체인에는 다양한 유형과 엄청난 양의 데이터 개체가 있으며, 어떤 형태로 LLM에 공급되어야 하며 더 많은 연구와 탐색이 필요한 다른 수직 산업과 유사하게 특정 상업 시나리오에서 효과적으로 사용해야 합니다.
● 온체인 데이터에는 정형 데이터와 비정형 데이터가 포함되며, 현재 업계의 대부분의 데이터 솔루션은 비즈니스 데이터에 대한 이해를 기반으로 합니다. 온체인 데이터를 구문 분석하는 과정에서 ETL은 비즈니스 로직을 필터링, 정리, 보완 및 복원하고 비정형 데이터를 정형 데이터로 구성하여 향후 다양한 비즈니스 시나리오에 대한 보다 효율적인 분석을 제공하는 데 사용됩니다. 예를 들어 구조화된 DEX 거래, NFT 마켓플레이스 거래, 지갑 주소 포트폴리오 등은 앞서 언급한 고품질, 고가치, 정확성 및 신뢰성이라는 특성을 가지며 일반 LLM에 효율적인 보완책을 제공할 수 있습니다.
4. LLM에 대한 오해
4.1 LLM은 비정형 데이터를 직접 처리할 수 있으므로 정형 데이터가 더 이상 필요하지 않습니까?
LLM은 일반적으로 대규모 텍스트 데이터를 기반으로 사전 학습되어 모든 종류의 구조화되지 않은 텍스트 데이터를 처리하는 데 적합합니다. 그러나 다양한 산업 분야에는 이미 대량의 정형 데이터, 특히 Web3 분야의 구문 분석 데이터가 있습니다. 이러한 데이터를 효과적으로 사용하여 LLM을 향상시키는 방법은 업계에서 뜨거운 연구 주제입니다.
LLM의 경우 구조화된 데이터에는 여전히 다음과 같은 장점이 있습니다.
● 대규모: 다양한 애플리케이션 뒤에 있는 데이터베이스 및 기타 표준 형식, 특히 개인 데이터에 대량의 데이터가 저장됩니다. 모든 회사와 산업에는 여전히 사전 교육을 위한 내부 데이터가 없는 대량의 LLM이 있습니다.
● 기존: 이 데이터는 재생산할 필요가 없고 투자비용도 매우 낮으며, 유일한 문제는 이를 어떻게 활용하느냐이다.
● 높은 품질과 높은 가치: 해당 분야에서 오랜 기간 축적된 전문 지식은 대개 정형화된 데이터로 저장되어 산학연에서 활용됩니다. 구조화된 데이터의 품질은 데이터 완전성, 일관성, 정확성, 고유성 및 사실성을 포함하여 데이터 가용성의 핵심입니다.
● 높은 효율성: 구조화된 데이터는 테이블, 데이터베이스 또는 기타 표준화된 형식으로 저장되며, 스키마는 전체 데이터 세트에서 사전 정의되고 일관됩니다. 이는 데이터의 형식, 유형 및 관계가 예측 가능하고 제어 가능하므로 데이터 분석 및 쿼리가 더 쉽고 안정적이라는 것을 의미합니다. 더욱이 업계에는 이미 성숙한 ETL과 다양한 데이터 처리 및 관리 도구가 있어 더욱 효율적이고 사용하기 편리합니다. LLM은 API를 통해 이 데이터를 사용할 수 있습니다.
● 정확성 및 사실성: 토큰 확률을 기반으로 하는 LLM의 텍스트 데이터는 현재 안정적으로 정확한 답변을 출력할 수 없습니다. 환각 문제는 항상 LLM이 해결해야 할 핵심적이고 근본적인 문제였습니다. 의료, 금융 등 많은 산업 및 시나리오에서 보안 및 안정성 문제가 발생합니다. 구조화된 데이터는 LLM의 이러한 문제를 지원하고 수정할 수 있는 방향입니다.
● 관계형 그래프 및 특정 비즈니스 로직 반영: 다양한 유형의 구조화된 데이터를 특정 조직 형태(관계형 데이터베이스, 그래프 데이터베이스 등)로 LLM에 입력하여 다양한 유형의 도메인 문제를 해결할 수 있습니다. 구조화된 데이터는 표준화된 쿼리 언어(예: SQL)를 사용하여 복잡한 쿼리와 데이터 분석을 보다 효율적이고 정확하게 만듭니다. 지식 그래프는 항목 간의 관계를 더 잘 표현하고 관련 쿼리를 더 쉽게 만들 수 있습니다.
● 저렴한 사용 비용: LLM은 매번 바닥부터 전체 기본 모델을 재교육할 필요가 없으며 에이전트 및 LLM API와 같은 LLM 지원 방법과 결합하여 LLM에 더 빠르고 저렴한 비용으로 액세스할 수 있습니다.
시장에는 LLM이 텍스트 정보와 구조화되지 않은 정보를 처리하는 능력이 매우 뛰어나며, 구조화되지 않은 데이터를 포함한 원시 데이터를 LLM으로 가져오는 것만으로 이를 달성할 수 있다고 믿는 일부 상상력 있는 견해가 여전히 있습니다. 이 아이디어는 범용 LLM에게 수학 문제를 해결하도록 요청하는 것과 유사합니다. 특별히 구성된 수학 능력 모델이 없으면 대부분의 LLM은 간단한 초등학교 덧셈 및 뺄셈 문제를 처리할 때 실수를 할 가능성이 높습니다. 오히려 수학적 능력 모델, 이미지 생성 모델과 유사한 Crypto LLM 수직 모델을 구축하는 것이 Crypto 분야의 LLM에 대한 보다 실용적인 솔루션입니다.
4.2. LLM은 뉴스, 트윗 등의 텍스트 정보에서 내용을 추론할 수 있습니다. 결론을 도출하기 위해 더 이상 온체인 데이터 분석이 필요하지 않습니까?
LLM은 뉴스, 소셜 미디어 등의 텍스트에서 정보를 얻을 수 있지만, 다음과 같은 주요 이유로 온체인 데이터에서 직접 얻은 통찰력은 여전히 필수적입니다.
● 온체인 데이터는 원래의 직접적인 정보인 반면, 뉴스와 소셜 미디어의 정보는 일방적이거나 오해의 소지가 있을 수 있습니다. 온체인 데이터를 직접 분석하면 정보 편향을 줄일 수 있습니다. 텍스트 분석에 LLM을 사용하면 해석 편향의 위험이 있지만, 온체인 데이터를 직접 분석하면 잘못된 해석을 줄일 수 있습니다.
● 온체인 데이터에는 포괄적인 과거 상호 작용 및 거래 기록이 포함되어 있으며 분석을 통해 장기적인 추세와 패턴을 발견할 수 있습니다. 체인의 데이터는 자본 흐름, 당사자 간의 관계 등과 같은 전체 생태계에 대한 완전한 그림을 보여줄 수도 있습니다. 이러한 큰 그림의 통찰력은 상황에 대한 더 깊은 이해를 제공합니다. 반면에 뉴스와 소셜 미디어 정보는 더 단편적이고 단기적인 경우가 많습니다.
● 체인의 데이터가 열려 있습니다. 누구나 분석 결과를 검증하고 정보 비대칭을 피할 수 있습니다. 뉴스와 소셜 미디어가 항상 진실을 드러내는 것은 아닙니다. 텍스트 정보와 온체인 데이터를 상호 검증할 수 있습니다. 이 둘을 결합하면 보다 입체적이고 정확한 판단이 가능하다.
온체인 데이터 분석은 여전히 필수입니다. LLM은 텍스트에서 정보를 얻는 보조 역할을 하지만 온체인 데이터의 직접적인 분석을 대체할 수는 없습니다. 최상의 결과를 얻으려면 두 가지 장점을 최대한 활용하십시오.
4.3 LangChain, LlamaIndex 또는 기타 AI 도구를 사용하여 LLM 기반의 블록체인 데이터 솔루션을 구축하는 것이 쉬운가요?
LangChain 및 LlamaIndex와 같은 도구는 맞춤형 간단한 LLM 애플리케이션 구축에 대한 편의성을 제공하여 빠른 구축을 가능하게 합니다. 그러나 실제 생산 환경에서 이러한 도구를 성공적으로 적용하려면 더 많은 어려움이 따릅니다. 효율적으로 실행되고 고품질을 유지하는 LLM 애플리케이션을 구축하는 것은 블록체인 기술과 AI 도구의 작동 방식을 깊이 이해하고 효과적으로 통합해야 하는 복잡한 작업입니다. 이는 블록체인 데이터 산업에 있어 중요하면서도 어려운 과제입니다.
이 과정에서 우리는 매우 높은 정확성과 반복 가능한 검증이 요구되는 블록체인 데이터의 특성을 실현해야 합니다. LLM을 통해 데이터가 처리되고 분석되면 사용자는 데이터의 정확성과 신뢰성에 대해 높은 기대를 갖게 됩니다. 이것과 LLM의 퍼지 내결함성 사이에는 잠재적인 모순이 있습니다. 따라서 블록체인 데이터 솔루션을 구축할 때 사용자 기대를 충족시키기 위해 이 두 가지 요구 사항을 신중하게 고려해야 합니다.
현재 시장에는 이미 몇 가지 기본 도구가 있지만 이 분야는 여전히 빠르게 발전하고 지속적으로 반복되고 있습니다. 초기 PHP 프로그래밍 언어부터 Java, Ruby, Python, JavaScript 및 Node.js 등과 같은 보다 성숙하고 확장 가능한 솔루션, Go 및 Rust와 같은 신흥 기술에 이르기까지 Web2 세계의 개발 프로세스와 유사합니다. 지속적인 개발, 진화를 경험했습니다. AI 도구도 끊임없이 변화하고 있으며 AutoGPT, Microsoft AutoGen, OpenAI가 최근 출시한 ChatGPT 4.0 Turbo의 GPT 및 에이전트와 같은 새로운 GPT 프레임워크는 미래 가능성의 일부만을 보여줍니다. 이는 블록체인 데이터 산업과 AI 기술 모두 아직 발전 여지가 많고 지속적인 노력과 혁신이 필요하다는 것을 보여준다.
현재 LLM을 지원할 때 특별한 주의가 필요한 두 가지 함정이 있습니다.
● 기대치가 너무 높습니다. 많은 사람들이 LLM이 모든 문제를 해결할 수 있다고 생각하지만 실제로 LLM에는 한계가 있습니다. 많은 양의 컴퓨팅 리소스가 필요하고 훈련 비용이 많이 들고 훈련 프로세스가 불안정할 수 있습니다. LLM의 기능에 대해 현실적인 기대를 갖고 LLM이 자연어 처리 및 텍스트 생성과 같은 일부 시나리오에서는 탁월하지만 다른 영역에서는 유능하지 않을 수 있다는 점을 이해하십시오.
● 비즈니스 요구 무시: 또 다른 함정은 비즈니스 요구를 충분히 고려하지 않고 LLM 기술을 강제로 적용하는 것입니다. LLM을 신청하기 전에 구체적인 비즈니스 요구 사항을 파악하는 것이 중요합니다. LLM이 최선의 기술 선택인지 평가하고 위험 평가 및 통제를 수행하는 것이 필요합니다. LLM의 효과적인 적용을 위해서는 오용을 방지하기 위해 실제 상황에 따른 신중한 고려가 필요하다는 점을 강조합니다.
LLM은 많은 분야에서 큰 잠재력을 갖고 있지만, 개발자와 연구원은 LLM을 적용할 때 주의를 기울여야 하며 보다 적합한 적용 시나리오를 찾고 장점을 극대화하기 위해 개방적인 탐구 태도를 취해야 합니다.
본 글은 Footprint Analytics, Future 3 Campus, HashKey Capital이 공동으로 게재한 글입니다.
회사 소개
Footprint Analytics블록체인 데이터 솔루션 제공업체입니다. 최첨단 인공지능 기술의 도움으로 암호화폐 분야 최초의 코드 프리 데이터 분석 플랫폼과 통합 데이터 API를 제공하여 사용자가 30개 이상의 퍼블릭의 NFT, GameFi 및 지갑 주소 자금 흐름 추적 데이터를 빠르게 검색할 수 있도록 합니다. 체인 생태계.
발자국 공식 홈페이지: https://www.footprint.network
Twitter:https://twitter.com/Footprint_Data
WeChat 공개 계정: 발자국 블록체인 분석
커뮤니티 가입: 보조 WeChat 그룹 추가footprint_analytics
Future 3 CampusWanxiang Blockchain Laboratory와 HashKey Capital이 공동으로 출시한 Web3.0 혁신 인큐베이션 플랫폼으로, 상하이, 광동-홍콩-마카오 Greater Bay Area를 중심으로 Web3.0 Massive Adoption, DePIN, AI의 세 가지 주요 트랙에 중점을 두고 있습니다. , 싱가포르를 주요 인큐베이터로 삼아 글로벌 Web3.0 생태계를 발산합니다. 동시에 Future 3 Campus는 Web3.0 프로젝트 인큐베이션을 위해 5천만 달러의 초기 시드 펀드를 출시하여 Web3.0 분야의 혁신과 기업가 정신을 진정으로 지원할 것입니다.
HashKey Capital블록체인 기술 및 디지털 자산 투자에 주력하는 자산관리기관으로, 현재 자산관리 규모는 10억 달러가 넘는다. 아시아에서 가장 크고 가장 영향력 있는 블록체인 투자 기관 중 하나이자 이더리움의 최초 기관 투자자인 HashKey Capital은 Web2와 Web3를 연결하고 기업가, 투자자, 커뮤니티 및 규제 기관과 연결하는 등 선도적인 소름 끼치는 효과를 발휘합니다. 지속가능한 블록체인 생태계를 구축합니다. 이 회사는 홍콩, 싱가포르, 일본, 미국 등에 위치하고 있으며 Layer 1, 프로토콜, Crypto Finance, Web3 인프라, 애플리케이션, NFT, Metaverse 및 기타 분야에 걸쳐 500개 이상의 글로벌 투자 회사를 배치하는 데 앞장섰습니다. 투자한 프로젝트로는 Cosmos, Coinlist, Aztec, Blockdaemon, dYdX, imToken, Animoca Brands, Falcon X, Space and time, Mask Network, Polkadot, Moonbeam 및 Galxe(구 Project Galaxy) 등이 있습니다.