

Tiêu đề gốc: "Từ GPT-1 đến GPT-4 để chứng kiến sự trỗi dậy của ChatGPT"
Tác giả gốc: Alpha Rabbit Research Notes
tiêu đề phụ
ChatGPT là gì?
Mới đây, OpenAI đã cho ra mắt ChatGPT, một mô hình có thể tương tác theo kiểu đàm thoại, do tính thông minh nên được nhiều người dùng đón nhận. ChatGPT cũng là họ hàng của InstructGPT do OpenAI phát hành trước đây, có lẽ mô hình ChatGPT được đào tạo bằng cách sử dụng RLHF (Học tăng cường với phản hồi của con người).tiêu đề phụ
GPT là gì? Từ GPT-1 đến GPT-3
Generative Pre-training Transformer (GPT), là một mô hình học sâu để tạo văn bản được đào tạo trên dữ liệu có sẵn trên Internet. Nó được sử dụng để trả lời câu hỏi, tóm tắt văn bản, dịch máy, phân loại, tạo mã và AI đàm thoại.
Năm 2018, GPT-1 ra đời, cũng là năm đầu tiên mô hình tiền đào tạo NLP (Natural Language Processing) ra đời. Về hiệu suất, GPT-1 có khả năng khái quát hóa nhất định và có thể được sử dụng trong các nhiệm vụ NLP không liên quan gì đến các nhiệm vụ giám sát. Nhiệm vụ phổ biến của nó bao gồm:
Suy luận ngôn ngữ tự nhiên: phán đoán mối quan hệ giữa hai câu (bao hàm, mâu thuẫn, trung tính)
Trả lời câu hỏi và suy luận thông thường: nhập bài viết và một số câu trả lời, đồng thời xuất độ chính xác của câu trả lời
Nhận dạng sự giống nhau về ngữ nghĩa: xác định xem ngữ nghĩa của hai câu có liên quan với nhau không
Mặc dù GPT-1 có một số tác dụng đối với các tác vụ chưa được tinh chỉnh nhưng khả năng khái quát hóa của nó thấp hơn nhiều so với các tác vụ được tinh chỉnh có giám sát nên GPT-1 chỉ có thể được coi là một công cụ hiểu ngôn ngữ khá tốt chứ không phải là một công cụ đàm thoại AI.
Mặc dù GPT-1 có một số tác dụng đối với các tác vụ chưa được tinh chỉnh nhưng khả năng khái quát hóa của nó thấp hơn nhiều so với các tác vụ được tinh chỉnh có giám sát nên GPT-1 chỉ có thể được coi là một công cụ hiểu ngôn ngữ khá tốt chứ không phải là một công cụ đàm thoại AI.
GPT-2 cũng đến vào năm 2019 như dự kiến. Tuy nhiên, GPT-2 không thực hiện quá nhiều đổi mới về cấu trúc và thiết kế trên mạng ban đầu mà chỉ sử dụng nhiều tham số mạng hơn và bộ dữ liệu lớn hơn: mô hình lớn nhất có tổng cộng 48 lớp, với một khối lượng tham số là 1,5 tỷ và mục tiêu học tập sử dụng mô hình đào tạo trước không giám sát cho các nhiệm vụ được giám sát.Về hiệu suất, ngoài khả năng hiểu, GPT-2 lần đầu tiên thể hiện tài năng mạnh mẽ về khả năng tạo: đọc tóm tắt, trò chuyện, viết tiếp, bịa chuyện và thậm chí tạo tin giả, email lừa đảo hoặc vai trò -chơi trực tuyến Không vấn đề gì.Sau khi "lớn lên", GPT-2 đã thể hiện được khả năng tổng quát và mạnh mẽ, đồng thời đạt hiệu suất tốt nhất tại thời điểm đó trên nhiều tác vụ mô hình hóa ngôn ngữ cụ thể.
sau đó,GPT-3 xuất hiện dưới dạng mô hình không giám sát (ngày nay thường được gọi là mô hình tự giám sát), gần như có thể hoàn thành hầu hết các tác vụ xử lý ngôn ngữ tự nhiên,Các ví dụ bao gồm tìm kiếm theo hướng câu hỏi, đọc hiểu, suy luận ngữ nghĩa, dịch máy, tạo bài viết và trả lời câu hỏi tự động, trong số những thứ khác. Hơn nữa, mô hình vượt trội trong các nhiệm vụ như dịch máy Pháp-Anh và Đức-Anh hiện đại nhất, với các bài báo được tạo tự động hầu như không thể phân biệt được do con người hay máy móc (chỉ đúng 52%, so với phỏng đoán ngẫu nhiên) , và ngạc nhiên hơn nữa, nó đã đạt được độ chính xác gần như 100% đối với các tác vụ cộng và trừ hai chữ số, thậm chí có thể tự động tạo mã dựa trên mô tả tác vụ.Một mô hình không giám sát có nhiều chức năng và hoạt động tốt, và có vẻ như người ta nhìn thấy hy vọng về trí tuệ nhân tạo nói chung, có lẽ đây là lý do chính khiến GPT-3 có tác động lớn như vậy
Mô hình GPT-3 chính xác là gì?
Trên thực tế, GPT-3 là một mô hình ngôn ngữ thống kê đơn giản. Từ góc độ học máy, mô hình ngôn ngữ là mô hình hóa phân phối xác suất của các chuỗi từ, nghĩa là sử dụng các đoạn đã được nói làm điều kiện để dự đoán phân phối xác suất xuất hiện của các từ khác nhau vào thời điểm tiếp theo. Một mặt, mô hình ngôn ngữ có thể đo mức độ mà một câu phù hợp với ngữ pháp ngôn ngữ (ví dụ: để đo xem câu trả lời do hệ thống đối thoại giữa người và máy tính tự động tạo ra có tự nhiên và trôi chảy hay không), và nó cũng có thể là được sử dụng để dự đoán và tạo câu mới. Ví dụ, đối với phân đoạn "12h trưa rồi, cùng nhau đi ăn nhà hàng", mô hình ngôn ngữ có thể dự đoán những từ có thể xuất hiện sau "nhà hàng". Một mô hình ngôn ngữ chung sẽ dự đoán rằng từ tiếp theo là "ăn" và một mô hình ngôn ngữ mạnh mẽ có thể nắm bắt thông tin về thời gian và dự đoán từ "ăn trưa" phù hợp với ngữ cảnh.
Nói chung, một mô hình ngôn ngữ mạnh hay không chủ yếu phụ thuộc vào hai điểm: Thứ nhất, mô hình đó có sử dụng được hết thông tin ngữ cảnh lịch sử hay không.Trong ví dụ trên, nếu không nắm bắt được thông tin ngữ nghĩa đường dài của "12 giờ trưa", mô hình ngôn ngữ gần như không thể đoán trước được một từ "ăn trưa". Thứ hai, nó cũng phụ thuộc vào việc liệu có đủ bối cảnh lịch sử phong phú để mô hình học hỏi hay không, nghĩa là, liệu kho ngữ liệu đào tạo có đủ phong phú hay không. Vì mô hình ngôn ngữ thuộc về học tự giám sát nên mục tiêu tối ưu hóa là tối đa hóa xác suất mô hình ngôn ngữ của văn bản được nhìn thấy, do đó, bất kỳ văn bản nào cũng có thể được sử dụng làm dữ liệu huấn luyện mà không cần gắn nhãn.
Do hiệu suất mạnh hơn và nhiều tham số hơn đáng kể của GPT-3, nó chứa nhiều văn bản chủ đề hơn, rõ ràng là tốt hơn so với GPT-2 thế hệ trước. Là mạng thần kinh có mật độ dày đặc lớn nhất từ trước đến nay, GPT-3 có thể dịch các mô tả trang web thành các mã tương ứng, bắt chước lời kể của con người, tạo các bài thơ tùy chỉnh, tạo kịch bản trò chơi và thậm chí bắt chước dự đoán ý nghĩa thực sự của cuộc sống của các triết gia quá cố. Còn GPT-3 thì không cần tinh chỉnh, về mặt xử lý khó ngữ pháp thì chỉ cần một số sample các kiểu đầu ra (lượng học ít). Có thể nói GPT-3 dường như đã thỏa mãn mọi trí tưởng tượng của chúng ta đối với các chuyên gia ngôn ngữ.
Lưu ý: Trên đây chủ yếu đề cập đến các bài viết sau:
1. Việc phát hành GPT 4 sắp được so sánh với bộ não của con người và nhiều ông lớn trong giới không thể ngồi yên! -Xu Jiecheng, Yun Zhao-Public Account 51 CTO Technology Stack- 2022-11-24 18:08
2. Bài viết này giải đáp sự tò mò của bạn về GPT-3! GPT-3 là gì? Tại sao bạn nói nó rất tốt? -Zhang Jiajun, Viện Tự động hóa, Viện Khoa học Trung Quốc Published in Beijing 2020-11-11 17: 25
tiêu đề phụ
Có gì sai với GPT-3?
Nhưng GTP-3 không hoàn hảo, một trong những vấn đề chính mà mọi người lo lắng nhất về trí tuệ nhân tạo là chatbot và các công cụ tạo văn bản có khả năng học tất cả các văn bản trên Internet bất kể chất lượng và chất lượng của chúng, sau đó sản xuất sai, gây ác ý , hoặc thậm chí đầu ra ngôn ngữ xúc phạm, điều này sẽ ảnh hưởng hoàn toàn đến ứng dụng tiếp theo của họ.
Mô tả hình ảnh
So sánh GPT-3 với GPT-4, bộ não con người (Tín dụng hình ảnh: Lex Fridman @youtube)
Người ta nói rằng GPT-4 sẽ được phát hành vào năm tới, nó có thể vượt qua bài kiểm tra Turing và tiên tiến đến mức không thể phân biệt được với con người, ngoài ra, chi phí giới thiệu GPT-4 cho các doanh nghiệp cũng sẽ giảm trên diện rộng.
tiêu đề phụ
ChatGPT và InstructGPT
Nói đến Chatgpt thì phải nói đến “tiền bối” InstructGPT của nó.
tiêu đề phụ
InstructGPT hoạt động như thế nào?
Các nhà phát triển làm điều này bằng cách kết hợp học có giám sát + học tăng cường từ phản hồi của con người. để cải thiện chất lượng đầu ra của GPT-3. Trong kiểu học này, con người xếp hạng các đầu ra tiềm năng của các mô hình; các thuật toán học tăng cường thưởng cho các mô hình tạo ra tài liệu giống với các đầu ra cấp cao hơn.
Tập dữ liệu đào tạo bắt đầu bằng việc tạo lời nhắc, một số lời nhắc dựa trên thông tin đầu vào của người dùng GPT-3, chẳng hạn như “kể cho tôi nghe câu chuyện về một con ếch” hoặc “giải thích về việc hạ cánh lên mặt trăng cho một đứa trẻ 6 tuổi trong một vài câu".
Nhà phát triển chia lời nhắc thành ba phần và tạo phản hồi cho từng phần khác nhau:
Các nhà văn con người phản ứng với loạt lời nhắc đầu tiên. Các nhà phát triển đã tinh chỉnh GPT-3 đã được đào tạo, biến nó thành InstructGPT để tạo phản hồi hiện có cho mỗi lời nhắc.
Bước tiếp theo là đào tạo một mô hình để trao phần thưởng cao hơn cho những phản hồi tốt hơn. Đối với tập hợp tín hiệu thứ hai, mô hình được tối ưu hóa sẽ tạo ra nhiều phản hồi. Người đánh giá con người xếp hạng từng câu trả lời. Đưa ra một lời nhắc và hai câu trả lời, một mô hình phần thưởng (một GPT-3 được đào tạo trước khác) đã học cách tính phần thưởng cao hơn cho các câu trả lời được đánh giá cao và phần thưởng thấp hơn cho các câu trả lời được xếp hạng thấp.
Các nhà phát triển đã tinh chỉnh thêm mô hình ngôn ngữ bằng cách sử dụng bộ gợi ý thứ ba và phương pháp học tăng cường có tên là Tối ưu hóa Chính sách Gần nhất (PPO). Khi được nhắc, mô hình ngôn ngữ sẽ tạo ra phản hồi và mô hình phần thưởng sẽ thưởng cho nó tương ứng. PPO sử dụng phần thưởng để cập nhật mô hình ngôn ngữ.
Tham khảo cho đoạn này: The Batch: 329 | InstructGPT, một mô hình ngôn ngữ thân thiện hơn và nhẹ nhàng hơn-tài khoản công khai DeeplearningAI- 2022-02-07 12:30
Nó quan trọng ở chỗ nào? Cốt lõi nằm ở chỗ - trí tuệ nhân tạo cần trí tuệ nhân tạo có trách nhiệm
Mô hình ngôn ngữ của OpenAI có thể hỗ trợ lĩnh vực giáo dục, nhà trị liệu ảo, hỗ trợ viết, trò chơi nhập vai, v.v. có khả năng hơn.sự hữu dụng.
Sự khác biệt giữa quá trình đào tạo của Chatgpt và InstructGPT là gì?
Nhìn chung, Chatgpt, giống như InstructGPT ở trên, được đào tạo bằng RLHF (Học tăng cường từ phản hồi của con người). Sự khác biệt là cách dữ liệu được thiết lập để đào tạo (và do đó là bộ sưu tập).(Giải thích tại đây: mô hình InstructGPT trước đây đưa ra một đầu ra cho một đầu vào, sau đó so sánh với dữ liệu huấn luyện. Đúng thì có thưởng, sai thì bị phạt; Chatgpt hiện tại là một đầu vào , mô hình đưa ra nhiều kết quả đầu ra, sau đó người ta đưa ra Sắp xếp kết quả đầu ra, để mô hình sắp xếp các kết quả này từ "giống con người hơn" đến "vô nghĩa" và để mô hình học cách con người sắp xếp. Chiến lược này được gọi là học có giám sát .Cảm ơn Tiến sĩ Zhang Zijian về đoạn này)
Những hạn chế của ChatGPT là gì?
như sau:
a) Trong giai đoạn đào tạo Học tăng cường (RL), không có nguồn sự thật cụ thể và câu trả lời kinh điển cho câu hỏi của bạn, để trả lời câu hỏi của bạn.
b) Mô hình được huấn luyện thận trọng hơn và có thể từ chối trả lời (để tránh nhận diện sai đối với các gợi ý).
c) Đào tạo có giám sát có thể khiến mô hình hiểu sai/sai lệch khi biết câu trả lời lý tưởng, thay vì mô hình tạo ra một tập hợp câu trả lời ngẫu nhiên và chỉ những người đánh giá là con người mới chọn câu trả lời tốt/được xếp hạng cao nhất
người giới thiệu:
ChatGPT’s self-identified limitations are as follows.
Plausible-sounding but incorrect answers:
a) There is no real source of truth to fix this issue during the Reinforcement Learning (RL) phase of training.
b) Training model to be more cautious can mistakenly decline to answer (false positive of troublesome prompts).
c) Supervised training may mislead / bias the model tends to know the ideal answer rather than the model generating a random set of responses and only human reviewers selecting a good/highly-ranked responseChatGPT is sensitive to phrasing. Sometimes the model ends up with no response for a phrase, but with a slight tweak to the question/phrase, it ends up answering it correctly.
Trainers prefer longer answers that might look more comprehensive, leading to a bias towards verbose responses and overuse of certain phrases.The model is not appropriately asking for clarification if the initial prompt or question is ambiguous.A safety layer to refuse inappropriate requests via Moderation API has been implemented. However, we can still expect false negative and positive responses.
người giới thiệu:
1.https://medium.com/inkwater-atlas/chatgpt-the-new-frontier-of-artificial-intelligence-9 aee 81287677
2.https://pub.towardsai.net/openai-debuts-chatgpt-50 dd 611278 a 4
3.https://openai.com/blog/chatgpt/
4. Việc phát hành GPT 4 sắp được so sánh với bộ não của con người và nhiều ông lớn trong giới không thể ngồi yên! -Xu Jiecheng, Yun Zhao-Public Account 51 CTO Technology Stack- 2022-11-24 18:08
5. Bài viết này giải đáp sự tò mò của bạn về GPT-3! GPT-3 là gì? Tại sao bạn nói nó rất tốt? -Zhang Jiajun, Viện Tự động hóa, Viện Khoa học Trung Quốc Published in Beijing 2020-11-11 17: 25
liên kết gốc
