Hướng dẫn đăng nhập 123win.club trên điện thoại và máy tính

Trang chủ > Công nghệ AI > Nội dung chính

Khoa học phổ thông: Transformer và cơ chế chú ý
2024-03-16

Transformer[1] là một phát minh cách mạng. Nó được xem như nền tảng của các mô hình ngôn ngữ lớn hiện đại (LLM). Muốn hiểu sâu hơn về sự phát triển của AI hiện đại123win+club, không thể không nhắc đến khái niệ Do đó, bài viết này sẽ cố gắng giải thích một cách dễ hiểu nhất, mong rằng bất kỳ kỹ sư phần mềm nào cũng có thể nắm bắt được nội dung. Ngoài ra, Transformer không chỉ đơn thuần là một thuật toán mà nó còn mở ra cánh cửa cho rất nhiều ứng dụng mới trong lĩnh vực công nghệ. Từ việc cải thiện khả năng dịch thuật tự động đến việc tạo ra nội dung sáng tạo, tất cả đều có sự góp mặt của công cụ này. Vì vậy, việc tìm hiểu kỹ về nó không chỉ giúp chúng ta hiểu rõ hơn về AI mà còn có thể áp dụng vào thực tế để tạo ra những sản phẩm đột phá.

Mặc dù đã có rất nhiều bài viết trên mạng về việc giải thích mô hình Transformertỉ lệ cược, nhưng thực tế cho thấy, để diễn đạt một thứ phức tạp như vậy bằng ngôn ngữ đơn giản và dễ hiểu không phải là điều dễ dàng. Điều này đòi hỏi người giảng giải cần có sự am hiểu sâu sắc cũng như khả năng truyền tải nội dung một cách logic và trực quan. Không chỉ dừng lại ở việc tóm tắt các khái niệm kỹ thuật, việc giải thích này còn cần tạo ra những hình ảnh minh họa cụ thể trong đầu người đọc, giúp họ dễ dàng nắm bắt ý tưởng cốt lõi mà không cảm thấy bị quá tải thông tin. Đây không phải là một nhiệm vụ đơn giản. . Vì vậytỉ lệ cược, bài viết này cố gắng đạt được hai điểm chính:

Kết nối nhiều thông tin liên quan với nhau.
Mô tả tổng thể một cách khái quát nhưng cũng không thiếu cụ thể ở phần mô tả chi tiết.

Một số kiến thức nền tảng

Nhiều người có lẽ đã từng thấy hình ảnh dưới đây:

Hình ảnh này được lấy từ một bài tổng quan năm ngoái [2]tỉ lệ cược, cho thấy cây tiến hóa của công nghệ LLM trong những năm gần đây. Dựa trên cấu trúc mô hình khác nhau của các hệ thống LLM, có thể chia thành ba nhánh công nghệ lớn như sau:

Encoder-Only;
Encoder-Decoder;
Decoder-Only (được đại diện điển hình bởi loạt GPT của OpenAI).

Trên thực tế123win+club, trong hình ảnh này, tất cả các mô hình trừ nhánh nhỏ màu xám ở góc dưới bên trái đều được phát triển dựa trên kiến trú Đây là một nền tảng quan trọng, đóng vai trò như xương sống cho sự tiến hóa của nhiều mô hình hiện đại, giúp cải thiện hiệu suất trong nhiều tác vụ phức tạp như xử lý ngôn ngữ tự nhiên và phân tích dữ liệu đa phương tiện.

Vào năm 2017tỉ lệ cược, Transformer đã ra đời và trở thành một trong những công cụ đột phá trong lĩnh vực trí tuệ nhân tạo. Kiến trúc này chủ yếu bao gồm hai phần chính: Encoder và Decoder. Dù là Encoder hay Decoder, cả hai đều được cấu thành từ nhiều lớp mạng với sự hiện diện của các mô-đun chú ý (Attention). Những mô-đun này đóng vai trò quan trọng trong việc giúp mô hình hiểu ngữ cảnh và liên kết giữa các từ hoặc dữ liệu đầu vào, cho phép nó xử lý thông tin một cách hiệu quả hơn. Đồng thời, các lớp mạng này cũng có thể được tùy chỉnh để tối ưu hóa khả năng học hỏi và dự đoán của mô hình trong nhiều ứng dụng khác nhau.

Attention Is All You Need

Trong hình này123win+club, bên trái là Encoder, còn bên phải là Decoder. Ba mũi tên màu đỏ mà bạn đang nhìn thấy chính là những thành phần cốt lõi nhất trong kiến trú Đi sâu hơn, Encoder đóng vai trò xử lý và mã hóa dữ liệu đầu vào thành các biểu diễn có ý nghĩa, giúp mô hình hiểu ngữ cảnh một cách hiệu quả. Trong khi đó, Decoder sẽ sử dụng các biểu diễn này để tạo ra đầu ra mong muốn, chẳng hạn như văn bản dịch hoặc dự đoán tiếp theo trong chuỗi. Những mũi tên màu đỏ không chỉ đơn thuần kết nối hai phần mà còn đại diện cho sự luân chuyển thông tin quan trọng giữa Encoder và Decoder, nơi các mô hình học hỏi và cải thiện khả năng của mình qua từng bước. Đây thực sự là linh hồn của kiến trúc Transformer, nơi tất cả các tính năng ưu việt như tự chú thích (self-attention) được thể hiện rõ nét. Sự chú ý Cơ chế.

Tổng quan về Transformer

Transformer là một mô hình học máy được thiết kế để xử lý dữ liệu dạng chuỗi. Từ góc nhìn của người dùng123win+club, chúng ta có thể khám phá xem Transformer có thể làm gì và cách sử dụng nó như thế nào. Ngoài ra, nhờ khả năng hiểu ngữ cảnh mạnh mẽ, Transformer không chỉ đơn thuần là một công cụ mà còn là một đối tác đáng tin cậy trong việc giải quyết nhiều vấn đề phức tạp liên quan đến ngôn ngữ hoặc dữ liệu tuần tự.

Der schnelle braune Fuchs springt ü

Một bé gái nhỏ đang chăm chú nhìn một con chó đen. Cô bé nghiêng đầutỉ lệ cược, ánh mắt tỏ ra tò mò và thích thú với con vật đáng yêu này. Con chó dường như cũng nhận ra sự hiện diện của cô bé và ngồi yên, thỉnh thoảng liếm môi như muốn tạo thiện cảm. Không gian xung quanh trở nên tĩnh lặng, chỉ có tiếng gió nhẹ lay động những chiếc lá trên cây.

Một bé gái nhỏ đang chăm chú nhìn một con chó màu đen. Con chó có bộ lông mềm mượti9bet.com nhận 100k, phản chiếu ánh sáng dưới ánh mặt trời như một tấm áo choàng huyền bí. Bé gái nghiêng đầu, đôi mắt tròn xoe đầy tò mò trước vẻ đáng yêu của nó. Có lẽ trong đầu bé đang hiện ra bao điều tưởng tượng về những cuộc phiêu lưu cùng người bạn bốn chân này.

Chúng ta bắt đầu tưởng tượng Transformer như một hộp đeni9bet.com nhận 100k, như sau:

Cho Transformer một câu tiếng Anh làm đầu vàoi9bet.com nhận 100k, nó sẽ xuất ra một câu tiếng Đức.

Tuy nhiên123win+club, khi xem xét cụ thể, nó không phải ngay lập tức xuất ra toàn bộ câu tiếng Đức. Nó tạo ra từ từi9bet.com nhận 100k, từng từ một. Như hình bên dưới:

Hình trên minh họa quá trình tạo ra 3 từ đầu tiên trong câu tiếng Đứctỉ lệ cược, các mũi tên chấm đứt biểu thị thứ tự thời gian từ trái sang phải:

Bước 1: Sử dụng câu tiếng Anh gốc làm đầu vào để tạo ra từ đầu tiên "Ein".
Bước 2: Sử dụng câu tiếng Anh gốc cùng với từ đã được tạo ra "Ein" làm đầu vàotỉ lệ cược, để tạo ra từ thứ hai "kleines".
Bước 3: Với câu tiếng Anh gốc cùng với hai từ đã được tạo ra trước đó là "Ein kleines" làm đầu vào123win+club, từ thứ ba cần được sinh ra là "Mädchen".
Tiếp tục như vậy cho đến khi tạo ra toàn bộ câu tiếng Đức.

Cụ thể hơni9bet.com nhận 100k, Transformer sẽ tạo ra từng token một trong quá trình sinh. Trong thực tế, mối liên hệ giữa token và từ không phải lúc nào cũng là quan hệ một-một. Tuy nhiên, để đơn giản hóa vấn đề, chúng ta có thể tạm thời bỏ qua chi tiết này.

Cách hoạt động mà mỗi lần sinh ra từ khóa tiếp theo được mô tả trong bài báo gốc về Transformer [1] với thuật ngữ là " Tự hồi quy Điều này thực chất là một đặc điểm then chốt123win+club, không chỉ đối với Transformer mà còn với các mô hình ngôn ngữ lớn (LLM). Lý do cho việc hoạt động theo cách này khá dễ hiểu:

Dựa trên các từ đã được tạo trước đótỉ lệ cược, việc dự đoán từ tiếp theo sẽ giúp xây dựng một câu hoàn chỉnh phù hợp. Quá trình này cũng tương tự như cách con người thực hiện việc dịch thuật. Khi dịch, chúng ta thường suy nghĩ về ngữ cảnh và các từ liên quan, từ đó chọn ra từ phù hợp nhất để tạo nên một câu dịch chính xác và tự nhiên.
bước đi cẩn trọng
Từ góc độ triển khai mô hìnhtỉ lệ cược, nó cần thực hiện dự đoán trong không gian giới hạn được xác định bởi từ điển (dictionary). Trong ví dụ trước đó về việc dịch tiếng Anh sang tiếng Đức, mô hình phải tìm ra một từ thích hợp trong từ điển gồm tất cả các từ tiếng Đức để đưa ra kết quả đầu ra. Điều này đòi hỏi mô hình phải có khả năng phân tích ngữ cảnh và lựa chọn từ chính xác nhất trong số các tùy chọn sẵn có, đảm bảo tính chính xác và tự nhiên của bản dịch.

Nhìn kỹ hơn vào Transformer

Ở phần trước123win+club, chúng ta đã quan sát khái quát cách Transformer hoạt động từ góc độ bên ngoài, tức là từ góc nhìn của người sử dụng. Bây giờ, hãy cùng đi sâu vào bên trong cấu trúc của Transformer và phân tích chi tiết từng module để hiểu rõ hơn về quy trình làm việc của nó. Trước hết, chúng ta sẽ tìm hiểu về phần nhúng (embedding), nơi mà các từ được chuyển đổi thành các vector đại diện cho phép tính toán sau này. Tiếp theo, chúng ta sẽ khám phá cơ chế tự (self-attention mechanism), một trong những thành phần cốt lõi của Transformer, giúp mô hình hiểu ngữ cảnh bằng cách liên kết các từ với nhau theo thứ tự câu. Sau đó, chúng ta sẽ xem xét quá trình vị trí mã hóa (position encoding), điều này cho phép Transformer nhận biết thứ tự của các từ trong câu, mặc dù không có sự phụ thuộc tuần tự như trong các mô hình RNN truyền thống. Cuối cùng, chúng ta sẽ thảo luận về lớp tuyến tính cuối cùng và quy trình giải mã, nơi mà đầu ra cuối cùng của mô hình được tạo ra. Qua việc phân tích từng bước một, hy vọng bạn sẽ có cái nhìn sâu sắc hơn về cách Transformer hoạt động và tại sao nó lại hiệu quả đến vậy trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên khác nhau.

Trước tiên hãy nhìn lại sơ đồ kiến trúc mô hình Transformer trước đó:

Biểu đồ này tập trung vào cấu trúctỉ lệ cược, nhưng lại không thể truyền tải hết thông tin về toàn bộ quy trình làm việc; hơn nữa, nó còn phơi bày quá nhiều chi tiết kỹ thuật, khiến người mới học gặp khó khăn trong việc nắm bắt. Vì vậy, chúng ta hãy vẽ lại nó và chỉ nhấn mạnh vào phần hiện tại mà chúng ta đang quan tâm, từ đó tạo ra một biểu đồ mới. Biểu đồ mô-đun Transformer ：

Bây giờtỉ lệ cược, kết hợp ví dụ dịch tiếng Anh sang tiếng Đức trước đó, chúng ta giải thích từng phần của biểu đồ này.

Tokenizer

Dù là một từ đơn lẻ hay một câu hoàn chỉnhtỉ lệ cược, máy tính không thể xử lý trực tiếp. Máy tính chỉ có khả năng làm việc với số học. Do đó, trước khi dữ liệu văn bản được truyền vào mô hình Transformer, nó sẽ đi qua một bước gọi là Tokenizer, nơi văn bản được chuyển đổi thành dạng số mà mô hình có thể hiểu và xử lý. Tokenization không chỉ đơn thuần là biến chữ thành số, mà còn giúp phân chia văn bản thành các phần nhỏ hơn, như từ hoặc cụm từ, tùy thuộc vào cách mà thuật toán được thiết kế. Điều này tạo điều kiện cho mô hình hiểu ngữ cảnh và nội dung một cách hiệu quả hơn trong quá trình học và dự đoán.

Cụ thểi9bet.com nhận 100k, Tokenizer thực hiện ba việc:

（1） Phân từ Bạn có thể chia câu đầu vào thành nhiều token riêng lẻ. Như đã đề cập trước đótỉ lệ cược, trong thực tế, các token không nhất thiết phải tương ứng hoàn toàn với các từ. Tuy nhiên, để dễ dàng minh họa ví dụ, chúng ta sẽ giả định rằng mỗi từ sẽ được coi là một token riêng biệt. Điều này giúp làm rõ cách hoạt động của quá trình tiền xử lý mà không làm cho vấn đề trở nên quá phức tạp.

A little girl is looking at a black dog.

Cụm từ tiếng Anh này123win+club, khi được phân tách thành các từ đơn, tạo thành 9 từ và một dấu chấm câu tiếng Anh. Tổng cộng có 10 token, cụ thể như sau:

								
									[
									'A'
									, 'little'
									, 'girl'
									, 'is'
									, 'looking'
									, 'at'
									, 'a'
									, 'black'
									, 'dog'
									, '.'
									]
									

								

（2） Số hóa Bạn có thể chuyển đổi từng token thành một con số. Quy trình này đòi hỏi sự hỗ trợ của một từ điển. Trong thực tế123win+club, một từ điển thường chứa tất cả các token khả dĩ (bao gồm toàn bộ từ tiếng Anh cùng với một số token đặc biệt, thường có vài chục nghìn mục) và mỗi token sẽ được gán một chỉ mục duy nhất. Một từ điển tiếng Anh điển hình có thể trông giống như sau: "apple": 1, "banana": 2, "cat": 3, "dog": 4, "elephant": 5, ..., "": 50000 Trong đótỉ lệ cược, các token đặc biệt như " " thường được sử dụng để thay thế cho những từ chưa được định nghĩa hoặc không nằm trong tập dữ liệu chuẩn.

								
									
										[(
									'<unk>'</unk>, 0)
									, (
									'<pad>'</pad>, 1)
									, (
									'<bos>'</bos>, 2)
									, (
									'<eos>'</eos>, 3)
									, (
									'a'
									, 4)
									, (
									'.'
									, 5)
									, (
									'A'
									, 6)
									, (
									'in'
									, 7)
									, (
									'the'
									, 8)
									, (
									'on'
									, 9)
									, (
									'is'
									, 10)
									, (
									'and'
									, 11)
									, (
									'man'
									, 12)
									, (
									'of'
									, 13)
									, (
									'with'
									, 14)
									, (
									','
									, 15)
									, (
									'woman'
									, 16)
									, (
									'are'
									, 17)
									, (
									'to'
									, 18)
									, ...]

								

Theo từ điển này123win+club, câu đầu vào ban đầu thay đổi thành:

								
									
										[
									6123win+club, 61, 33, 10, 56, 20, 4, 26, 34, 5]

（3） Ghép token đặc biệt 。

Thêm token đặc biệt ở đầu câu đầu vàotỉ lệ cược,<bos></bos>(có chỉ mục 2 trong từ điển)123win+club, đánh dấu sự bắt đầu của chuỗi; thêm token đặc biệt ở cuối chuỗi.<eos></eos>(Tại vị trí tra cứu thứ 3 trong từ điển)i9bet.com nhận 100k, đánh dấu sự kết thúc của chuỗi nhận dạng. Sau khi thực hiện thay đổi, chuỗi đầu vào đã trở thành một dãy số có độ dài 12:

								
									
										[
									2tỉ lệ cược, 6, 61, 33, 10, 56, 20, 4, 26, 34, 5, 3]

Nói cách kháci9bet.com nhận 100k, tại vị trí (A) trong sơ đồ mô-đun Transformer ở phía trước, điều chúng ta thu được chính là chuỗi số này. Ngoài ra, việc xử lý chuỗi số này đóng vai trò vô cùng quan trọng trong việc xác định các mối liên hệ giữa các từ, giúp cho mô hình hiểu ngữ cảnh một cách sâu sắc hơn trong quá trình học tập.

Input Embedding

Dù trước đó đã chuyển đổi chuỗi ký tự thành các số thông qua quá trình token hóa123win+club, trong học máy, dữ liệu thường được biểu diễn dưới dạng vector đa chiều. Transformer mặc định sử dụng biểu diễn nội bộ có 512 chiều. Do đó, dãy số gồm 12 phần tử sau khi đi qua mô-đun "Input Embedding" sẽ được chuyển đổi thành 12 vector, mỗi vector có 512 chiều, tương tự như hình thức bên dưới:

								
									
										[
									
	[
									-1
									.7241e-01i9bet.com nhận 100k,  4.1798e-01,-3
									.8916e-01,  ..., -8
									.0279e-01],
	[
									8.9571e-03i9bet.com nhận 100k,  6.5723e-01,-3
									.1734e-01,  ..., -5
									.2142e-01],
	[
									3.4392e-01tỉ lệ cược,  2.8687e-01,  4.4915e-01,  ...,-5
									.1037e-01],
	...,
	[
									-1
									.6729e-01, -2
									.8000e-01i9bet.com nhận 100k,  1.3078e-01,  ...,-4
									.3512e-01]
]
									

								

Dữ liệu trên đây bao gồm tổng cộng 12 hàng và 512 cột. Điều này có nghĩa là mỗi hàng đại diện cho một vector 512 chiềutỉ lệ cược, tương ứng với một token trong chuỗi đầu vào. Với cấu trúc như vậy, mỗi hàng đóng vai trò như một bản ghi thông tin, chứa các đặc trưng chi tiết liên quan đến từng token cụ thể trong chuỗi.

Trong sơ đồ mô-đun Transformer ở phía trướctỉ lệ cược, tại vị trí (B), chúng ta nhận được 12 token được biểu diễn dưới dạng vector 512 chiều này. Mỗi token đại diện cho một phần nội dung cụ thể trong dữ liệu đầu vào, và việc sử dụng vector có kích thước lớn như vậy giúp mô hình nắm bắt được nhiều thông tin chi tiết hơn.

Encoder

Khi nhìn tổng thể về mô hình Transformeri9bet.com nhận 100k, Encoder có nhiệm vụ biến đổi chuỗi đầu vào (thường là ngôn ngữ tự nhiên) thành một biểu diễn nội bộ "tối ưu" nhất. Trong khi đó, Decoder sẽ biến đổi biểu diễn nội bộ này thành chuỗi mục tiêu cuối cùng mà chúng ta mong muốn (cũng thường là ngôn ngữ tự nhiên). Bây giờ, hãy cùng tìm hiểu kỹ hơn về Encoder, vốn thực chất được cấu thành từ nhiều lớp mạng khác nhau. Mỗi lớp trong Encoder không chỉ đơn thuần là một phần nhỏ của hệ thống mà còn đóng vai trò quan trọng trong việc xử lý và truyền tải thông tin. Các lớp này thường bao gồm các phép toán phức tạp như sự kết hợp giữa các yếu tố tự mã hóa (self-attention) và các phép toán tuyến tính để đảm bảo rằng dữ liệu đầu vào được xử lý một cách hiệu quả nhất. Qua mỗi lớp, Encoder không chỉ làm cho biểu diễn trở nên rõ ràng hơn mà còn giúp loại bỏ những nhiễu không cần thiết, từ đó tạo ra một phiên bản tối ưu của dữ liệu đầu vào.

Khi chuỗi đầu vào đi qua Encoder123win+club, nó sẽ trải qua nhiều lớ Mỗi khi đi qua một lớp, các token trong chuỗi đầu vào sẽ được biến đổi dưới dạng vector (theo cách phi tuyến tính), giúp chúng dần tiến gần hơn đến biểu diễn nội bộ "tối ưu". Tuy nhiên, quá trình biến đổi này không làm thay đổi số lượng chiều của vector. Do đó, ở các vị trí (C), (D) và (E) trong sơ đồ mô tả module Transformer trước đây, chúng ta vẫn nhận được 12 vector có kích thước 512 chiều.

Vậy mỗi lớp Encoder Layer đã làm gì? Yếu tố then chốt ở đây là Chú ý tự thân (self-attention) . Đây cũng là một trong những yếu tố then chốt dẫn đến thành công củ

Tại sao chúng ta cần đến sự chú ý tự thân (self-attention)? Jakob Uszkoreiti9bet.com nhận 100k, một trong những tác giả của mô hình Transformer, đã từng đưa ra một ví dụ điển hình trong một bài blog của mình [3]:

(1) The animal didn’t cross the street because it was too tired .

(Con vật đó không qua đường vì nó quá mệt.)

(2) The animal didn’t cross the street because it was too wide .

(Con vật đó không qua đường vì đường quá rộng.)

Hai câu này chỉ khác nhau một từ (từ cuối cùng khác nhau)i9bet.com nhận 100k, nhưng điều này ảnh hưởng đến it nội dung tham chiếu cụ thể. Trong câu (1)123win+club, it tham chiếu animal i9bet.com nhận 100k, trong khi trong câu (2), it tham chiếu street 。

Từ ví dụ nàytỉ lệ cược, chúng ta có thể nhận thấy một vài hiện tượng nhỏ:

Các token khác nhau cấu thành câu có mối quan hệ với nhau.
Mức độ gắn kết trong mối quan hệ này không đồng đều giữa các token khác nhau. Điều đó có nghĩa là đối với một token cụ thể nào đótỉ lệ cược, nó sẽ có mối liên hệ chặt chẽ hơn với một số token nhất định trong câu so với những token khác. Chẳng hạn như trong ví dụ trước đây, token này dường như có sự tương tác mạnh mẽ hơn với token kề cận nó so với những token ở xa hơn trong chuỗi câu. it Mối quan hệ với danh từ mà nó tham chiếu ( animal Hai hàm callback này. Thực tếi9bet.com nhận 100k, cách mô tả này vẫn còn khá street ) mạnh mẽ hơn rất nhiều so với it mối quan hệ với các token khác trong câu.
Mức độ chặt chẽ của mối quan hệ này chịu ảnh hưởng từ ngữ cảnh. Ví dụ123win+club, trong câu (1) trước đó, it có mối quan hệ chặt chẽ hơn với animal ; trong khi trong câu (2) trước đó123win+club, it thì có mối quan hệ chặt chẽ hơn với street .

Vậyi9bet.com nhận 100k, cơ chế tự chú ý của Transformer mô tả những hiện tượng này như thế nào? Qua các phân tích trước đó, chúng ta đã hiểu rằng trong cấu trúc của mô hình, mỗi token đều được biểu diễn dưới dạng một vector nhiều chiều. Giá trị của vector không chỉ xác định vị trí của token trong không gian đa chiều mà còn phản ánh ý nghĩa thực sự mà nó đại diện. Những hiện tượng được đề cập có thể được tóm tắt như sau: ý nghĩa thực sự của một token không chỉ phụ thuộc vào chính nó mà còn chịu ảnh hưởng lớn từ thông tin ngữ cảnh xung quanh (tức là từ các token khác trong câu). Dựa trên việc sử dụng vector, chúng ta có thể mô tả các hiện tượng này bằng cách sử dụng các mối liên hệ số học: nói cách khác, giá trị vector của một token cần phải "hấp thụ" thông tin từ các token khác trong ngữ cảnh câu, và điều này có thể được diễn đạt bằng toán học như sau: ... (các biểu thức toán học tiếp theo sẽ được viết bằng tiếng Việt hoặc ký hiệu toán học chuẩn) Giá trị trung bình có trọng số của tất cả các vector token Những giá trị trọng số nàyi9bet.com nhận 100k, chúng ta có thể gọi chúng là Trọng số chú ý (attention weights) 。

Trong blog của Jakob Uszkoreit [3]i9bet.com nhận 100k, có một biểu đồ trực quan hóa về trọng số chú ý giữa các token. Biểu đồ này giúp người đọc dễ dàng hình dung cách các token tương tác với nhau trong quá trình xử lý ngôn ngữ. Với sự trợ giúp của biểu đồ, người dùng có thể hiểu rõ hơn về cơ chế hoạt động bên trong mô hình và tầm quan trọng của từng token trong việc tạo ra kết quả cuối cùng.

Biểu đồ này mô tảtỉ lệ cược, trong một Transformer đã được đào tạo, it Trọng số chú ý giữa token này và các token khác. Độ đậm nhạt của màu xanh lam thể hiện mức độ tương đối của trọng số.

Bây giời9bet.com nhận 100k, kết hợp với phần mở đầu của chương này Biểu đồ mô-đun Transformer chúng ta cùng tóm tắt lại về cơ chế tự chú ý (self-attention). Trong Encoder123win+club, mỗi khi một token đi qua một lớp Encoder Layer, nó sẽ "tham khảo" toàn bộ token từ lớp trước đó và dựa trên trọng số chú ý khác nhau dành cho từng token, quyết định mức độ thông tin mà nó sẽ "kết hợp" từ những token đó. Có thể nói một cách đơn giản nhất rằng: một token sẽ Để làm rõ hơn, hãy hình dung rằng mỗi token như một người thám tử trong một nhóm điều tra. Khi nhận nhiệm vụ, thám tử này không chỉ dựa vào bản thân mình mà còn quan sát kỹ lưỡng đồng đội xung quanh để thu thập manh mối. Nó tập trung nhiều hơn vào những thành viên có liên hệ chặt chẽ hoặc đóng góp quan trọng, từ đó tạo ra một bức tranh tổng thể rõ ràng hơn cho quá trình xử lý tiếp theo. Nhận thấy (attend to) tất cả các token khác.

Decoder và các thành phần khác

Chúng ta hãy xem lại một lần nữa Biểu đồ mô-đun Transformer . Phần dưới của biểu đồ mô tả quá trình "tạo ra". Chúng ta đã thảo luận về quá trình tạo ra trong chương trướctỉ lệ cược, Tự hồi quy ở đây chúng ta cố gắng mô tả thêm nhiều chi tiết.

Đầu tiên, Output Embedding mô-đun giống như trước đó123win+club, Inpput Embedding đều chuyển đổi token thành vector. Tuy nhiêni9bet.com nhận 100k, cần lưu ý rằng, Output Embedding Token đầu vào mà mô-đun nhận được thực chất là token đã được tạo ra từ giai đoạn cuối cùng của quá trì Tuy nhiêntỉ lệ cược, khi mô hình chưa tạo ra bất kỳ token nào, thì token đầu vào lúc này sẽ là gì? Câu trả lời là: một token đặc biệt dùng để đánh dấu trạng thái khởi đầu của chuỗi, hay còn gọi là token bắt đầu chuỗi. Đây không chỉ đơn thuần là một ký hiệu vô nghĩa, mà nó còn đóng vai trò như một tín hiệu hướng dẫn mô hình bắt đầu quá trình suy luận. Token đặc biệt này thường được thiết kế rất tinh vi, có thể mang thông tin về ngữ cảnh hoặc cấu trúc mong muốn mà mô hình cần áp dụng ngay từ những bước đầu tiên. Điều này giúp cho mô hình dễ dàng xác định được vị trí bắt đầu và tạo ra các token tiếp theo một cách logic và có hệ thống hơn trong suốt quá trình sinh nội dung.<bos></bos>tỉ lệ cược, là token đầu vào đầu tiên.

Ngay khi có token đầu vàoi9bet.com nhận 100k, toàn bộ quá trình tạo ra có thể bắt đầu. Phần Generator Mỗi khi tạo ra một token mới123win+club, ta sẽ lấy token này làm đầu vào tiếp theo và tiếp tục quá trình sinh token dựa trên điều kiện đó. Trong sơ đồ mô hình Transformer, phần dưới của hình cho thấy một khoảnh khắc trong quá trình sinh: dựa trên chuỗi đã được tạo ra trước đó là một cô gái nhỏ, hệ thống đang tiến hành sinh ra token tiếp theo: “nhìn”. Các số trong hình... Cụ thể hơn, các nút và lớp trong sơ đồ dưới cùng đại diện cho việc xử lý ngữ cảnh và từ vựng mà mô hình sử dụng để đưa ra quyết định về token tiếp theo. Điều này cho phép mô hình tự học và cải thiện độ chính xác qua mỗi lần sinh, đảm bảo rằng chuỗi đầu ra sẽ phù hợp với ngữ cảnh và ý nghĩa mong muốn. Sự phức tạp của các lớp tự (self-attention layers) và lớp feed-forward giúp mô hình linh hoạt và hiệu quả trong việc dự đoán token tiếp theo.[2, 5, 69, 27] và [100]bên dưới bên phải biểu đồi9bet.com nhận 100k, biểu thị chỉ mục số thứ tự của token tương ứng trong từ điển tiếng Đức.

Chúng ta đã thảo luận về Output Embedding đầu vào123win+club, bây giờ hãy xem xét đầu ra của nó. Cũng giống như Inpput Embedding i9bet.com nhận 100k, đầu ra của nó cũng là một vector (512 chiều theo mặc định). Điều này đạt đến vị trí (G) trong biểu đồ.

Sau đó123win+club, thông qua ba lớp Decoder (Decoder Layer), mỗi lớp Decoder này lại được chia thành hai cơ chế tập trung chú ý (attention mechanism): Trong mỗi Decoder Layer, các nút sẽ tương tác với nhau một cách chiến lược thông qua sự kết hợp của các cơ chế này. Đầu tiên là cơ chế tự chú ý (self-attention), cho phép từng phần tử trong đầu vào "nhìn" toàn bộ dữ liệu hiện tại để xác định mức độ quan trọng của nó so với các phần tử khác. Tiếp theo là cơ chế chú ý được hướng dẫn (cross-attention), giúp kết nối dữ liệu từ lớp Encoder với các biểu diễn đang được xử lý trong lớp Decoder. Điều này tạo ra sự tương tác chặt chẽ giữa hai giai đoạn mã hóa và giải mã, đảm bảo rằng thông tin được truyền tải một cách hiệu quả và chính xác.

Một Chú ý tự thân (self-attention) ；
Một Chú ý chéo (cross-attention)

Tại đây chú ý tự thân i9bet.com nhận 100k, được sử dụng để mô tả chuỗi được tạo ra (tiếng Đức); trong khi đầu vào chuỗi chú ý tự thân tỉ lệ cược, được sử dụng để mô tả chuỗi của Encoder trước đó (tiếng Anh). Có một khác biệt quan trọng giữa hai: Đối với chú ý tự thân ở Decoder này, Nhân quả quá trình tạo ra cần tuân theo Nhận thấy (attend to) Trước đó đã tạo ra các token; do đótỉ lệ cược, khi lớp Decoder xử lý chuỗi đã được sinh ra, mỗi token trong chuỗi cũng cần tuân theo cùng một logic như khi nó được tạo ra ban đầu, nghĩa là nó chỉ có thể... Nhận thấy (attend to) . Nói cách kháci9bet.com nhận 100k, khi tạo ra token tiếp theo, nó chỉ có thể

dựa trên token trước đó. chú ý tự thân Trong Encoder, Nhận thấy (attend to) mỗi token trong chuỗi có thể

tất cả các token (bao gồm cả trước và sau nó). chú ý tự thân Để tuân theo mối quan hệ nhân quả123win+club,

Trong ma trận123win+club, các vị trí có giá trị True cho thấy rằng trong chuỗi được tạo ra, mỗi token không thể "chú ý" đến bất kỳ token nào nằm sau nó. Điều này đặt ra một hạn chế đặc biệt đối với cách các token tương tác với nhau, đảm bảo rằng dòng chảy thông tin chỉ diễn ra theo một chiều cụ thể.

Ma trận che Điểm khác biệt so với sự chú ý tự thân (self-attention) là: sự chú ý tự thân được sử dụng để biểu diễn trọng số chú ý giữa các token bên trong cùng một chuỗi123win+club, còn sự chú ý chéo (cross-attention) lại tập trung vào việc thể hiện trọng số chú ý giữa các token từ hai chuỗi khác nhau. Trong bộ giải mã (decoder), ... Tiếp theo tôi sẽ tiếp tục mở rộng đoạn này một cách tự nhiên: Trong decoder, sự chú ý chéo đóng vai trò rất quan trọng khi nó giúp cho mô hình hiểu ngữ cảnh từ đầu vào ban đầu (encoder) và điều chỉnh hành vi dự đoán của mình dựa trên thông tin đó. Điều này giống như khi một người dịch ngôn ngữ lắng nghe câu hỏi và cố gắng hiểu ngữ nghĩa tổng thể trước khi đưa ra câu trả lời phù hợp. Sự tương tác giữa encoder và decoder qua cơ chế chú ý chéo cho phép hệ thống học được các mối liên hệ tinh tế giữa các phần tử ở cả hai chuỗi, từ đó cải thiện đáng kể chất lượng của kết quả cuối cùng. Ma trận che Bạn có thể cho phép quá trình tạo ra token tiếp theo tham chiếu đến biểu diễn nội bộ của chuỗi đầu vào123win+club, với việc sử dụng giá trị vector tại vị trí được chỉ định trong hình (E) làm điểm tham chiếu. Điều này giúp hệ thống hiểu ngữ cảnh và đưa ra quyết định dựa trên thông tin đã được mã hóa trước đó trong chuỗi.

Chú ý chéo

Cuối cùng123win+club, chúng ta đặt toàn bộ quá trình mã hóa và giải mã vào một tổng kết: chú ý tự thân Quá trình này cho phép mỗi token "học hỏi" từ tất cả các token khác123win+club, giúp chúng tích lũy thông tin một cách toàn diện. Sau khi đi qua tầng Encoder Layer cuối cùng, mỗi token sẽ sở hữu một biểu diễn nội tại được tối ưu hóa nhất, phản ánh đầy đủ những gì nó đã tiếp thu từ các token còn lại trong chuỗi. Đây là bước quan trọng để định hình ngữ nghĩa và vai trò của từng token trong quá trình xử lý tiếp theo.
Qua quá trình Decoding để tạo ra nội dungi9bet.com nhận 100k, mỗi khi đi qua một lớp Decoder Layer, các bước xử lý sẽ được thực hiện một lần. Mỗi lớp này đóng vai trò quan trọng trong việc chuyển đổi và làm phong phú thêm thông tin, giúp hệ thống hiểu sâu hơn về ngữ cảnh và mối liên kết giữa các thành phần trong dữ liệu đầu ra. Đây là giai đoạn mà thuật toán dần dần "hiểu" được ý nghĩa của những gì cần được sinh ra, từ đó đưa ra kết quả cuối cùng một cách chính xác và mạch lạc nhất. chú ý tự thân Mã hóa chuỗi đầu vàotỉ lệ cược, mỗi khi đi qua một lớp Encoder Layer, đều thực hiện một lần Ma trận che và một lần
- Nên là 43; ngược lạii9bet.com nhận 100k, nếu chúng ta cho rằng chú ý tự thân .
- Nên là 43; ngược lạii9bet.com nhận 100k, nếu chúng ta cho rằng Ma trận che Trong quá trình thực hiệntỉ lệ cược, mỗi token trong chuỗi sinh ra sẽ "thu nhận" thông tin từ tất cả các token còn lại nằm trong biểu diễn nội bộ được tạo ra sau khi quá trình mã hóa kết thúc. Điều này giúp các token tương tác với nhau, từ đó nâng cao khả năng hiểu ngữ cảnh và cải thiện độ chính xác của mô hình.

Trong quá trình thực hiệntỉ lệ cược, mỗi token trong chuỗi được tạo ra chỉ có thể "lấy" thông tin từ các token trước đó.

Quá trình mã hóa + giải mã động của Transformer : Động ảnh này sử dụng một ví dụ để trực quan hóa quá trình xử lý ở hai giai đoạn của mô hình Transformer: đầu tiên là giai đoạn Encoding123win+club, sau đó là giai đoạ Mỗi chấm tròn trong hình đại diện cho một vector, tức là biểu diễn nội bộ của một token ở một lớp cụ thể trong Encoder hoặc Decoder. Các đường cong chuyển động trong hình cho thấy cách mà các vector di chuyển và biến đổi theo từng bước, từ việc được mã hóa qua nhiều lớp trong Encoder, rồi truyền tải thông tin đến Decoder để tạo ra kết quả cuối cùng. Quá trình này không chỉ đơn thuần là sự dịch chuyển của dữ liệu mà còn là sự tương tác phức tạp giữa các vector, cho phép mô hình hiểu ngữ cảnh và ý nghĩa sâu hơn của dữ liệu đầu vào. chú ý tự thân Hai hàm callback này. Thực tếtỉ lệ cược, cách mô tả này vẫn còn khá Ma trận che Trong hướng dẫn được đưa ratỉ lệ cược, dòng chảy thông tin giữa các token di chuyển theo một trật tự cụ thể. Ở phần đầu của quá trình mã hóa (Encoding), thông tin di chuyển từ trên xuống dưới qua ba lớp Encoder. Ngược lại, trong phần sau của quá trình giải mã (Decoding), dòng thông tin di chuyển từ dưới lên trên qua ba lớp Decoder. Điều này tạo nên một chuỗi xử lý logic và có trật tự, giúp hệ thống hiểu và phản hồi thông tin một cách hiệu quả.

Học máy cho người bình thường (một): Lý thuyết tối ưu hóa

Tất cả các mô tả ở phần trên của bài viết đều xoay quanh một mô hình Transformer đã được huấn luyện. Trong mô hình Transformer nàytỉ lệ cược, các tham số trọng số chú ý đã được điều chỉnh phù hợp sau quá trình huấn luyện. Và việc xác định giá trị chính xác của những tham số trọng số chú ý này phụ thuộc hoàn toàn vào quy trình huấn luyện của mô hì Quá trình này không chỉ giúp mô hình học hỏi mối liên hệ giữa các từ trong dữ liệu đầu vào mà còn tối ưu hóa khả năng biểu diễn thông tin một cách hiệu quả nhất.

Ngoài quy trình đào tạoi9bet.com nhận 100k, còn có một số chi tiết quan trọng khác mà do giới hạn không gian, bài viết này cũng chưa đề cập đến. Ví dụ như cơ chế chú ý đa đầu (Multi-Head Attention), mã hóa vị trí (Positional Encoding), các tham số q, k, v được sử dụng để tính toán trọng số chú ý, v.v. Để giải thích rõ ràng về những chủ đề này, chúng ta cần bổ sung thêm nhiều thông tin khác, và chúng ta sẽ cùng nhau tìm hiểu kỹ hơn vào một dịp sau.

Giải thích về hình động

Chúng ta có thể nói một cách khái quát rằng sự phát triển của các mô hình ngôn ngữ lớn (LLM) đang diễn ra theo nền tảng công nghệ mà Transformer đã thiết lập. Đặc biệt123win+club, kiến trúc Decoder-Only đã trở thành nhánh kỹ thuật phát triển mạnh mẽ và thành công nhất. Trong quá trình này, hàng loạt cải tiến và sáng tạo đã được thực hiện để tối ưu hóa hiệu suất và khả năng xử lý ngôn ngữ tự nhiên. Các nhà nghiên cứu không ngừng tìm kiếm những cách tiếp cận mới để nâng cao khả năng học hỏi và dự đoán của mô hình, từ đó mở ra cánh cửa cho những ứng dụng rộng rãi hơn trong tương lai. Sự chú ý Bây giờ hãy để chúng tôi tóm tắt nhanh một chút.

Cơ chế trong Transformer có khả năng bắt giữ các mối phụ thuộc ở khoảng cách xa (long-distance) từ chuỗi đầu vào tốt hơn so với các thuật toán trước đây. Điều này giúp mô hình có thể học được những mẫu phức tạp hơn trong chuỗi dữ liệu. Ngoài ratỉ lệ cược, sự linh hoạt của cơ chế này còn cho phép mô hình tự động trọng số hóa các phần tử quan trọng trong chuỗi, từ đó tăng cường hiệu quả biểu diễn thông tin và cải thiện độ chính xác của dự đoán.
Mechanism tập trung (attention mechanism) của Transformer cho phép tính toán song song trong quá trình triển khai kỹ thuật123win+club, loại bỏ sự phụ thuộc tuần tự như trong công nghệ RNN truyền thống. Điều này giúp mô hình có thể được đào tạo trên các tập dữ liệu lớn hơn đáng kể, tận dụng tối đa hiệu suất của phần cứng hiện đại và tăng tốc đáng kể quá trình học tập.

Ngoài các yếu tố đã đề cậpi9bet.com nhận 100k, kiến trúc dựa trên mô hình Decoder-Only đã góp phần thúc đẩy việc áp dụng rộng rãi phương pháp tự hồi quy (auto-regressive). Phương pháp này cho phép mô hình học từ một lượng lớn dữ liệu chuỗi chưa được gắn nhãn, nhờ đó giảm sự phụ thuộc vào dữ liệu được đánh dấu thủ công như trong các phương pháp học giám sát truyền thống. Điều này không chỉ giúp tiết kiệm thời gian và chi phí mà còn mở ra khả năng khai phá những nguồn dữ liệu khổng lồ chưa được xử lý, mang lại tiềm năng to lớn cho việc phát triển trí tuệ nhân tạo.

Tất cả các yếu tố này cộng lại đã giúp các nhà nghiên cứu đưa lượng dữ liệu quy mô internet vào mô hình và có thể đạt được kết quả đào tạo trong một khoảng thời gian giới hạn với nguồn lực tính toán hạn chế. Kết hợp quá trình Decoding123win+club, LLM đã hoàn toàn thay đổi cách chúng ta tiếp cận xử lý ngôn ngữ tự nhiên, biến nó từ một lĩnh vực phức tạp thành một công cụ mạnh mẽ có khả năng hiểu và trả lời như con người trong nhiều tình huống khác nhau. Hơn nữa, nhờ sự tiến bộ của thuật toán và phần cứng hiện đại, các mô hình lớn như vậy không chỉ đơn thuần là công cụ học thuật mà còn trở thành nền tảng cho nhiều ứng dụng thực tế, từ dịch thuật tự động đến hỗ trợ khách hàng 24/7. Sự phát triển nhanh chóng của LLM đã mở ra cánh cửa cho một kỷ nguyên mới nơi trí tuệ nhân tạo không chỉ phục vụ mà còn đồng hành cùng con người trong mọi khía cạnh của cuộc sống. Predict Next Token Cơ chế này đóng vai trò cực kỳ quan trọng: Scaling law Được phát triển rộng rãi. Dựa trên điều nàytỉ lệ cược, OpenAI đã đề xuất [4], và trở thành thứ gì đó giống như niềm tin.

Phân tích chi tiết về phân tán: Tính nhất quán nhân quả và không gian-thời gian tương đối

Tài liệu tham khảo:

[1] Ashish Vaswani123win+club, et al. 2017. Attention Is All You Need .
[2] Jingfeng Yangtỉ lệ cược, et al. 2023. Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond .
[3] Jakob Uszkoreit. 2017. Transformer: A Novel Neural Network Architecture for Language Understanding .
[4] Jared Kaplan123win+club, et al. 2020. Scaling Laws for Neural Language Models .
[5] Language Translation with nn.Transformer and torchtext .
[6] Sebastian Raschka. 2024. Understanding and Coding Self-Attention, Multi-Head Attention, Cross-Attention, and Causal-Attention in LLMs .
[7] Arjun Sarkar. 2022. All you need to know about ‘Attention’ and ‘Transformers’ — In-depth Understanding .
[8] Jay Alammar. 2020. The Illustrated Transformer .
[9] Austin Huangtỉ lệ cược, et al. 2022. The Annotated Transformer .

Các bài viết được chọn lọc khác ：

Bài viết gốctỉ lệ cược, xin vui lòng trích dẫn nguồn và bao gồm mã QR bên dưới! Nếu không, từ chối tái bản!
Liên kết bài viết: /pg4vfk8p.html
Hãy theo dõi tài khoản Weibo cá nhân của tôi: Tìm kiếm tên tôi "Trương Thiết Lệ" trên Weibo.

Tài khoản WeChat của tôi: tielei-blog (Trương Thiết Lệ)

Bài trước: Chúng ta mong đợi gì từ các mô hình lớn vào đầu năm 2024?

Bài sau: Thể trí thông minh doanh nghiệp, số hóa và phân công ngành nghề

Khoa học phổ thông: Transformer và cơ chế chú ý
2024-03-16

Một số kiến thức nền tảng

Tổng quan về Transformer

Nhìn kỹ hơn vào Transformer

Tokenizer

Input Embedding

Encoder

Decoder và các thành phần khác

Học máy cho người bình thường (một): Lý thuyết tối ưu hóa

Tài liệu tham khảo:

Phân loại mục

Bài viết mới nhất

Khoa học phổ thông: Transformer và cơ chế chú ý 2024-03-16

Một số kiến thức nền tảng

Tổng quan về Transformer

Nhìn kỹ hơn vào Transformer

Tokenizer

Input Embedding

Encoder

Decoder và các thành phần khác

Học máy cho người bình thường (một): Lý thuyết tối ưu hóa

Tài liệu tham khảo:

Phân loại mục

Bài viết mới nhất

Khoa học phổ thông: Transformer và cơ chế chú ý
2024-03-16