Năm 2021, các nhà nghiên cứu đã có một khám phá đáng kinh ngạc khi huấn luyện một loạt mô hình thu nhỏ, đó là sau một thời gian dài huấn luyện, mô hình sẽ có sự thay đổi, từ lúc đầu chỉ “ghi nhớ dữ liệu huấn luyện” sang không bao giờ thay đổi. đã thấy trước đây.Dữ liệu cũng thể hiện khả năng khái quát hóa mạnh mẽ.
Hiện tượng này được gọi là "grokking", như trong hình dưới đây, sau khi mô hình phù hợp với dữ liệu huấn luyện trong một thời gian dài, hiện tượng "grokking" sẽ đột ngột xuất hiện.
Vì mô hình thu nhỏ có đặc điểm này, liệu mô hình phức tạp hơn sẽ đột nhiên xuất hiện "sự hiểu biết" sau một thời gian đào tạo dài hơn? Gần đây, các mô hình ngôn ngữ lớn (LLM) đã phát triển nhanh chóng, họ dường như có hiểu biết phong phú về thế giới, nhiều người cho rằng LLM chỉ đang lặp lại nội dung đào tạo đã ghi nhớ. nội dung? , hoặc nó có khái quát hóa tốt dữ liệu đầu vào không?
Để hiểu rõ hơn vấn đề này, các nhà nghiên cứu từ Google trong bài viết này đã viết một blog, cố gắng tìm ra lý do thực sự cho hiện tượng "hiểu" đột ngột của các mô hình lớn.
Bài viết này bắt đầu với động lực đào tạo của mô hình thu nhỏ. Họ đã thiết kế một MLP một lớp với 24 nơ-ron và đào tạo chúng để học cách thực hiện nhiệm vụ bổ sung mô-đun. Chúng ta chỉ cần biết rằng đầu ra của nhiệm vụ này là định kỳ. dạng (a + b) mod n.
Các trọng số của mô hình MLP được thể hiện trong hình bên dưới Người ta thấy rằng ban đầu các trọng số của mô hình rất nhiễu, nhưng khi thời gian tăng lên, chúng bắt đầu thể hiện tính tuần hoàn.
Tính chu kỳ này thậm chí còn rõ ràng hơn nếu trọng lượng của từng nơ-ron riêng lẻ được hình dung:
Đừng đánh giá thấp tính tuần hoàn, tính tuần hoàn của các trọng số cho thấy mô hình đang học một cấu trúc toán học nhất định, đây cũng là chìa khóa để chuyển đổi mô hình từ dữ liệu bộ nhớ sang khả năng khái quát hóa. Nhiều người bối rối trước quá trình chuyển đổi này, tại sao mô hình lại chuyển từ ghi nhớ mẫu dữ liệu sang tổng quát hóa mẫu dữ liệu.
Thử nghiệm với 01 trình tự
Để biết mô hình đang khái quát hóa hay ghi nhớ, nghiên cứu đã đào tạo mô hình để dự đoán liệu có số lẻ 1 trong ba chữ số đầu tiên của một chuỗi ngẫu nhiên gồm 30 số 1 và 0 hay không. Ví dụ: 000110010110001010111001001011 là 0 và 010110010110001010111001001011 là 1. Về cơ bản, đây là một vấn đề XOR phức tạp hơn một chút với một số nhiễu gây nhiễu. Nếu mô hình đang tổng quát hóa, nó chỉ nên sử dụng ba chữ số đầu tiên của chuỗi; nếu mô hình đang ghi nhớ dữ liệu huấn luyện, nó cũng sẽ sử dụng các chữ số tiếp theo.
Mô hình được sử dụng trong nghiên cứu này là một MLP một lớp được đào tạo trên các lô cố định gồm 1200 trình tự. Lúc đầu, chỉ có độ chính xác đào tạo được cải thiện, tức là mô hình ghi nhớ dữ liệu đào tạo. Như với số học mô-đun, độ chính xác của kiểm tra về bản chất là ngẫu nhiên, tăng mạnh khi mô hình tìm hiểu một giải pháp chung.
Tại sao điều này xảy ra có thể dễ hiểu hơn với ví dụ đơn giản về bài toán dãy số 01. Lý do là người mẫu thực hiện hai việc trong quá trình tập luyện: giảm thiểu hao hụt và giảm cân. Tổn thất đào tạo thực sự tăng nhẹ trước khi mô hình khái quát hóa, vì nó đánh đổi tổn thất liên quan đến việc xuất nhãn chính xác cho các trọng số thấp hơn.
Mất mát thử nghiệm giảm mạnh khiến có vẻ như mô hình đang khái quát hóa đột ngột, nhưng nếu bạn nhìn vào trọng số của mô hình trong quá trình đào tạo, hầu hết các mô hình đều nội suy trơn tru giữa hai giải pháp. Quá trình khái quát hóa nhanh xảy ra khi trọng số cuối cùng được kết nối với các chữ số gây mất tập trung tiếp theo được cắt bớt thông qua phân rã trọng số.
** Hiện tượng "hiểu" xảy ra khi nào? **
Điều đáng chú ý là "mò mẫm" là một hiện tượng ngẫu nhiên - nếu kích thước mô hình, phân rã trọng lượng, kích thước dữ liệu và các siêu tham số khác không phù hợp, thì hiện tượng "mò mẫm" sẽ biến mất. Nếu trọng số phân rã quá ít, mô hình sẽ khớp quá mức với dữ liệu huấn luyện. Nếu trọng số phân rã quá nhiều, mô hình sẽ không thể học được gì.
Dưới đây, nghiên cứu đào tạo hơn 1000 mô hình trên các tác vụ 1 và 0 bằng cách sử dụng các siêu tham số khác nhau. Quá trình đào tạo không ồn ào, vì vậy chín mô hình được đào tạo cho mỗi bộ siêu tham số. Nó cho thấy rằng chỉ có hai loại mô hình có hiện tượng "hiểu" là màu xanh và màu vàng.
** Bổ sung mô-đun với năm nơ-ron **
Phép cộng modulo a+b mod 67 có tính chất định kỳ, nếu tổng vượt quá 67, đáp số sẽ sinh ra hiện tượng bao bọc, có thể biểu diễn bằng hình tròn. Để đơn giản hóa vấn đề, nghiên cứu này xây dựng một ma trận nhúng, sử dụng cos và sin để đặt a và b trên đường tròn, được biểu diễn dưới dạng sau.
Hóa ra mô hình tìm ra giải pháp hoàn hảo và chính xác chỉ với 5 nơ-ron:
Nhìn vào các tham số được đào tạo, nhóm nghiên cứu nhận thấy rằng tất cả các tế bào thần kinh đều hội tụ ở các tiêu chuẩn gần như bằng nhau. Nếu bạn vẽ trực tiếp các thành phần cos và sin của chúng, thì về cơ bản chúng được phân bố đều trên một vòng tròn.
tiếp theo là
, được đào tạo từ đầu không có chu kỳ tích hợp sẵn, mô hình có nhiều tần số khác nhau.
Nghiên cứu đã sử dụng Biến đổi Fourier rời rạc (DFT) để phân tách các tần số. Cũng giống như trong nhiệm vụ 1s và 0s, chỉ có một vài trọng số đóng vai trò chính:
Hình bên dưới cho thấy ở các tần số khác nhau, mô hình cũng có thể đạt được mức độ "hiểu":
Câu hỏi mở
Bây giờ, mặc dù chúng ta đã hiểu rõ về cách các MLP một lớp giải quyết việc bổ sung mô-đun và tại sao nó lại phát sinh trong quá trình đào tạo, nhưng vẫn còn nhiều câu hỏi mở thú vị về bộ nhớ và khái quát hóa.
**Mô hình nào hạn chế hơn? **
Nói chung, giảm trọng lượng thực sự có thể hướng dẫn các mô hình khác nhau để tránh ghi nhớ dữ liệu huấn luyện. Các kỹ thuật khác giúp tránh trang bị quá mức bao gồm bỏ học, giảm kích thước mô hình và thậm chí các thuật toán tối ưu hóa không ổn định về số lượng. Các phương pháp này tương tác theo những cách phi tuyến tính phức tạp, vì vậy rất khó để dự đoán trước phương pháp nào cuối cùng sẽ tạo ra sự khái quát hóa.
Ngoài ra, các siêu tham số khác nhau sẽ làm cho sự cải thiện ít đột ngột hơn.
**Tại sao ghi nhớ dễ hơn khái quát hóa? **
Một giả thuyết cho rằng có thể có nhiều cách để ghi nhớ tập huấn luyện hơn là tổng quát hóa. Do đó, về mặt thống kê, việc ghi nhớ sẽ có nhiều khả năng xảy ra trước tiên, đặc biệt là trong trường hợp không có hoặc ít chính quy hóa. Các kỹ thuật chính quy hóa như giảm trọng lượng ưu tiên các giải pháp nhất định, ví dụ, ưu tiên các giải pháp "thưa thớt" hơn các giải pháp "dày đặc".
Nghiên cứu đã chỉ ra rằng khái quát hóa có liên quan đến các biểu diễn có cấu trúc tốt. Tuy nhiên, đây không phải là điều kiện cần thiết; một số biến thể MLP không có đầu vào đối xứng học ít biểu diễn "tròn" hơn khi giải phép cộng mô-đun. Nhóm nghiên cứu cũng nhận thấy rằng một biểu diễn có cấu trúc tốt không phải là điều kiện đủ để khái quát hóa. Mô hình nhỏ này (được đào tạo mà không giảm trọng lượng) bắt đầu khái quát hóa và sau đó chuyển sang sử dụng các ký ức được nhúng định kỳ.
Như bạn có thể thấy trong hình bên dưới, không giảm trọng lượng, mô hình bộ nhớ có thể học các trọng số lớn hơn để giảm tổn thất.
Thậm chí có thể tìm thấy các siêu đường kính nơi mô hình bắt đầu tổng quát hóa, sau đó chuyển sang bộ nhớ, sau đó chuyển trở lại tổng quát hóa.
**Còn những mẫu lớn hơn thì sao? **
Hiểu giải pháp cho việc bổ sung mô-đun không phải là chuyện nhỏ. Chúng ta có hy vọng hiểu được những mô hình lớn hơn không? Trên con đường này, bạn có thể cần:
Huấn luyện các mô hình đơn giản hơn với thiên hướng quy nạp nhiều hơn và ít bộ phận chuyển động hơn.
Sử dụng chúng để giải thích những phần khó hiểu về cách các mô hình lớn hơn hoạt động.
Lặp lại khi cần thiết.
Nhóm nghiên cứu tin rằng đây có thể là một cách để hiểu rõ hơn về các mô hình lớn một cách hiệu quả và theo thời gian, cách tiếp cận cơ giới hóa khả năng diễn giải này có thể giúp xác định các mẫu cho phép mạng nơ-ron học hỏi khám phá thuật toán trở nên dễ dàng và thậm chí là tự động.
Để biết thêm chi tiết, xin vui lòng đọc văn bản gốc.
Liên kết gốc:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Google: Người mẫu lớn không chỉ có khả năng nổi mà còn có khả năng "lĩnh hội" sau thời gian dài rèn luyện
Năm 2021, các nhà nghiên cứu đã có một khám phá đáng kinh ngạc khi huấn luyện một loạt mô hình thu nhỏ, đó là sau một thời gian dài huấn luyện, mô hình sẽ có sự thay đổi, từ lúc đầu chỉ “ghi nhớ dữ liệu huấn luyện” sang không bao giờ thay đổi. đã thấy trước đây.Dữ liệu cũng thể hiện khả năng khái quát hóa mạnh mẽ.
Hiện tượng này được gọi là "grokking", như trong hình dưới đây, sau khi mô hình phù hợp với dữ liệu huấn luyện trong một thời gian dài, hiện tượng "grokking" sẽ đột ngột xuất hiện.
Để hiểu rõ hơn vấn đề này, các nhà nghiên cứu từ Google trong bài viết này đã viết một blog, cố gắng tìm ra lý do thực sự cho hiện tượng "hiểu" đột ngột của các mô hình lớn.
Các trọng số của mô hình MLP được thể hiện trong hình bên dưới Người ta thấy rằng ban đầu các trọng số của mô hình rất nhiễu, nhưng khi thời gian tăng lên, chúng bắt đầu thể hiện tính tuần hoàn.
Thử nghiệm với 01 trình tự
Để biết mô hình đang khái quát hóa hay ghi nhớ, nghiên cứu đã đào tạo mô hình để dự đoán liệu có số lẻ 1 trong ba chữ số đầu tiên của một chuỗi ngẫu nhiên gồm 30 số 1 và 0 hay không. Ví dụ: 000110010110001010111001001011 là 0 và 010110010110001010111001001011 là 1. Về cơ bản, đây là một vấn đề XOR phức tạp hơn một chút với một số nhiễu gây nhiễu. Nếu mô hình đang tổng quát hóa, nó chỉ nên sử dụng ba chữ số đầu tiên của chuỗi; nếu mô hình đang ghi nhớ dữ liệu huấn luyện, nó cũng sẽ sử dụng các chữ số tiếp theo.
Mô hình được sử dụng trong nghiên cứu này là một MLP một lớp được đào tạo trên các lô cố định gồm 1200 trình tự. Lúc đầu, chỉ có độ chính xác đào tạo được cải thiện, tức là mô hình ghi nhớ dữ liệu đào tạo. Như với số học mô-đun, độ chính xác của kiểm tra về bản chất là ngẫu nhiên, tăng mạnh khi mô hình tìm hiểu một giải pháp chung.
Tại sao điều này xảy ra có thể dễ hiểu hơn với ví dụ đơn giản về bài toán dãy số 01. Lý do là người mẫu thực hiện hai việc trong quá trình tập luyện: giảm thiểu hao hụt và giảm cân. Tổn thất đào tạo thực sự tăng nhẹ trước khi mô hình khái quát hóa, vì nó đánh đổi tổn thất liên quan đến việc xuất nhãn chính xác cho các trọng số thấp hơn.
** Hiện tượng "hiểu" xảy ra khi nào? **
Điều đáng chú ý là "mò mẫm" là một hiện tượng ngẫu nhiên - nếu kích thước mô hình, phân rã trọng lượng, kích thước dữ liệu và các siêu tham số khác không phù hợp, thì hiện tượng "mò mẫm" sẽ biến mất. Nếu trọng số phân rã quá ít, mô hình sẽ khớp quá mức với dữ liệu huấn luyện. Nếu trọng số phân rã quá nhiều, mô hình sẽ không thể học được gì.
Dưới đây, nghiên cứu đào tạo hơn 1000 mô hình trên các tác vụ 1 và 0 bằng cách sử dụng các siêu tham số khác nhau. Quá trình đào tạo không ồn ào, vì vậy chín mô hình được đào tạo cho mỗi bộ siêu tham số. Nó cho thấy rằng chỉ có hai loại mô hình có hiện tượng "hiểu" là màu xanh và màu vàng.
** Bổ sung mô-đun với năm nơ-ron **
Phép cộng modulo a+b mod 67 có tính chất định kỳ, nếu tổng vượt quá 67, đáp số sẽ sinh ra hiện tượng bao bọc, có thể biểu diễn bằng hình tròn. Để đơn giản hóa vấn đề, nghiên cứu này xây dựng một ma trận nhúng, sử dụng cos và sin để đặt a và b trên đường tròn, được biểu diễn dưới dạng sau.
tiếp theo là
Câu hỏi mở
Bây giờ, mặc dù chúng ta đã hiểu rõ về cách các MLP một lớp giải quyết việc bổ sung mô-đun và tại sao nó lại phát sinh trong quá trình đào tạo, nhưng vẫn còn nhiều câu hỏi mở thú vị về bộ nhớ và khái quát hóa.
**Mô hình nào hạn chế hơn? **
Nói chung, giảm trọng lượng thực sự có thể hướng dẫn các mô hình khác nhau để tránh ghi nhớ dữ liệu huấn luyện. Các kỹ thuật khác giúp tránh trang bị quá mức bao gồm bỏ học, giảm kích thước mô hình và thậm chí các thuật toán tối ưu hóa không ổn định về số lượng. Các phương pháp này tương tác theo những cách phi tuyến tính phức tạp, vì vậy rất khó để dự đoán trước phương pháp nào cuối cùng sẽ tạo ra sự khái quát hóa.
Ngoài ra, các siêu tham số khác nhau sẽ làm cho sự cải thiện ít đột ngột hơn.
Một giả thuyết cho rằng có thể có nhiều cách để ghi nhớ tập huấn luyện hơn là tổng quát hóa. Do đó, về mặt thống kê, việc ghi nhớ sẽ có nhiều khả năng xảy ra trước tiên, đặc biệt là trong trường hợp không có hoặc ít chính quy hóa. Các kỹ thuật chính quy hóa như giảm trọng lượng ưu tiên các giải pháp nhất định, ví dụ, ưu tiên các giải pháp "thưa thớt" hơn các giải pháp "dày đặc".
Nghiên cứu đã chỉ ra rằng khái quát hóa có liên quan đến các biểu diễn có cấu trúc tốt. Tuy nhiên, đây không phải là điều kiện cần thiết; một số biến thể MLP không có đầu vào đối xứng học ít biểu diễn "tròn" hơn khi giải phép cộng mô-đun. Nhóm nghiên cứu cũng nhận thấy rằng một biểu diễn có cấu trúc tốt không phải là điều kiện đủ để khái quát hóa. Mô hình nhỏ này (được đào tạo mà không giảm trọng lượng) bắt đầu khái quát hóa và sau đó chuyển sang sử dụng các ký ức được nhúng định kỳ.
Như bạn có thể thấy trong hình bên dưới, không giảm trọng lượng, mô hình bộ nhớ có thể học các trọng số lớn hơn để giảm tổn thất.
Hiểu giải pháp cho việc bổ sung mô-đun không phải là chuyện nhỏ. Chúng ta có hy vọng hiểu được những mô hình lớn hơn không? Trên con đường này, bạn có thể cần:
Huấn luyện các mô hình đơn giản hơn với thiên hướng quy nạp nhiều hơn và ít bộ phận chuyển động hơn.
Sử dụng chúng để giải thích những phần khó hiểu về cách các mô hình lớn hơn hoạt động.
Lặp lại khi cần thiết.
Nhóm nghiên cứu tin rằng đây có thể là một cách để hiểu rõ hơn về các mô hình lớn một cách hiệu quả và theo thời gian, cách tiếp cận cơ giới hóa khả năng diễn giải này có thể giúp xác định các mẫu cho phép mạng nơ-ron học hỏi khám phá thuật toán trở nên dễ dàng và thậm chí là tự động.
Để biết thêm chi tiết, xin vui lòng đọc văn bản gốc.
Liên kết gốc: