Cách mạng trình duyệt thời đại AI: Từ công cụ tìm kiếm đến nền tảng đại lý thông minh

2025-07-09 21:54:49

Cuộc cách mạng trình duyệt trong thời đại AI: Từ tìm kiếm đến đại lý thông minh

Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Từ Netscape và IE của Microsoft vào những năm 90, đến Firefox với tinh thần mã nguồn mở và Chrome của Google, cuộc tranh giành trình duyệt luôn là sự thể hiện tập trung của quyền kiểm soát nền tảng và sự thay đổi trong các mô hình công nghệ. Chrome đã chiếm ưu thế nhờ tốc độ cập nhật và sự liên kết sinh thái, trong khi Google thông qua cấu trúc "đôi độc quyền" của tìm kiếm và trình duyệt đã tạo ra một vòng khép kín của nguồn thông tin.

Tuy nhiên, cấu trúc này đang bị lung lay. Sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM) đã khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, hành vi nhấp chuột vào trang web truyền thống đang giảm. Đồng thời, những tin đồn về việc một gã khổng lồ công nghệ có thể thay thế công cụ tìm kiếm mặc định trong trình duyệt của họ càng làm gia tăng mối đe dọa đối với nền tảng lợi nhuận của công ty mẹ Google, thị trường đã bắt đầu thể hiện sự bất an đối với "chính thống tìm kiếm".

Trình duyệt đang đối mặt với việc tái định hình vai trò. Nó không chỉ là công cụ hiển thị trang web mà còn là một tập hợp các khả năng như nhập liệu, hành vi người dùng, danh tính riêng tư, và nhiều hơn nữa. Mặc dù AI Agent mạnh mẽ, nhưng để thực hiện các tương tác trang phức tạp, gọi dữ liệu danh tính địa phương và điều khiển các yếu tố của trang web, vẫn cần dựa vào ranh giới tin cậy và sandbox chức năng của trình duyệt. Trình duyệt đang chuyển mình từ giao diện con người thành nền tảng gọi hệ thống cho Agent.

Điều thực sự có thể phá vỡ cấu trúc thị trường trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một cấu trúc tương tác mới: không phải là việc trình bày thông tin, mà là việc gọi nhiệm vụ. Trình duyệt tương lai phải được thiết kế cho AI Agent - không chỉ có khả năng đọc mà còn có khả năng viết và thực thi. Một số dự án đang cố gắng ngữ nghĩa hóa cấu trúc trang, biến giao diện trực quan thành văn bản có cấu trúc mà LLM có thể gọi, thực hiện việc ánh xạ từ trang đến lệnh, giảm thiểu đáng kể chi phí tương tác.

Các dự án chính trên thị trường đã bắt đầu thử nghiệm: Một công cụ tìm kiếm AI xây dựng trình duyệt gốc, sử dụng AI thay thế kết quả tìm kiếm truyền thống; Một trình duyệt kết hợp bảo vệ quyền riêng tư với suy luận cục bộ, sử dụng LLM để tăng cường chức năng tìm kiếm và chặn quảng cáo; Trong khi một số dự án Web3 gốc nhắm tới một lối vào mới cho sự tương tác giữa AI và tài sản trên chuỗi. Các dự án này có đặc điểm chung là: cố gắng tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra.

Đối với các doanh nhân, cơ hội nằm trong mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi thế giới của các Agent trong tương lai, có nghĩa là ai có thể cung cấp "khối khả năng" có thể cấu trúc, có thể gọi và đáng tin cậy, thì người đó sẽ trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO (Tối ưu hóa động cơ Agent), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đang được tái cấu trúc. Cuộc chiến trình duyệt lần thứ ba xảy ra ở "đầu vào" thay vì "trình bày"; người quyết định thắng thua không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được niềm tin của Agent, có được lối vào để gọi.

Lịch sử phát triển của trình duyệt

Vào đầu những năm 90, Netscape Navigator xuất hiện, mở ra cánh cửa đến thế giới số cho hàng triệu người dùng. Trình duyệt này không phải là trình duyệt đầu tiên, nhưng là sản phẩm đầu tiên thực sự hướng tới công chúng và định hình trải nghiệm Internet.

Microsoft nhanh chóng nhận ra tầm quan trọng của trình duyệt và quyết định tích hợp Internet Explorer vào hệ điều hành Windows, biến nó thành trình duyệt mặc định. Chiến lược này được coi là "vũ khí giết chết nền tảng", trực tiếp làm suy yếu vị thế thống trị thị trường của Netscape.

Trong hoàn cảnh khó khăn, các kỹ sư của Netscape đã chọn một con đường cấp tiến và lý tưởng - họ đã công khai mã nguồn trình duyệt và kêu gọi cộng đồng mã nguồn mở. Đoạn mã này sau đó trở thành nền tảng cho dự án trình duyệt Mozilla, cuối cùng được đặt tên là Firefox.

Trong khi đó, trình duyệt Opera ra đời, nó đến từ Na Uy và ban đầu chỉ là một dự án thí nghiệm. Nhưng từ phiên bản 7.0 vào năm 2003, nó đã giới thiệu động cơ Presto tự phát triển, tiên phong hỗ trợ các công nghệ tiên tiến như CSS, bố cục thích ứng, điều khiển bằng giọng nói và mã hóa Unicode.

Cùng năm đó, một ông lớn công nghệ đã ra mắt trình duyệt của riêng mình. Đây là một bước ngoặt đầy ý nghĩa. Vào thời điểm đó, Microsoft đã đầu tư 150 triệu đô la vào công ty đang bên bờ vực phá sản này để duy trì vẻ bề ngoài cạnh tranh và tránh sự kiểm tra về độc quyền.

Năm 2007, IE7 được phát hành cùng với Windows Vista, nhưng phản hồi từ thị trường khá bình thường. Ngược lại, Firefox, nhờ vào nhịp độ cập nhật nhanh hơn, cơ chế mở rộng thân thiện hơn và sức hấp dẫn tự nhiên đối với các nhà phát triển, đã tăng trưởng thị phần ổn định lên khoảng 20%. Sự thống trị của IE dần bị suy yếu, và xu hướng đang thay đổi.

Google thì lại có cách tiếp cận khác. Chrome ra mắt vào năm 2008, được xây dựng trên dự án mã nguồn mở Chromium và động cơ WebKit mà Safari sử dụng. Nó được mệnh danh là trình duyệt "cồng kềnh", nhưng nhờ vào sức mạnh quảng cáo và xây dựng thương hiệu của Google, nó đã nhanh chóng vươn lên.

Vũ khí chính của Chrome không phải là tính năng, mà là nhịp độ cập nhật phiên bản thường xuyên (mỗi sáu tuần một lần) và trải nghiệm đồng nhất trên toàn nền tảng. Vào tháng 11 năm 2011, Chrome lần đầu tiên vượt qua Firefox, chiếm 27% thị phần; sau sáu tháng, lại vượt qua IE, hoàn thành cuộc chuyển đổi từ kẻ thách thức thành người thống trị.

Bước vào thập niên 2020, vị thế thống trị của Chrome đã được thiết lập, với thị phần toàn cầu ổn định ở khoảng 65%. Đáng chú ý là, mặc dù công cụ tìm kiếm Google và trình duyệt Chrome thuộc về cùng một công ty, nhưng từ góc độ thị trường, chúng lại là hai hệ thống quyền lực độc lập --- cái trước kiểm soát khoảng chín mươi phần trăm của các cổng tìm kiếm toàn cầu, trong khi cái sau nắm giữ "cửa sổ đầu tiên" mà hầu hết người dùng vào mạng.

Để giữ vững cấu trúc độc quyền kép này, công ty đã không tiếc tiền đầu tư. Năm 2022, họ đã trả cho một ông lớn công nghệ khoảng 20 tỷ USD chỉ để giữ cho Google ở vị trí tìm kiếm mặc định trong trình duyệt của mình. Khoản chi này tương đương với 36% doanh thu quảng cáo tìm kiếm mà Google thu được từ lưu lượng truy cập của trình duyệt đó. Nói cách khác, Google đang trả "phí bảo vệ" cho hàng rào phòng thủ.

Nhưng hướng gió lại một lần nữa thay đổi. Với sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM), tìm kiếm truyền thống bắt đầu bị ảnh hưởng. Năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%, mặc dù vẫn thống trị, nhưng các vết nứt đã xuất hiện. Điều gây rối loạn hơn là tin đồn về một gã khổng lồ công nghệ nào đó có thể sẽ ra mắt công cụ tìm kiếm AI riêng --- nếu tìm kiếm mặc định chuyển sang đội ngũ của chính họ, điều này không chỉ sẽ viết lại cấu trúc sinh thái mà còn có thể làm lung lay trụ cột lợi nhuận của công ty mẹ Google. Thị trường phản ứng nhanh chóng, giá cổ phiếu công ty giảm từ 170 đô la xuống 140 đô la, phản ánh không chỉ sự hoảng loạn của các nhà đầu tư mà còn là sự bất an sâu sắc về hướng đi tương lai của thời đại tìm kiếm.

Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa quảng cáo, từ trình duyệt nhẹ đến trợ lý tìm kiếm AI, cuộc chiến trình duyệt luôn là một cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Chiến trường liên tục di chuyển, nhưng bản chất không bao giờ thay đổi: ai nắm giữ cổng vào, người đó định nghĩa tương lai.

Trong mắt các VC, dựa vào LLM và nhu cầu mới của con người về công cụ tìm kiếm trong thời đại AI, cuộc chiến trình duyệt lần thứ ba đang dần được triển khai.

Kiến trúc cũ của trình duyệt hiện đại

Khi nói về kiến trúc của trình duyệt, kiến trúc truyền thống cổ điển như sau:

Khách hàng - Cổng vào phía trước

Tra cứu thông qua HTTPS gửi đến frontend gần nhất, hoàn thành giải mã TLS, lấy mẫu QoS và định tuyến địa lý. Nếu phát hiện lưu lượng bất thường (DDoS, tự động thu thập), có thể giới hạn lưu lượng hoặc thách thức ở tầng này.

Tra cứu hiểu biết

Phía trước cần hiểu ý nghĩa của từ người dùng gõ vào, có ba bước: sửa lỗi chính tả thần kinh, chỉnh sửa "recpie" thành "recipe"; mở rộng đồng nghĩa, mở rộng "how to fix bike" thành "repair bicycle". Phân tích ý định, xác định truy vấn là thông tin, điều hướng hay ý định giao dịch, và phân bổ yêu cầu Vertical.

Gọi lại ứng cử viên

Công nghệ truy vấn được sử dụng bởi các công cụ tìm kiếm được gọi là: chỉ mục đảo ngược. Trong chỉ mục theo thứ tự, chúng ta có thể chỉ định một ID để truy cập vào tài liệu. Tuy nhiên, người dùng không thể biết nội dung mong muốn ở mã số nào trong hàng trăm tỷ tài liệu, do đó họ đã sử dụng chỉ mục đảo ngược rất truyền thống, để tìm kiếm các tài liệu có từ khóa tương ứng thông qua nội dung. Tiếp theo, chỉ mục vector được sử dụng để xử lý tìm kiếm ngữ nghĩa, tức là tìm kiếm nội dung có nghĩa tương tự với truy vấn. Nó chuyển đổi văn bản, hình ảnh và các nội dung khác thành vector nhiều chiều (embedding), và thực hiện tìm kiếm dựa trên sự tương đồng giữa các vector này. Ví dụ, ngay cả khi người dùng tìm kiếm "cách làm bột pizza", công cụ tìm kiếm cũng có thể trả về kết quả liên quan đến "hướng dẫn làm bột pizza", vì chúng có sự tương đồng về ngữ nghĩa. Qua quá trình chỉ mục đảo ngược và chỉ mục vector, khoảng một trăm ngàn trang web sẽ được sàng lọc ban đầu.

Sắp xếp nhiều cấp

Hệ thống thường sử dụng BM25, TF-IDF, điểm chất lượng trang và hàng ngàn đặc trưng nhẹ theo chiều để lọc hàng trăm ngàn trang ứng viên xuống khoảng 1000 bài viết, hình thành bộ ứng viên ban đầu. Các hệ thống này được gọi chung là động cơ khuyến nghị. Chúng phụ thuộc vào nhiều đặc trưng khổng lồ được tạo ra từ các thực thể khác nhau, bao gồm hành vi người dùng, thuộc tính trang, ý định truy vấn và tín hiệu ngữ cảnh. Ví dụ, nó sẽ tổng hợp thông tin từ lịch sử người dùng, phản hồi hành vi của người dùng khác, ngữ nghĩa trang, ý nghĩa truy vấn, đồng thời cũng xem xét các yếu tố ngữ cảnh như thời gian (thời gian trong ngày, ngày cụ thể trong tuần) và các sự kiện bên ngoài như tin tức thời sự.

Học sâu để thực hiện xếp hạng chính

Trong giai đoạn tìm kiếm ban đầu, các công nghệ như RankBrain và Neural Matching được sử dụng để hiểu nghĩa của truy vấn và lọc ra các kết quả liên quan ban đầu từ một khối lượng tài liệu khổng lồ. RankBrain là một hệ thống máy học được Google giới thiệu vào năm 2015, nhằm hiểu rõ hơn ý nghĩa của truy vấn người dùng, đặc biệt là các truy vấn xuất hiện lần đầu. Nó chuyển đổi truy vấn và tài liệu thành các biểu diễn vector và tính toán độ tương đồng giữa chúng để tìm ra các kết quả liên quan nhất. Ví dụ, đối với truy vấn "cách làm bột pizza", ngay cả khi không có từ khóa hoàn toàn khớp trong tài liệu, RankBrain vẫn có thể nhận diện nội dung liên quan đến "cơ sở pizza" hoặc "làm bột".

Neural Matching là một công nghệ khác mà Google đã ra mắt vào năm 2018, nhằm hiểu sâu hơn về mối quan hệ ngữ nghĩa giữa truy vấn và tài liệu. Nó sử dụng mô hình mạng nơ-ron để nắm bắt các mối quan hệ mơ hồ giữa các từ, giúp khớp truy vấn và nội dung trang web tốt hơn. Ví dụ, đối với truy vấn "tại sao quạt máy tính xách tay của tôi lại ồn ào", Neural Matching có thể hiểu rằng người dùng có thể đang tìm kiếm thông tin khắc phục sự cố liên quan đến quá nhiệt, bụi bẩn tích tụ hoặc sử dụng CPU cao, ngay cả khi những từ này không xuất hiện trực tiếp trong truy vấn.

Sắp xếp lại sâu: Ứng dụng của mô hình BERT

Sau khi sàng lọc ban đầu các tài liệu liên quan, sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) để sắp xếp lại các tài liệu này một cách tinh vi hơn, nhằm đảm bảo rằng kết quả liên quan nhất được xếp ở vị trí hàng đầu. BERT là một mô hình ngôn ngữ được đào tạo trước dựa trên Transformer, có khả năng hiểu mối quan hệ ngữ cảnh của các từ trong câu. Trong tìm kiếm, BERT được sử dụng để sắp xếp lại các tài liệu được tìm thấy ban đầu. Nó thực hiện bằng cách mã hóa chung truy vấn và tài liệu, tính toán điểm liên quan giữa chúng, từ đó sắp xếp lại các tài liệu. Ví dụ, đối với truy vấn "đậu xe trên dốc không có lề", BERT có thể hiểu ý nghĩa của "không có lề" và trả về trang gợi ý cho người lái xe hướng bánh xe về phía lề đường, thay vì hiểu sai là có lề.

Trên đây là quy trình làm việc điển hình của một công cụ tìm kiếm. Tuy nhiên, trong thời đại bùng nổ AI và dữ liệu lớn hiện nay, người dùng đã phát sinh những nhu cầu mới về tương tác với trình duyệt.

Tại sao AI sẽ định hình lại trình duyệt

Trước tiên, chúng ta cần làm rõ, tại sao hình thức trình duyệt này vẫn tồn tại? Có tồn tại một hình thức thứ ba, ngoài đại lý trí tuệ nhân tạo và trình duyệt, hay không?

Chúng tôi cho rằng, sự tồn tại là không thể thay thế. Tại sao trí tuệ nhân tạo có thể sử dụng trình duyệt nhưng không thể hoàn toàn thay thế trình duyệt? Bởi vì trình duyệt là nền tảng đa năng, không chỉ là cổng vào để đọc dữ liệu, mà còn là cổng vào chung để nhập dữ liệu. Thế giới này không thể chỉ có thông tin đầu vào, mà còn phải tạo ra dữ liệu và tương tác với các trang web, vì vậy trình duyệt tích hợp thông tin người dùng cá nhân vẫn sẽ tồn tại rộng rãi.

Chúng tôi nắm bắt điểm này: Trình duyệt như một cổng truy cập chung, không chỉ dùng để đọc dữ liệu, người dùng thường cần tương tác với dữ liệu. Trình duyệt tự nó là nơi lý tưởng để lưu trữ dấu vân tay của người dùng. Các hành vi người dùng phức tạp hơn và hành vi tự động hóa, phải được thực hiện qua trình duyệt.

AGENT-6.25%

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

23 thích