Hệ sinh thái trình duyệt mới được hỗ trợ bởi AI: Cuộc cách mạng từ hiển thị thông tin đến gọi tác vụ thông minh

2025-08-03 05:40:40

Cuộc cách mạng trình duyệt trong thời đại AI: Từ hiển thị thông tin đến gọi nhiệm vụ

Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Từ Netscape và IE của Microsoft vào những năm 90, đến Firefox mã nguồn mở và Google Chrome, cuộc cạnh tranh trình duyệt luôn là sự thể hiện tập trung của quyền kiểm soát nền tảng và sự chuyển biến của các mô hình công nghệ. Chrome đã chiếm lĩnh vị trí thống trị nhờ tốc độ cập nhật và sự liên kết của hệ sinh thái, Google thông qua cấu trúc "đôi độc quyền" giữa tìm kiếm và trình duyệt, đã hình thành nên một vòng khép kín cho cổng thông tin.

Tuy nhiên, mô hình này đang bị lung lay. Sự trỗi dậy của mô hình ngôn ngữ lớn (LLM) khiến ngày càng nhiều người dùng thực hiện nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, hành vi nhấp chuột vào trang web truyền thống đang giảm. Đồng thời, tin đồn về việc Apple có thể thay thế công cụ tìm kiếm mặc định trong Safari càng đe dọa đến nền tảng lợi nhuận của Alphabet, sự bất an của thị trường về "chính thống tìm kiếm" đã bắt đầu lộ diện.

Trình duyệt cũng đang đối mặt với việc tái cấu trúc vai trò. Nó không chỉ là công cụ hiển thị trang web, mà còn là một tập hợp container cho nhiều khả năng như nhập dữ liệu, hành vi người dùng, danh tính riêng tư, v.v. AI Agent mạnh mẽ, nhưng để hoàn thành các tương tác trang phức tạp, gọi dữ liệu danh tính địa phương, và kiểm soát các yếu tố trang web, vẫn cần phải nhờ vào ranh giới tin cậy và sandbox chức năng của trình duyệt. Trình duyệt đang từ giao diện con người, tiến hóa thành nền tảng gọi hệ thống cho Agent.

Điều thực sự có khả năng phá vỡ cấu trúc thị trường trình duyệt hiện tại, không phải là một "Chrome tốt hơn", mà là một cấu trúc tương tác mới: không phải là việc trình bày thông tin, mà là việc gọi nhiệm vụ. Trình duyệt trong tương lai cần được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực thi. Các dự án như Browser Use đang cố gắng ngữ nghĩa hóa cấu trúc trang, biến giao diện trực quan thành văn bản cấu trúc có thể gọi bởi LLM, thực hiện ánh xạ từ trang đến lệnh, giảm thiểu đáng kể chi phí tương tác.

Các dự án chính trên thị trường đã bắt đầu thử nghiệm: Perplexity xây dựng trình duyệt gốc Comet, sử dụng AI thay thế cho kết quả tìm kiếm truyền thống; Brave kết hợp bảo vệ quyền riêng tư và suy luận cục bộ, sử dụng LLM để tăng cường chức năng tìm kiếm và chặn quảng cáo; trong khi các dự án gốc Crypto như Donut, nhắm đến một lối vào mới cho việc tương tác giữa AI và tài sản trên chuỗi. Những dự án này có điểm chung: cố gắng tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra của nó.

Đối với các doanh nhân, cơ hội nằm trong mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi thế giới của tương lai, có nghĩa là ai có thể cung cấp các "khối năng lực" có cấu trúc, có thể gọi và đáng tin cậy, thì người đó có thể trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO (Tối ưu hóa động cơ đại lý), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đều đang được cấu trúc lại. Cuộc chiến trình duyệt lần thứ ba diễn ra ở "đầu vào" chứ không phải "trình bày"; người quyết định thắng hay thua không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được niềm tin của đại lý và có được lối vào để gọi.

Lịch sử phát triển của trình duyệt

Vào đầu những năm 90 của thế kỷ trước, khi internet vẫn chưa trở thành một phần trong đời sống hàng ngày, Netscape Navigator đã xuất hiện, mở ra cánh cửa vào thế giới số cho hàng triệu người dùng. Trình duyệt này không phải là cái đầu tiên, nhưng là sản phẩm đầu tiên thực sự hướng tới đại chúng, định hình trải nghiệm internet.

Tuy nhiên, hào quang ngắn ngủi. Microsoft nhanh chóng buộc Internet Explorer vào hệ điều hành Windows, biến nó thành trình duyệt mặc định. Chiến lược này được coi là "vũ khí sát thương của nền tảng", trực tiếp làm sụp đổ vị thế thống trị thị trường của Netscape. IE nhờ vào khả năng phân phối của Windows, nhanh chóng trở thành ông trùm trong ngành, trong khi Netscape thì rơi vào con đường suy tàn.

Trong hoàn cảnh khó khăn, các kỹ sư của Netscape đã chọn một con đường quyết liệt và lý tưởng - họ đã công khai mã nguồn của trình duyệt, kêu gọi cộng đồng mã nguồn mở. Đoạn mã này sau này trở thành nền tảng cho dự án trình duyệt Mozilla, ban đầu được đặt tên là Phoenix (có nghĩa là Phượng hoàng tái sinh), trải qua nhiều lần đổi tên, cuối cùng được đặt tên là Firefox.

Firefox không chỉ đơn thuần là bản sao của Netscape, mà còn đạt được nhiều đột phá về trải nghiệm người dùng, hệ sinh thái plugin, và tính bảo mật. Sự ra đời của nó đánh dấu chiến thắng của tinh thần mã nguồn mở và cũng đã thổi một luồng sinh khí mới vào toàn ngành.

Năm 1994, trình duyệt Opera ra đời, nó đến từ Na Uy, ban đầu chỉ là một dự án thử nghiệm. Nhưng từ phiên bản 7.0 vào năm 2003, nó đã giới thiệu động cơ Presto tự phát triển, đi đầu trong việc hỗ trợ các công nghệ tiên tiến như CSS, bố cục thích ứng, điều khiển bằng giọng nói và mã hóa Unicode. Mặc dù số lượng người dùng còn hạn chế, nhưng về mặt công nghệ, nó luôn đi đầu trong ngành, trở thành "yêu thích của các tín đồ công nghệ".

Cùng năm đó, Apple đã ra mắt trình duyệt Safari. Mặc dù công cụ tìm kiếm mặc định của Safari từ khi ra đời là Google, nhưng mối quan hệ lịch sử này với Microsoft tượng trưng cho mối quan hệ phức tạp và tinh tế giữa các gã khổng lồ Internet: hợp tác và cạnh tranh, luôn luôn song hành.

Năm 2007, IE7 được phát hành cùng với Windows Vista, nhưng phản hồi của thị trường khá bình thường. Ngược lại, Firefox, nhờ vào tốc độ cập nhật nhanh hơn, cơ chế mở rộng thân thiện hơn và sức hấp dẫn tự nhiên đối với các nhà phát triển, đã dần nâng thị phần lên khoảng 20%. Sự thống trị của IE dần lỏng lẻo, xu hướng đang thay đổi.

Chrome ra mắt vào năm 2008, được xây dựng trên dự án mã nguồn mở Chromium và động cơ WebKit mà Safari sử dụng. Nó được gọi vui là "trình duyệt cồng kềnh", nhưng nhờ vào khả năng quảng cáo và xây dựng thương hiệu mạnh mẽ của Google, nó đã nhanh chóng nổi lên.

Vũ khí chính của Chrome không phải là tính năng, mà là nhịp độ cập nhật phiên bản thường xuyên (mỗi sáu tuần một lần) và trải nghiệm đồng nhất trên toàn nền tảng. Vào tháng 11 năm 2011, Chrome lần đầu tiên vượt qua Firefox, chiếm thị phần 27%; sáu tháng sau, lại vượt qua IE, hoàn thành cuộc chuyển mình từ kẻ thách thức thành kẻ thống trị.

Trong khi đó, internet di động của Trung Quốc cũng đang hình thành hệ sinh thái riêng. Trình duyệt UC thuộc sở hữu của Alibaba đã nhanh chóng nổi lên vào đầu những năm 2010, đặc biệt là tại các thị trường mới nổi như Ấn Độ, Indonesia và Trung Quốc, nhờ thiết kế nhẹ, nén dữ liệu để tiết kiệm lưu lượng và các đặc điểm khác, đã thu hút người dùng thiết bị giá rẻ. Năm 2015, thị phần trình duyệt di động toàn cầu của nó đã vượt qua 17%, có lúc đạt tới 46% ở Ấn Độ. Tuy nhiên, chiến thắng này không bền vững. Khi chính phủ Ấn Độ tăng cường kiểm tra an ninh đối với các ứng dụng của Trung Quốc, UC đã buộc phải rút lui khỏi thị trường quan trọng, dần dần mất đi hào quang ngày xưa.

Bước vào thập kỷ 2020, vị thế thống trị của Chrome đã được thiết lập, với thị phần toàn cầu ổn định khoảng 65%. Đáng chú ý là, mặc dù công cụ tìm kiếm Google và trình duyệt Chrome đều thuộc Alphabet, nhưng từ góc độ thị trường, chúng là hai hệ thống quyền lực độc lập - cái trước kiểm soát khoảng 90% cổng tìm kiếm toàn cầu, cái sau nắm giữ "cửa sổ đầu tiên" mà hầu hết người dùng vào mạng.

Để duy trì cấu trúc độc quyền kép này, Google không tiếc tiền đầu tư. Năm 2022, Alphabet đã trả khoảng 20 tỷ USD cho Apple chỉ để giữ vị trí tìm kiếm mặc định của Google trên Safari. Có phân tích chỉ ra rằng khoản chi này tương đương với 36% doanh thu quảng cáo tìm kiếm mà Google thu được từ lưu lượng truy cập Safari. Nói cách khác, Google đang trả "phí bảo vệ" cho hàng rào bảo vệ.

Nhưng hướng gió lại một lần nữa thay đổi. Với sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM), tìm kiếm truyền thống bắt đầu chịu ảnh hưởng. Năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%, mặc dù vẫn thống trị, nhưng vết nứt đã xuất hiện. Điều gây rối loạn hơn nữa là tin đồn về việc Apple có thể ra mắt công cụ tìm kiếm AI riêng - nếu tìm kiếm mặc định của Safari chuyển sang đội hình của chính họ, điều này không chỉ sẽ thay đổi cấu trúc sinh thái mà còn có thể làm lung lay trụ cột lợi nhuận của Alphabet. Thị trường phản ứng nhanh chóng, giá cổ phiếu của Alphabet từ 170 đô la giảm xuống 140 đô la, phản ánh không chỉ là sự hoảng loạn của các nhà đầu tư mà còn là sự bất an sâu sắc về hướng đi tương lai của thời đại tìm kiếm.

Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa quảng cáo, từ trình duyệt nhẹ đến trợ lý tìm kiếm AI, cuộc chiến trình duyệt luôn là một cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Chiến trường liên tục di chuyển, nhưng bản chất thì chưa bao giờ thay đổi: ai nắm giữ cổng vào, người đó sẽ định nghĩa tương lai.

Trong mắt VC, dựa trên nhu cầu mới của mọi người đối với công cụ tìm kiếm trong thời đại LLM và AI, cuộc chiến trình duyệt lần thứ ba đang dần diễn ra.

Kiến trúc cũ của trình duyệt hiện đại

Khi nói đến kiến trúc của trình duyệt, kiến trúc truyền thống cổ điển như sau:

Khách hàng - Cổng vào phía trước

Tra cứu Google Front End gần nhất được gửi qua HTTPS, hoàn thành giải mã TLS, lấy mẫu QoS và định tuyến địa lý. Nếu phát hiện lưu lượng bất thường (DDoS, tự động thu thập) có thể giới hạn lưu lượng hoặc thách thức ở cấp độ này.

Hiểu biết truy vấn

Phía trước cần hiểu ý nghĩa của từ mà người dùng nhập vào, có ba bước: sửa lỗi chính tả thần kinh, sửa "recpie" thành "recipe"; mở rộng từ đồng nghĩa, mở rộng "how to fix bike" thành "repair bicycle". Phân tích ý định, xác định truy vấn là thông tin, điều hướng hay ý định giao dịch, và phân bổ yêu cầu Vertical.

Gọi lại ứng viên

Công nghệ truy vấn mà Google sử dụng được gọi là: chỉ mục đảo ngược. Trong chỉ mục thẳng, chúng ta có thể chỉ định một ID để truy cập vào tài liệu. Tuy nhiên, người dùng không thể biết nội dung mong muốn nằm ở số thứ tự nào trong hàng trăm tỷ tài liệu, vì vậy Google đã sử dụng chỉ mục đảo ngược rất truyền thống, cho phép tìm kiếm các tài liệu có từ khóa tương ứng dựa trên nội dung. Tiếp theo, Google đã áp dụng chỉ mục vector để xử lý tìm kiếm ngữ nghĩa, tức là tìm các nội dung có ý nghĩa tương tự với truy vấn. Nó chuyển đổi nội dung như văn bản, hình ảnh thành các vector nhiều chiều (embedding) và tìm kiếm dựa trên độ tương đồng giữa các vector này. Ví dụ, ngay cả khi người dùng tìm kiếm "cách làm bột pizza", công cụ tìm kiếm cũng có thể trả về kết quả liên quan đến "hướng dẫn làm bột pizza" vì chúng có sự tương đồng về ngữ nghĩa. Qua chỉ mục đảo ngược và chỉ mục vector, khoảng hàng trăm nghìn trang web sẽ được sàng lọc ban đầu.

Sắp xếp nhiều cấp

Hệ thống thường sử dụng BM25, TF-IDF, điểm chất lượng trang và hàng nghìn đặc trưng nhẹ khác để lọc hàng trăm nghìn trang ứng cử viên xuống còn khoảng 1000 trang, tạo thành bộ ứng cử viên ban đầu. Những hệ thống này được gọi chung là công cụ gợi ý. Chúng phụ thuộc vào hàng triệu đặc trưng được sinh ra từ nhiều thực thể khác nhau, bao gồm hành vi người dùng, thuộc tính trang, ý định tìm kiếm và tín hiệu ngữ cảnh. Ví dụ, Google sẽ tổng hợp lịch sử người dùng, phản hồi hành vi của người dùng khác, ngữ nghĩa của trang, ý nghĩa của truy vấn và các thông tin khác, đồng thời cũng xem xét các yếu tố ngữ cảnh như thời gian (thời điểm trong ngày, ngày cụ thể trong tuần) và các sự kiện bên ngoài như tin tức thời sự.

Sắp xếp chính bằng học sâu

Trong giai đoạn tìm kiếm ban đầu, Google sử dụng các công nghệ như RankBrain và Neural Matching để hiểu ngữ nghĩa của truy vấn và lọc ra các kết quả liên quan ban đầu từ khối lượng tài liệu khổng lồ. RankBrain là hệ thống học máy mà Google giới thiệu vào năm 2015, nhằm hiểu rõ hơn ý nghĩa của truy vấn người dùng, đặc biệt là các truy vấn mới xuất hiện lần đầu. Nó chuyển đổi truy vấn và tài liệu thành đại diện vector, tính toán độ tương đồng giữa chúng để tìm ra kết quả phù hợp nhất. Ví dụ, đối với truy vấn "cách làm bột pizza", ngay cả khi tài liệu không có từ khóa hoàn toàn khớp, RankBrain cũng có thể nhận diện nội dung liên quan đến "cơ sở pizza" hoặc "làm bột".

Neural Matching là một công nghệ khác được Google giới thiệu vào năm 2018, nhằm hiểu sâu hơn mối quan hệ ngữ nghĩa giữa truy vấn và tài liệu. Nó sử dụng mô hình mạng nơ-ron để nắm bắt các mối quan hệ mơ hồ giữa các từ, giúp Google khớp tốt hơn giữa truy vấn và nội dung trang web. Ví dụ, đối với truy vấn "tại sao quạt máy tính xách tay của tôi lại phát ra tiếng lớn", Neural Matching có thể hiểu rằng người dùng có thể đang tìm kiếm thông tin khắc phục sự cố liên quan đến quá nhiệt, bụi bẩn tích tụ hoặc mức sử dụng CPU cao, ngay cả khi những từ này không xuất hiện trực tiếp trong truy vấn.

Sắp xếp lại sâu: Ứng dụng của mô hình BERT

Sau khi lọc ra các tài liệu liên quan, Google sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) để sắp xếp lại các tài liệu này một cách tinh vi hơn, nhằm đảm bảo rằng các kết quả liên quan nhất được xếp ở vị trí hàng đầu. BERT là một mô hình ngôn ngữ được huấn luyện trước dựa trên Transformer, có khả năng hiểu mối quan hệ ngữ cảnh của các từ trong câu. Trong tìm kiếm, BERT được sử dụng để sắp xếp lại các tài liệu đã được truy xuất ban đầu. Nó thông qua việc mã hóa kết hợp giữa truy vấn và tài liệu, tính toán điểm liên quan giữa chúng, từ đó sắp xếp lại các tài liệu. Ví dụ, đối với truy vấn "đỗ xe trên con dốc không có lề đường", BERT có thể hiểu nghĩa của "không có lề đường" và trả về trang đề xuất tài xế hướng bánh xe về phía lề đường, thay vì hiểu nhầm là có lề đường. Đối với các kỹ sư SEO, điều này có nghĩa là cần phải học chính xác về cách Google xếp hạng và thuật toán gợi ý học máy, để tối ưu hóa nội dung trang web một cách có mục tiêu nhằm đạt được thứ hạng hiển thị cao hơn.

Trên đây là quy trình làm việc điển hình của công cụ tìm kiếm Google. Tuy nhiên, trong thời đại bùng nổ AI và dữ liệu lớn hiện nay, người dùng đã có những nhu cầu mới về sự tương tác của trình duyệt.

Tại sao AI sẽ định hình lại trình duyệt

Đầu tiên, chúng ta cần làm rõ, tại sao hình thức trình duyệt này vẫn tồn tại? Có tồn tại một hình thức thứ ba nào không?

AGENT0.35%

BERT7.42%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

4 thích