Поскольку вы не предоставили никакого списка изображений, я оставлю текст без изменений и не вставлю никакие изображения. Вот полный текст оригинала:
AI-браузер: Начало третьей войны браузеров
Третья война браузеров тихо разворачивается. Оглядываясь на историю, с Netscape и IE от Microsoft в 90-х годах прошлого века, до Firefox с его открытым исходным кодом и Chrome от Google, борьба браузеров всегда была ярким проявлением контроля над платформами и изменений технологических парадигм. Chrome завоевал господствующее положение благодаря скорости обновления и экосистемной взаимосвязанности, в то время как Google сформировал замкнутый круг входа в информацию через структуру "двух олигархов" с поиском и браузером.
Однако сегодня эта структура начинает шататься. Восход крупных языковых моделей (LLM) приводит к тому, что всё больше пользователей выполняют задачи на страницах результатов поиска с "нулевым кликом", в то время как традиционное поведение клика по веб-страницам уменьшается. В то же время слухи о том, что Apple может заменить поисковую систему по умолчанию в Safari, ещё больше угрожают прибыльной базе Alphabet, и рынок уже начинает проявлять беспокойство по поводу "ортодоксального поиска".
Браузер сам по себе также сталкивается с переосмыслением своей роли. Он уже не просто инструмент для отображения веб-страниц, а является контейнером для различных возможностей, таких как ввод данных, поведение пользователей, конфиденциальность и идентичность. Хотя AI Agent силен, для выполнения сложных взаимодействий на страницах, вызова локальных данных идентичности и управления элементами веб-страниц, ему по-прежнему необходимо опираться на доверительные границы и функциональные песочницы браузера. Браузер превращается из интерфейса для человека в платформу системных вызовов для агентов.
Настоящее, что может сломать текущую рыночную структуру браузеров, - это не другой "лучший Chrome", а новая структура взаимодействия: не показ информации, а вызов задач. Будущие браузеры должны быть разработаны для AI Agent - не только для чтения, но и для написания и выполнения. Проекты, такие как Browser Use, пытаются семантизировать структуру страниц, превращая визуальные интерфейсы в структурированный текст, который может быть вызван LLM, что значительно снижает затраты на взаимодействие.
Основные проекты на рынке начали экспериментировать: Perplexity создает родной браузер Comet, используя ИИ вместо традиционных поисковых результатов; Brave сочетает защиту конфиденциальности и локальную интерпретацию, усиливая функции поиска и блокировки с помощью LLM; а такие проекты, как Donut и другие нативные крипто-проекты, нацелены на новый вход для взаимодействия ИИ и активов на блокчейне. Общая черта этих проектов заключается в том, что они пытаются реконструировать входную часть браузера, а не улучшать его выходной уровень.
Для предпринимателей возможности скрыты в треугольных отношениях между вводом, структурой и агентом. Браузер как интерфейс для вызова мира будущего Агентов означает, что тот, кто может предоставить структурированные, вызываемые и доверенные "блоки возможностей", станет частью нового поколения платформ. От SEO до AEO (Оптимизация Агентного Двигателя), от трафика страниц до вызовов цепочек задач, форма и дизайн продукта претерпевают реконструкцию. Третья война браузеров происходит на "вводе", а не на "демонстрации"; решающим фактором становится не то, кто привлекает внимание пользователя, а кто завоевывает доверие Агента и получает доступ к вызову.
История развития браузеров
В начале 90-х годов, когда интернет еще не стал частью повседневной жизни, появился Netscape Navigator, словно парусник, открывающий новый континент, который открыл двери в цифровой мир миллионам пользователей. Этот браузер не был первым, но стал первым по-настоящему массовым продуктом, сформировавшим опыт использования интернета. В то время люди впервые могли так легко просматривать веб-страницы через графический интерфейс, как будто весь мир вдруг стал доступен.
Однако слава часто бывает мимолетной. Microsoft вскоре осознала важность браузеров и решила принудительно включить Internet Explorer в операционную систему Windows, сделав его браузером по умолчанию. Эта стратегия стала настоящим "убийцей платформ", что напрямую подорвало рыночные позиции Netscape. Многие пользователи не выбирали IE добровольно, а принимали его, поскольку он был установлен по умолчанию. IE благодаря возможностям распространения Windows быстро стал лидером отрасли, в то время как Netscape погрузился в упадок.
В условиях кризиса инженеры Netscape выбрали радикальный и идеалистический путь - они открыли исходный код браузера и призвали сообщество с открытым исходным кодом к действию. Это решение стало своего рода "македонским отступлением" в технологическом мире, предвещая конец старой эпохи и восход новой силы. Этот код стал основой проекта браузера Mozilla, изначально названного Phoenix (в переводе "феникс"), но из-за проблем с торговой маркой несколько раз менял название, в конечном итоге получив название Firefox.
Firefox не является простым клоном Netscape, он добился значительных успехов в таких областях, как пользовательский опыт, экосистема плагинов и безопасность. Его создание стало символом победы духа открытого кода и вдохнуло новую жизнь в целую отрасль. Некоторые описывают Firefox как "духовного наследника" Netscape, подобно тому как Османская империя унаследовала последние лучи Византии. Эта метафора хоть и преувеличена, но имеет глубокий смысл.
Но за несколько лет до официального выпуска Firefox Microsoft уже выпустила шесть версий IE, благодаря временным преимуществам и стратегии пакетирования системы Firefox с самого начала оказался в положении догоняющего, что предопределило, что это соревнование не является честным состязанием с равного стартового уровня.
Тем временем другой ранний игрок тихо появился на сцене. В 1994 году появился браузер Opera, родом из Норвегии, который изначально был экспериментальным проектом. Однако с версии 7.0 в 2003 году он представил собственный движок Presto, первым поддержавшим такие передовые технологии, как CSS, адаптивная верстка, голосовое управление и кодировка Unicode. Хотя количество пользователей было ограничено, с технологической точки зрения он всегда опережал индустрию, став "любимчиком гиков".
В том же году Apple выпустила браузер Safari. Это был значимый поворотный момент. В то время Microsoft вложила 150 миллионов долларов в почти обанкротившуюся Apple, чтобы поддержать видимость конкуренции и избежать антимонопольного расследования. Хотя по умолчанию поисковая система Safari с момента его создания была Google, эта история с Microsoft символизирует сложные и тонкие отношения между интернет-гигантами: сотрудничество и конкуренция всегда идут рука об руку.
В 2007 году IE7 был выпущен вместе с Windows Vista, но отзывы на рынке были посредственными. Напротив, Firefox, благодаря более быстрому темпу обновлений, более дружелюбной механике расширений и естественному влечению для разработчиков, стабильно увеличивал свою долю на рынке до примерно 20%. Господство IE постепенно ослабевало, ветер перемен начинал дуть.
Google использует другой подход. Хотя с 2001 года компания начала разрабатывать собственный браузер, потребовалось шесть лет, чтобы убедить CEO Эрика Шмидта одобрить этот проект. Chrome был представлен в 2008 году и создан на основе проекта с открытым исходным кодом Chromium и движка WebKit, используемого Safari. Его прозвали "громоздким" браузером, но благодаря глубоким навыкам Google в области рекламы и создания брендов, он быстро завоевал популярность.
Ключевым оружием Chrome является не его функции, а частота обновлений версий (каждые шесть недель) и унифицированный опыт на всех платформах. В ноябре 2011 года Chrome впервые обогнал Firefox, достигнув доли рынка в 27%; через шесть месяцев он снова обогнал IE, завершив переход от претендента к доминирующему.
В то же время мобильный интернет в Китае также формирует свою экосистему. Браузер UC, принадлежащий одной компании, быстро стал популярным в начале 2010-х годов, особенно на таких развивающихся рынках, как Индия, Индонезия и Китай, благодаря легкому дизайну, сжатию данных для экономии трафика и другим характеристикам, что принесло ему популярность среди пользователей бюджетных устройств. В 2015 году его доля на мировом рынке мобильных браузеров превысила 17%, а в Индии достигала 46%. Но эта победа была недолговечной. С усилением правительством Индии проверки безопасности китайских приложений браузер UC был вынужден покинуть ключевой рынок и постепенно утратил былую славу.
В 2020-х годах доминирование Chrome уже установлено, и его доля на мировом рынке стабильно составляет около 65%. Стоит отметить, что поисковая система Google и браузер Chrome, хотя и принадлежат Alphabet, с рыночной точки зрения представляют собой две независимые гегемонии - первая контролирует около девяти десятых глобальных поисковых входов, а вторая управляет "первым окном" для большинства пользователей, входящих в сеть.
Чтобы сохранить эту двойную монопольную структуру, Google не жалел денег на инвестиции. В 2022 году Alphabet заплатила Apple около 20 миллиардов долларов только для того, чтобы Google оставался поисковой системой по умолчанию в Safari. Некоторые аналитики отмечают, что эта сумма составляет 36% от доходов Google от поисковой рекламы, полученных через трафик Safari. Иными словами, Google платит "защиту" для своей крепости.
Но ветер снова изменил направление. С ростом крупных языковых моделей (LLM) традиционный поиск начинает подвергаться ударам. В 2024 году доля рынка поисковых услуг Google упала с 93% до 89%, хотя компания по-прежнему доминирует, трещины уже видны. Более разрушительными являются слухи о том, что Apple может запустить собственный AI поисковик - если Safari перейдет на собственный поисковик по умолчанию, это не только изменит экосистему, но и может пошатнуть опору прибыли Alphabet. Рынок отреагировал быстро, акция Alphabet упала с 170 долларов до 140 долларов, что отражает не только панику инвесторов, но и глубокую тревогу по поводу будущего эпохи поиска.
От Navigator до Chrome, от идеалов с открытым исходным кодом до коммерциализации рекламы, от легкого браузера до AI поискового помощника, борьба браузеров всегда была войной о технологиях, платформах, контенте и контроле. Поле битвы постоянно перемещается, но суть никогда не меняется: кто контролирует вход, тот определяет будущее.
В глазах венчурных капиталистов, опираясь на новые потребности людей в поисковых системах в эпоху LLM и ИИ, третья война браузеров постепенно разворачивается. Ниже приведены некоторые известные проекты в области AI браузеров и их финансовые результаты.
Устаревшая архитектура современных браузеров
Говоря о архитектуре браузера, классическая традиционная архитектура показана на следующем рисунке:
Клиент - Вход на фронт
Запросить последнюю Google Front End, доставленную по HTTPS, завершить расшифровку TLS, выборку QoS и географическую маршрутизацию. Если будет обнаружен аномальный трафик (DDoS, автоматический парсинг), можно ограничить скорость или бросить вызов на этом уровне.
Запрос понимания
Фронтенду необходимо понять значение слов, вводимых пользователем, для чего есть три шага: нейронная коррекция правописания, исправляющая "recpie" на "recipe"; расширение синонимов, преобразующее "how to fix bike" в "repair bicycle". Анализ намерений, определяющий, является ли запрос информационным, навигационным или торговым, и распределяющий запрос по вертикали.
Кандидат на отзыв
Технология запросов, используемая некоторыми поисковыми системами, называется: обратный индекс. В прямом индексе мы можем получить доступ к файлу по заданному идентификатору. Однако пользователь не может знать номер содержимого среди сотен миллиардов файлов, поэтому используется традиционный обратный индекс, который позволяет находить файлы с соответствующими ключевыми словами по содержимому. Далее эта поисковая система использует векторные индексы для обработки семантического поиска, то есть для поиска содержания, аналогичного смыслу запроса. Она преобразует текст, изображения и другие материалы в высокоразмерные векторы (embedding) и осуществляет поиск на основе сходства между этими векторами. Например, даже если пользователь ищет "как приготовить тесто для пиццы", поисковая система может вернуть результаты, связанные с "руководством по приготовлению теста для пиццы", поскольку они семантически схожи. После обработки обратного индекса и векторного индекса отбирается примерно сто тысяч веб-страниц.
Многоуровневая сортировка
Системы обычно фильтруют кандидаты страницы масштаба сотен тысяч до примерно 1000, используя тысячи легких характеристик, таких как BM25, TF-IDF, оценки качества страниц, формируя предварительный набор кандидатов. Эти системы обычно называются рекомендательными системами. Они полагаются на огромное количество характеристик, создаваемых различными сущностями, включая поведение пользователей, свойства страниц, намерения запросов и контекстные сигналы. Например, одна поисковая система будет учитывать историю пользователя, обратную связь от других пользователей, семантику страниц, значение запросов и другую информацию, одновременно принимая во внимание контекстные факторы, такие как время (период дня, конкретные дни недели) и события внешнего мира, такие как актуальные новости.
Глубокое обучение для основного ранжирования
На начальном этапе поиска одна поисковая система использует технологии RankBrain и Neural Matching для понимания семантики запросов и фильтрации предварительно релевантных результатов из огромного количества документов. RankBrain — это система машинного обучения, внедренная этой поисковой системой в 2015 году, предназначенная для лучшего понимания значений пользовательских запросов, особенно тех, которые появляются впервые. Она преобразует запросы и документы в векторные представления и вычисляет их сходство, чтобы найти наиболее релевантные результаты. Например, для запроса "как сделать тесто для пиццы", даже если в документе нет полностью совпадающих ключевых слов, RankBrain может распознать содержание, связанное с "основой для пиццы" или "приготовлением теста".
Neural Matching — это еще одна технология, выпущенная одной из поисковых систем в 2018 году, которая предназначена для более глубокого понимания взаимосвязи между запросами и документами.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Искусственный интеллект в браузерах ведет третью битву браузеров, перестраивая модели поиска и взаимодействия.
Поскольку вы не предоставили никакого списка изображений, я оставлю текст без изменений и не вставлю никакие изображения. Вот полный текст оригинала:
AI-браузер: Начало третьей войны браузеров
Третья война браузеров тихо разворачивается. Оглядываясь на историю, с Netscape и IE от Microsoft в 90-х годах прошлого века, до Firefox с его открытым исходным кодом и Chrome от Google, борьба браузеров всегда была ярким проявлением контроля над платформами и изменений технологических парадигм. Chrome завоевал господствующее положение благодаря скорости обновления и экосистемной взаимосвязанности, в то время как Google сформировал замкнутый круг входа в информацию через структуру "двух олигархов" с поиском и браузером.
Однако сегодня эта структура начинает шататься. Восход крупных языковых моделей (LLM) приводит к тому, что всё больше пользователей выполняют задачи на страницах результатов поиска с "нулевым кликом", в то время как традиционное поведение клика по веб-страницам уменьшается. В то же время слухи о том, что Apple может заменить поисковую систему по умолчанию в Safari, ещё больше угрожают прибыльной базе Alphabet, и рынок уже начинает проявлять беспокойство по поводу "ортодоксального поиска".
Браузер сам по себе также сталкивается с переосмыслением своей роли. Он уже не просто инструмент для отображения веб-страниц, а является контейнером для различных возможностей, таких как ввод данных, поведение пользователей, конфиденциальность и идентичность. Хотя AI Agent силен, для выполнения сложных взаимодействий на страницах, вызова локальных данных идентичности и управления элементами веб-страниц, ему по-прежнему необходимо опираться на доверительные границы и функциональные песочницы браузера. Браузер превращается из интерфейса для человека в платформу системных вызовов для агентов.
Настоящее, что может сломать текущую рыночную структуру браузеров, - это не другой "лучший Chrome", а новая структура взаимодействия: не показ информации, а вызов задач. Будущие браузеры должны быть разработаны для AI Agent - не только для чтения, но и для написания и выполнения. Проекты, такие как Browser Use, пытаются семантизировать структуру страниц, превращая визуальные интерфейсы в структурированный текст, который может быть вызван LLM, что значительно снижает затраты на взаимодействие.
Основные проекты на рынке начали экспериментировать: Perplexity создает родной браузер Comet, используя ИИ вместо традиционных поисковых результатов; Brave сочетает защиту конфиденциальности и локальную интерпретацию, усиливая функции поиска и блокировки с помощью LLM; а такие проекты, как Donut и другие нативные крипто-проекты, нацелены на новый вход для взаимодействия ИИ и активов на блокчейне. Общая черта этих проектов заключается в том, что они пытаются реконструировать входную часть браузера, а не улучшать его выходной уровень.
Для предпринимателей возможности скрыты в треугольных отношениях между вводом, структурой и агентом. Браузер как интерфейс для вызова мира будущего Агентов означает, что тот, кто может предоставить структурированные, вызываемые и доверенные "блоки возможностей", станет частью нового поколения платформ. От SEO до AEO (Оптимизация Агентного Двигателя), от трафика страниц до вызовов цепочек задач, форма и дизайн продукта претерпевают реконструкцию. Третья война браузеров происходит на "вводе", а не на "демонстрации"; решающим фактором становится не то, кто привлекает внимание пользователя, а кто завоевывает доверие Агента и получает доступ к вызову.
История развития браузеров
В начале 90-х годов, когда интернет еще не стал частью повседневной жизни, появился Netscape Navigator, словно парусник, открывающий новый континент, который открыл двери в цифровой мир миллионам пользователей. Этот браузер не был первым, но стал первым по-настоящему массовым продуктом, сформировавшим опыт использования интернета. В то время люди впервые могли так легко просматривать веб-страницы через графический интерфейс, как будто весь мир вдруг стал доступен.
Однако слава часто бывает мимолетной. Microsoft вскоре осознала важность браузеров и решила принудительно включить Internet Explorer в операционную систему Windows, сделав его браузером по умолчанию. Эта стратегия стала настоящим "убийцей платформ", что напрямую подорвало рыночные позиции Netscape. Многие пользователи не выбирали IE добровольно, а принимали его, поскольку он был установлен по умолчанию. IE благодаря возможностям распространения Windows быстро стал лидером отрасли, в то время как Netscape погрузился в упадок.
В условиях кризиса инженеры Netscape выбрали радикальный и идеалистический путь - они открыли исходный код браузера и призвали сообщество с открытым исходным кодом к действию. Это решение стало своего рода "македонским отступлением" в технологическом мире, предвещая конец старой эпохи и восход новой силы. Этот код стал основой проекта браузера Mozilla, изначально названного Phoenix (в переводе "феникс"), но из-за проблем с торговой маркой несколько раз менял название, в конечном итоге получив название Firefox.
Firefox не является простым клоном Netscape, он добился значительных успехов в таких областях, как пользовательский опыт, экосистема плагинов и безопасность. Его создание стало символом победы духа открытого кода и вдохнуло новую жизнь в целую отрасль. Некоторые описывают Firefox как "духовного наследника" Netscape, подобно тому как Османская империя унаследовала последние лучи Византии. Эта метафора хоть и преувеличена, но имеет глубокий смысл.
Но за несколько лет до официального выпуска Firefox Microsoft уже выпустила шесть версий IE, благодаря временным преимуществам и стратегии пакетирования системы Firefox с самого начала оказался в положении догоняющего, что предопределило, что это соревнование не является честным состязанием с равного стартового уровня.
Тем временем другой ранний игрок тихо появился на сцене. В 1994 году появился браузер Opera, родом из Норвегии, который изначально был экспериментальным проектом. Однако с версии 7.0 в 2003 году он представил собственный движок Presto, первым поддержавшим такие передовые технологии, как CSS, адаптивная верстка, голосовое управление и кодировка Unicode. Хотя количество пользователей было ограничено, с технологической точки зрения он всегда опережал индустрию, став "любимчиком гиков".
В том же году Apple выпустила браузер Safari. Это был значимый поворотный момент. В то время Microsoft вложила 150 миллионов долларов в почти обанкротившуюся Apple, чтобы поддержать видимость конкуренции и избежать антимонопольного расследования. Хотя по умолчанию поисковая система Safari с момента его создания была Google, эта история с Microsoft символизирует сложные и тонкие отношения между интернет-гигантами: сотрудничество и конкуренция всегда идут рука об руку.
В 2007 году IE7 был выпущен вместе с Windows Vista, но отзывы на рынке были посредственными. Напротив, Firefox, благодаря более быстрому темпу обновлений, более дружелюбной механике расширений и естественному влечению для разработчиков, стабильно увеличивал свою долю на рынке до примерно 20%. Господство IE постепенно ослабевало, ветер перемен начинал дуть.
Google использует другой подход. Хотя с 2001 года компания начала разрабатывать собственный браузер, потребовалось шесть лет, чтобы убедить CEO Эрика Шмидта одобрить этот проект. Chrome был представлен в 2008 году и создан на основе проекта с открытым исходным кодом Chromium и движка WebKit, используемого Safari. Его прозвали "громоздким" браузером, но благодаря глубоким навыкам Google в области рекламы и создания брендов, он быстро завоевал популярность.
Ключевым оружием Chrome является не его функции, а частота обновлений версий (каждые шесть недель) и унифицированный опыт на всех платформах. В ноябре 2011 года Chrome впервые обогнал Firefox, достигнув доли рынка в 27%; через шесть месяцев он снова обогнал IE, завершив переход от претендента к доминирующему.
В то же время мобильный интернет в Китае также формирует свою экосистему. Браузер UC, принадлежащий одной компании, быстро стал популярным в начале 2010-х годов, особенно на таких развивающихся рынках, как Индия, Индонезия и Китай, благодаря легкому дизайну, сжатию данных для экономии трафика и другим характеристикам, что принесло ему популярность среди пользователей бюджетных устройств. В 2015 году его доля на мировом рынке мобильных браузеров превысила 17%, а в Индии достигала 46%. Но эта победа была недолговечной. С усилением правительством Индии проверки безопасности китайских приложений браузер UC был вынужден покинуть ключевой рынок и постепенно утратил былую славу.
В 2020-х годах доминирование Chrome уже установлено, и его доля на мировом рынке стабильно составляет около 65%. Стоит отметить, что поисковая система Google и браузер Chrome, хотя и принадлежат Alphabet, с рыночной точки зрения представляют собой две независимые гегемонии - первая контролирует около девяти десятых глобальных поисковых входов, а вторая управляет "первым окном" для большинства пользователей, входящих в сеть.
Чтобы сохранить эту двойную монопольную структуру, Google не жалел денег на инвестиции. В 2022 году Alphabet заплатила Apple около 20 миллиардов долларов только для того, чтобы Google оставался поисковой системой по умолчанию в Safari. Некоторые аналитики отмечают, что эта сумма составляет 36% от доходов Google от поисковой рекламы, полученных через трафик Safari. Иными словами, Google платит "защиту" для своей крепости.
Но ветер снова изменил направление. С ростом крупных языковых моделей (LLM) традиционный поиск начинает подвергаться ударам. В 2024 году доля рынка поисковых услуг Google упала с 93% до 89%, хотя компания по-прежнему доминирует, трещины уже видны. Более разрушительными являются слухи о том, что Apple может запустить собственный AI поисковик - если Safari перейдет на собственный поисковик по умолчанию, это не только изменит экосистему, но и может пошатнуть опору прибыли Alphabet. Рынок отреагировал быстро, акция Alphabet упала с 170 долларов до 140 долларов, что отражает не только панику инвесторов, но и глубокую тревогу по поводу будущего эпохи поиска.
От Navigator до Chrome, от идеалов с открытым исходным кодом до коммерциализации рекламы, от легкого браузера до AI поискового помощника, борьба браузеров всегда была войной о технологиях, платформах, контенте и контроле. Поле битвы постоянно перемещается, но суть никогда не меняется: кто контролирует вход, тот определяет будущее.
В глазах венчурных капиталистов, опираясь на новые потребности людей в поисковых системах в эпоху LLM и ИИ, третья война браузеров постепенно разворачивается. Ниже приведены некоторые известные проекты в области AI браузеров и их финансовые результаты.
Устаревшая архитектура современных браузеров
Говоря о архитектуре браузера, классическая традиционная архитектура показана на следующем рисунке:
Клиент - Вход на фронт
Запросить последнюю Google Front End, доставленную по HTTPS, завершить расшифровку TLS, выборку QoS и географическую маршрутизацию. Если будет обнаружен аномальный трафик (DDoS, автоматический парсинг), можно ограничить скорость или бросить вызов на этом уровне.
Запрос понимания
Фронтенду необходимо понять значение слов, вводимых пользователем, для чего есть три шага: нейронная коррекция правописания, исправляющая "recpie" на "recipe"; расширение синонимов, преобразующее "how to fix bike" в "repair bicycle". Анализ намерений, определяющий, является ли запрос информационным, навигационным или торговым, и распределяющий запрос по вертикали.
Кандидат на отзыв
Технология запросов, используемая некоторыми поисковыми системами, называется: обратный индекс. В прямом индексе мы можем получить доступ к файлу по заданному идентификатору. Однако пользователь не может знать номер содержимого среди сотен миллиардов файлов, поэтому используется традиционный обратный индекс, который позволяет находить файлы с соответствующими ключевыми словами по содержимому. Далее эта поисковая система использует векторные индексы для обработки семантического поиска, то есть для поиска содержания, аналогичного смыслу запроса. Она преобразует текст, изображения и другие материалы в высокоразмерные векторы (embedding) и осуществляет поиск на основе сходства между этими векторами. Например, даже если пользователь ищет "как приготовить тесто для пиццы", поисковая система может вернуть результаты, связанные с "руководством по приготовлению теста для пиццы", поскольку они семантически схожи. После обработки обратного индекса и векторного индекса отбирается примерно сто тысяч веб-страниц.
Многоуровневая сортировка
Системы обычно фильтруют кандидаты страницы масштаба сотен тысяч до примерно 1000, используя тысячи легких характеристик, таких как BM25, TF-IDF, оценки качества страниц, формируя предварительный набор кандидатов. Эти системы обычно называются рекомендательными системами. Они полагаются на огромное количество характеристик, создаваемых различными сущностями, включая поведение пользователей, свойства страниц, намерения запросов и контекстные сигналы. Например, одна поисковая система будет учитывать историю пользователя, обратную связь от других пользователей, семантику страниц, значение запросов и другую информацию, одновременно принимая во внимание контекстные факторы, такие как время (период дня, конкретные дни недели) и события внешнего мира, такие как актуальные новости.
Глубокое обучение для основного ранжирования
На начальном этапе поиска одна поисковая система использует технологии RankBrain и Neural Matching для понимания семантики запросов и фильтрации предварительно релевантных результатов из огромного количества документов. RankBrain — это система машинного обучения, внедренная этой поисковой системой в 2015 году, предназначенная для лучшего понимания значений пользовательских запросов, особенно тех, которые появляются впервые. Она преобразует запросы и документы в векторные представления и вычисляет их сходство, чтобы найти наиболее релевантные результаты. Например, для запроса "как сделать тесто для пиццы", даже если в документе нет полностью совпадающих ключевых слов, RankBrain может распознать содержание, связанное с "основой для пиццы" или "приготовлением теста".
Neural Matching — это еще одна технология, выпущенная одной из поисковых систем в 2018 году, которая предназначена для более глубокого понимания взаимосвязи между запросами и документами.