从卡片到 Agent: 搜索百年演化史

2025-06-20 11:12:26
955

从图书馆卡片柜到AI智能体，搜索技术历经百年变迁。本文回顾搜索演化史，见证人类如何一步步跨越信息获取的障碍，迈向智能化搜索新时代。

前几天，纳米开了一场发布会，老周演示了「超级搜索智能体」“2025年新能源汽车补贴政策取消后，汽车行业格局预计会发生哪些变化？”

一段时间后，30页报告完成：带图、注释、引用

放在几年前，这是：「未来已来」放在现在，这是：「Agent默认感」

正是这种默认感，让我意识到我们已经很久，没自己找过信息了

本文非教程，来聊:「搜索演化史」

目录系统

在今天，查资料不过是「搜一下」在过去，查资料确是难如登天

想象一下，你回到上世纪初如果找一份关于「辛亥革命」的材料该怎么办？

你可能会想：走进图书馆，跟管理员说：「清末革命，讲武昌起义那场」

想得美…找资料没那么简单档案管理，资料浩如烟海，层层叠叠

正确的流程，是这样：一、先去查卡片柜：这里一整柜小卡片，记录着书名、作者、主题、馆藏位置二、再去找索引：「清末」-「民国初年」-「辛亥革命」三、记录下编号和位置：2楼，3排，5号书架，6层，编号114514四、跑过去，看看在不在：如果被借走了，那就明儿再来

图书馆目录卡系统，是那个时代的「搜索引擎」：结构化、可查找，但完全依赖人工。

这东西，所有卡片都是人来维护，可用性，取决于执行者的专业性

这种方法，虽然效率低，但却是当时唯一能让知识「被找到」的方法

1918年，北大图书馆有位图书管理员，在整理各种刊物《申报》《京报》《大公报》，还有英文日文刊物…

他熟悉报刊种类，清楚时效来源，知道如何摆放检索

他广泛阅读各种刊物，博闻强识，为广大师生提供服务

这个人是毛主席

文本检索

时间到了二战后东西角力，科技爆发知识、论文、报告爆炸增长信息膨胀，人工整理跟不上了

还是查「辛亥革命」不用翻抽屉了而是通过计算机，输入类似：”辛亥革命”AND“武昌起义”NOT“北洋军阀”

（当然，这并不是SQL）

这是早期的「机器搜索」

用逻辑表达式、布尔运算、关键词精确匹配来匹配信息，让机器成为信息的入口

进一步的突破，来自GerardSalton，现代搜索技术之父

他在60年代开发出了SMART，真正的文本检索系统：•把每篇文档看成一串词语的集合•计算关键词的出现频率（TF）和稀有程度（IDF）•用数学方法把文本转成”向量”，算出文档和查询的”距离”

换句话说SMART不是筛选匹配，而是寻找「哪篇最相近」

比如你搜「辛亥革命」，返回可能包括：清末史教科书、清政府财政困境论文、张之洞思想访谈

标题看上去可能没啥关系，但内容上相似度极高

现代的各类搜索引擎，其底层原理都可以追溯到SMART自此，信息不再是被存起来的档案，而是可以被算出来的资源

信息检索，也从人工经验变成了数学计算

网络搜索

最早的网上冲浪，没有搜索，纯靠翻阅。

门户网站是当时的主流，Yahoo是当时的王者。国内也有所谓「三大门户」：网易、新浪、搜狐。

用户翻栏目、点频道，一层层进去

最开始还能维护，但内容一多就难办了：更新不及时、分类不统一、死链泛滥

搜索引擎因此而生，最知名的便是谷歌：你说关键词，获得相关的网页

搜索方法也很暴力：关键词匹配，后面还加了PageRank等方法，让排序更加准确

真正的变化发生在2010年前后：搜索开始理解人话了

Google上线了KnowledgeGraph，可以直接显示答案

你搜“乔布斯妻子”，它不光返回网页，还在顶部给出了”摘要”

微软的Bing也做了类似尝试，百度那时候也开始引入问答卡片都在尝试告诉”你想知道的答案”

这一阶段也出现了不走寻常路的产品

比如WolframAlpha，它不是去找网页，而是从知识库里直接算。你问它”光速是多少”，它不会推荐百科，而是返回一个公式计算出来的结果不是搜索，是推导

Manus的联合创始人季逸超（Peak），之前做了个项目叫Magi并成功被收购，方法也是从网页中抽取结构化知识，并进行结构化展示

须知：每一代技术都有它的局限

门户能让你看到内容，搜索能让你找到内容，语义理解能提炼内容。

它们都还只是”告诉你”，还没有”替你去做”

AI时代

2022年11月30日，ChatGPT上线。

几天后，朋友圈、知乎、即刻开始试着「让它写点什么」写年终总结、写邮件模板、写开场白、写月报语气自然、段落清楚，确实不错

人们开始问它各种问题“光速是多少？”“哥白尼是哪国人？”…都答得上来，逻辑清晰，用词贴切

问题很快浮现：胡言乱语“这些数据有出处吗？”GPT会开始自信地胡编乱造：打不开的网页，不存在的文献…

AI并不是查到了信息，而是基于训练数据生成了看似合理的答案。

为解决这个问题，AI被接入了搜索功能

方法相当粗暴：提取关键词、调用搜索API、获取网页片段、掺入对话正式生成

本质是在大模型的生成能力上，叠加了传统搜索的信息获取

虽然粗暴，这种叠加的效果确实不错从检索到理解

真正的变化始于2023年中，AI搜索开始向智能体（Agent）方向演进：尝试进行任务规划。这里顺道说一下，任务规划这东西，有两种实现方式：直接做到模型中（比如OpenAI的o1/o3…），或者通过外部工程化的方式，坐在产品里（比如Manus)

如果说传统搜索是单次查询，智能体则会将复杂需求拆解成任务树，再加上点React，最知名的当属「OpenAIDeepResearch」

OpenAI的DeepResearch应该是最深入人心的“智能体搜索”

比如「分析新能源车市场」，会被拆解为：市场规模数据、主要厂商份额、技术路线对比、政策影响分析等多个子任务。

至于其它示例，以「纳米AI超级搜索智能体」为例

每个子任务不是孤立的，而是相互关联，甚至是能回退&重新规划的

当发现「2024年销量数据」存在多个版本时，系统会启动新的验证任务：查找官方统计口径、对比不同数据源、分析差异原因

循环推理机制，让搜索有了初步的思考能力它不再是机械地返回结果，而是会判断信息的完整性、可信度，以及是否需要进一步挖掘。跨越信息孤岛

网络上的信息，是一个个孤岛

学术论文在专业数据库，用户评价在电商平台，真实反馈在社交媒体，专业讨论在垂直论坛

在层层拆解复杂任务的同时，「纳米AI超级搜索智能体」通过深度搜索能力，打破平台间的“信息围墙”，实现跨平台搜索，方便用户决策

新一代搜索通过两种方式打破围墙：

一方面是数据突破：通过浏览器自动化、API集成、内容解析等技术，实现对不同平台的统一访问。系统能够理解网页结构、提取关键信息、处理动态内容。

一方面是语义理解：不同平台的信息表达方式差异很大——论文的严谨表述、社交媒体的口语化、电商评论的情绪化。AI需要理解这些差异，提取真正有价值的信息。

比如查询一个医疗问题，系统会综合：专业论文的研究结论、医生社区的临床经验、患者论坛的真实案例、药监部门的官方信息。不同来源相互印证，形成更全面的认知。从信息到执行

搜索的演进不止于找到信息，更重要的是完成任务

这需要三个层次的能力：

理解层，准确理解用户意图：「帮我做个PPT」背后，可能是要做项目汇报、产品介绍或者是数据分析。不同场景需要不同的处理逻辑。

规划层，将意图转化为可执行的步骤：制作PPT需要：确定框架、收集素材、整理数据、设计版式、生成内容。每一步都可能需要不同的工具和数据源。

执行层：调用具体工具完成任务：这包括文档生成、数据可视化、图像处理等。关键是这些工具的调用是自动的、连贯的，用户无需逐步操作。图片：纳米AI工作流程可视化界面

你会发现，思考的整个过程是透明的：用户能看到系统的推理过程、数据来源、执行步骤。这种透明性既保证了可控性，也便于用户理解和调整。

尾声

回到开头那个「默认感」•以前，我们默认要自己找•现在，我们默认有人帮我们做

从图书馆的卡片、到AI的理解

一百年来，我们都在回答一个问题：怎么能最少动一下，就让知识为我所用、为我所动

这个门槛，每一代都会变得更低现在的我们，不再说“拨号上网”、不再说“翻电话本”

或许未来的人们，也不会再说“搜一下”他们会说什么？或许什么都不说

最好的技术，是看不见的技术

加西亚非凡的旅行豆瓣评分发布网,提供加西亚非凡的旅行豆瓣评分发布信息,第一时间发布列表及资讯,加西亚非凡的旅行豆瓣是加西亚非凡的旅行豆瓣首选资讯平台。