从卡片到 Agent: 搜索百年演化史

  • 2025-06-20 11:12:26
  • 955

从图书馆卡片柜到AI智能体,搜索技术历经百年变迁。本文回顾搜索演化史,见证人类如何一步步跨越信息获取的障碍,迈向智能化搜索新时代。

前几天,纳米开了一场发布会,老周演示了「超级搜索智能体」“2025年新能源汽车补贴政策取消后,汽车行业格局预计会发生哪些变化?”

一段时间后,30页报告完成:带图、注释、引用

放在几年前,这是:「未来已来」放在现在,这是:「Agent默认感」

正是这种默认感,让我意识到我们已经很久,没自己找过信息了

本文非教程,来聊:「搜索演化史」

目录系统

在今天,查资料不过是「搜一下」在过去,查资料确是难如登天

想象一下,你回到上世纪初如果找一份关于「辛亥革命」的材料该怎么办?

你可能会想:走进图书馆,跟管理员说:「清末革命,讲武昌起义那场」

想得美…找资料没那么简单档案管理,资料浩如烟海,层层叠叠

正确的流程,是这样:一、先去查卡片柜:这里一整柜小卡片,记录着书名、作者、主题、馆藏位置二、再去找索引:「清末」-「民国初年」-「辛亥革命」三、记录下编号和位置:2楼,3排,5号书架,6层,编号114514四、跑过去,看看在不在:如果被借走了,那就明儿再来

图书馆目录卡系统,是那个时代的「搜索引擎」:结构化、可查找,但完全依赖人工。

这东西,所有卡片都是人来维护,可用性,取决于执行者的专业性

这种方法,虽然效率低,但却是当时唯一能让知识「被找到」的方法

1918年,北大图书馆有位图书管理员,在整理各种刊物《申报》《京报》《大公报》,还有英文日文刊物…

他熟悉报刊种类,清楚时效来源,知道如何摆放检索

他广泛阅读各种刊物,博闻强识,为广大师生提供服务

这个人是毛主席

文本检索

时间到了二战后东西角力,科技爆发知识、论文、报告爆炸增长信息膨胀,人工整理跟不上了

还是查「辛亥革命」不用翻抽屉了而是通过计算机,输入类似:”辛亥革命”AND“武昌起义”NOT“北洋军阀”

(当然,这并不是SQL)

这是早期的「机器搜索」

用逻辑表达式、布尔运算、关键词精确匹配来匹配信息,让机器成为信息的入口

进一步的突破,来自GerardSalton,现代搜索技术之父

他在60年代开发出了SMART,真正的文本检索系统:•把每篇文档看成一串词语的集合•计算关键词的出现频率(TF)和稀有程度(IDF)•用数学方法把文本转成”向量”,算出文档和查询的”距离”

换句话说SMART不是筛选匹配,而是寻找「哪篇最相近」

比如你搜「辛亥革命」,返回可能包括:清末史教科书、清政府财政困境论文、张之洞思想访谈

标题看上去可能没啥关系,但内容上相似度极高

现代的各类搜索引擎,其底层原理都可以追溯到SMART自此,信息不再是被存起来的档案,而是可以被算出来的资源

信息检索,也从人工经验变成了数学计算

网络搜索

最早的网上冲浪,没有搜索,纯靠翻阅。

门户网站是当时的主流,Yahoo是当时的王者。国内也有所谓「三大门户」:网易、新浪、搜狐。

用户翻栏目、点频道,一层层进去

最开始还能维护,但内容一多就难办了:更新不及时、分类不统一、死链泛滥

搜索引擎因此而生,最知名的便是谷歌:你说关键词,获得相关的网页

搜索方法也很暴力:关键词匹配,后面还加了PageRank等方法,让排序更加准确

真正的变化发生在2010年前后:搜索开始理解人话了

Google上线了KnowledgeGraph,可以直接显示答案

你搜“乔布斯妻子”,它不光返回网页,还在顶部给出了”摘要”

微软的Bing也做了类似尝试,百度那时候也开始引入问答卡片都在尝试告诉”你想知道的答案”

这一阶段也出现了不走寻常路的产品

比如WolframAlpha,它不是去找网页,而是从知识库里直接算。你问它”光速是多少”,它不会推荐百科,而是返回一个公式计算出来的结果不是搜索,是推导

Manus的联合创始人季逸超(Peak),之前做了个项目叫Magi并成功被收购,方法也是从网页中抽取结构化知识,并进行结构化展示

须知:每一代技术都有它的局限

门户能让你看到内容,搜索能让你找到内容,语义理解能提炼内容。

它们都还只是”告诉你”,还没有”替你去做”

AI时代

2022年11月30日,ChatGPT上线。

几天后,朋友圈、知乎、即刻开始试着「让它写点什么」写年终总结、写邮件模板、写开场白、写月报语气自然、段落清楚,确实不错

人们开始问它各种问题“光速是多少?”“哥白尼是哪国人?”…都答得上来,逻辑清晰,用词贴切

问题很快浮现:胡言乱语“这些数据有出处吗?”GPT会开始自信地胡编乱造:打不开的网页,不存在的文献…

AI并不是查到了信息,而是基于训练数据生成了看似合理的答案。

为解决这个问题,AI被接入了搜索功能

方法相当粗暴:提取关键词、调用搜索API、获取网页片段、掺入对话正式生成

本质是在大模型的生成能力上,叠加了传统搜索的信息获取

虽然粗暴,这种叠加的效果确实不错从检索到理解

真正的变化始于2023年中,AI搜索开始向智能体(Agent)方向演进:尝试进行任务规划。这里顺道说一下,任务规划这东西,有两种实现方式:直接做到模型中(比如OpenAI的o1/o3…),或者通过外部工程化的方式,坐在产品里(比如Manus)

如果说传统搜索是单次查询,智能体则会将复杂需求拆解成任务树,再加上点React,最知名的当属「OpenAIDeepResearch」

OpenAI的DeepResearch应该是最深入人心的“智能体搜索”

比如「分析新能源车市场」,会被拆解为:市场规模数据、主要厂商份额、技术路线对比、政策影响分析等多个子任务。

至于其它示例,以「纳米AI超级搜索智能体」为例

每个子任务不是孤立的,而是相互关联,甚至是能回退&重新规划的

当发现「2024年销量数据」存在多个版本时,系统会启动新的验证任务:查找官方统计口径、对比不同数据源、分析差异原因

循环推理机制,让搜索有了初步的思考能力它不再是机械地返回结果,而是会判断信息的完整性、可信度,以及是否需要进一步挖掘。跨越信息孤岛

网络上的信息,是一个个孤岛

学术论文在专业数据库,用户评价在电商平台,真实反馈在社交媒体,专业讨论在垂直论坛

在层层拆解复杂任务的同时,「纳米AI超级搜索智能体」通过深度搜索能力,打破平台间的“信息围墙”,实现跨平台搜索,方便用户决策

新一代搜索通过两种方式打破围墙:

一方面是数据突破:通过浏览器自动化、API集成、内容解析等技术,实现对不同平台的统一访问。系统能够理解网页结构、提取关键信息、处理动态内容。

一方面是语义理解:不同平台的信息表达方式差异很大——论文的严谨表述、社交媒体的口语化、电商评论的情绪化。AI需要理解这些差异,提取真正有价值的信息。

比如查询一个医疗问题,系统会综合:专业论文的研究结论、医生社区的临床经验、患者论坛的真实案例、药监部门的官方信息。不同来源相互印证,形成更全面的认知。从信息到执行

搜索的演进不止于找到信息,更重要的是完成任务

这需要三个层次的能力:

理解层,准确理解用户意图:「帮我做个PPT」背后,可能是要做项目汇报、产品介绍或者是数据分析。不同场景需要不同的处理逻辑。

规划层,将意图转化为可执行的步骤:制作PPT需要:确定框架、收集素材、整理数据、设计版式、生成内容。每一步都可能需要不同的工具和数据源。

执行层:调用具体工具完成任务:这包括文档生成、数据可视化、图像处理等。关键是这些工具的调用是自动的、连贯的,用户无需逐步操作。图片:纳米AI工作流程可视化界面

你会发现,思考的整个过程是透明的:用户能看到系统的推理过程、数据来源、执行步骤。这种透明性既保证了可控性,也便于用户理解和调整。

尾声

回到开头那个「默认感」•以前,我们默认要自己找•现在,我们默认有人帮我们做

从图书馆的卡片、到AI的理解

一百年来,我们都在回答一个问题:怎么能最少动一下,就让知识为我所用、为我所动

这个门槛,每一代都会变得更低现在的我们,不再说“拨号上网”、不再说“翻电话本”

或许未来的人们,也不会再说“搜一下”他们会说什么?或许什么都不说

最好的技术,是看不见的技术