思考、思考、思考不停歇,思维树ToT「军训」LLM
GPT 和 PaLM 等大型语言模型在处理数学、符号、常识和知识推理等任务时正变得越来越熟练。也许令人惊讶的是,所有这些进展的基础仍然是生成文本的原始自回归机制。它逐个 token 地进行决策,并按从左到右的方式生成文本。这样简单的机制是否足以构建一个通用问题求解器的语言模型呢?如果不行,哪些问题将挑战当前的范式,应该采用什么样的替代机制呢?
有关人类认知的文献提供了一些线索来回答这些问题。关于「双过程(dual process)」模型的研究表明,人们在进行决策时有两种模式:一种是快速、自动、无意识的模式(System 1),另一种是缓慢、深思熟虑、有意识的模式(System 2)。这两种模式以前与机器学习中使用的各种数学模型联系在一起。例如,对人类和其他动物的强化学习的研究探讨了他们进行联想式的「无模型」学习或更加深思熟虑的「基于模型」的规划的情况。语言模型的简单联想式 token 级选择也类似于「System 1」,因此可能受益于更深思熟虑的「System 2」规划过程的增强,该过程保持并探索当前选择的多种替代方案,而不仅仅是选择一个。此外,它会评估其当前状态,并积极地展望或回溯以进行更全局的决策。
为了设计这样一个规划过程,来自普林斯顿大学、 Google DeepMind 的研究者选择先回顾一下人工智能(和认知科学)的起源,汲取 Newell、Shaw 和 Simon 在上世纪 50 年代探索的规划过程的灵感。Newell 和他的同事将问题解决描述为对组合式问题空间的搜索,这个空间被表示为一棵树。因此,他们提出了适用于语言模型的思维树(ToT)框架,用于通用问题求解。
(相关资料图)
论文链接:https://arxiv.org/pdf/2305.10601.pdf
项目地址:https://github.com/ysymyth/tree-of-thought-llm
正如图 1 所示,现有的方法通过对连续语言序列进行采样来解决问题,而 ToT 则积极地维护一棵思维树,其中每个思维都是一个连贯的语言序列,作为解决问题的中间步骤(表 1)。
这样一个高级语义单元使 LM 能够通过深思熟虑的推理过程来自我评估不同中间思维对解决问题的进展贡献情况(图 2、4、6)。通过 LM 的自我评估和深思熟虑来实现搜索启发式是一种新颖的方法,因为以前的搜索启发式要么是编程的,要么是学习得来的。
最后,研究者将这种基于语言的生成和评估多样思维的能力与搜索算法相结合,例如广度优先搜索(BFS)或深度优先搜索(DFS),这些算法允许对思维树进行系统性的探索,并具备展望和回溯功能。
在实验阶段,研究者设置了三项任务,即 24 点游戏、创意写作和填字游戏(表 1),这些问题对现有的 LM 推理方法来说颇具挑战性,即使对于 GPT-4 来说也不例外。这些任务要求具备演绎、数学、常识、词汇推理能力,以及一种融入系统性规划或搜索的方式。实验结果表明,ToT 在这三个任务上取得了优越的成绩,因为它具备足够的通用性和灵活性,可以支持不同层次的思维、不同生成和评估思维的方式,以及适应不同问题性质的不同搜索算法。通过系统的实验消融分析,作者还探讨了这些选择如何影响模型性能,并讨论了未来训练和使用 LM 的方向。
思维树:利用语言模型进行深思熟虑的问题求解一个真正的问题求解过程涉及反复使用可用信息来启动探索,进而揭示更多信息,直到最终发现实现解决方案的方法。—— Newell 等
对人类问题求解的研究表明,人类通过搜索一个组合式问题空间来解决问题。这可以看作一棵树,其中节点表示部分解,分支对应修改它们的运算符。选择哪个分支是由启发式决定的,这些启发式帮助导航问题空间并引导问题解决者朝着解决方案的方向前进。这个观点突出了使用语言模型来解决通用问题的现有方法的两个关键缺点:1)局部上,它们不探索思维过程中的不同延续 —— 树的分支。2)全局上,它们不包括任何类型的规划、展望或回溯来帮助评估这些不同的选择 —— 这种启发式引导的搜索似乎是人类问题求解的特征。
为了解决这些问题,作者引入了思维树(ToT),这是一种让语言模型能够在思维路径上探索多种推理方式的范式(图 1 (c))。ToT 将任何问题框架化为对树的搜索,其中每个节点是一个状态 s = [x, z_1・・・i ],表示带有输入和迄今为止的思维序列的部分解。ToT 的具体实例包括回答以下四个问题:
1. 如何将中间过程分解为思维步骤;2. 如何从每个状态生成潜在思维;3. 如何启发式地评估状态;4. 使用什么搜索算法。1. 思维分解。虽然 CoT 在没有明确分解的情况下对思维进行连贯的采样,但 ToT 利用问题属性来设计和分解中间思维步骤。如表 1 所示,根据不同的问题,思维可以是几个单词(填字游戏),一个等式(24 点游戏),或者是一段写作计划(创意写作)。一般来说,思维应该足够「小(small)」,以便 LM 能生成预期多样化的样本(如生成太「大(big)」而不连贯一本书),但思维又应该足够「大」,以便 LM 可以评估其解决问题的前景(例如,生成一个 token 通常太小而无法评估)。
2. 思维生成器 G (p_θ, s, k)。给定树状态 s = [x, z_1・・・i],该研究利用两种策略来为下一步思维 step 生成 k 个候选对象。
3. 状态评估器 V (p_θ, S)。给定不同状态的边界,状态评估器评估它们在解决问题方面的进展,以确定哪些状态应该继续探索,以及以何种顺序进行探索。虽然启发式是解决搜索问题的标准方法,但它们通常要么是编程式的(例如 DeepBlue),要么是需要经过学习的(例如 AlphaGo)。本文提出第三种替代方法,通过使用语言来有意地推理状态。在适用的情况下,这种深思熟虑的启发式方法可能比编程规则更灵活,比学习模型更有效。
与思维生成器类似,考虑两种策略来单独或一起评估状态:
(1)独立评估每个状态(2)跨状态投票这两种策略,可以多次提示 LM 来整合价值或投票结果,用时间、资源、成本换得更加可靠、鲁棒的启发式。
4. 搜索算法。最后,在 ToT 框架内,可以根据树结构即插即用不同的搜索算法。本文探索了两个相对简单的搜索算法,并将更高级的算法留作以后进行研究:
(1)广度优先搜索(BFS)(算法 1)(2)深度优先搜索(DFS)(算法 2)从概念上讲,ToT 作为语言模型解决一般问题的方法有几个好处:
(1)通用性。IO、CoT、CoT- sc 和自我细化可以看作 ToT 的特殊情况(即深度和广度有限的树;图 1);(2)模块化。基本的 LM 以及思维分解、生成、评估和搜索过程都可以独立变化;(3)适应性。可以适应不同的问题属性、LM 能力和资源约束;(4)便捷性。无需额外的训练,只需要一个预训练的 LM 就足够了。实验结果该研究提出了三个任务,即便使用最先进的语言模型 GPT-4,通过标准的 IO prompting 或思维链(CoT)prompting 进行采样,这些任务仍然具有挑战性。
24 点数学游戏
给定四个数字,玩家需要在限定的时间内使用这四个数字和基本数学运算符号(加号、减号、乘号、除号)来创建一个表达式,使其结果为 24。比如,给定数字:4、6、8、2,一个可能的解法是:(8 ÷ (4 - 2)) × 6 = 24。
如表 2 所示,使用 IO、CoT 和 CoT-SC prompting 方法在任务上表现不佳,仅实现了 7.3%、4.0% 和 9.0% 的成功率。相比之下,b(breadth) = 1 的 ToT 已经实现了 45% 的成功率,而 b = 5 时则达到了 74%。他们还考虑了 IO/CoT 的 oracle 设置,通过使用 k 个样本中的最佳值来计算成功率 (1 ≤ k ≤ 100)。
为了将 IO/CoT(k 个最佳结果)与 ToT 进行比较,研究者考虑在 ToT 中计算每个任务中访问的树节点数量,其中 b = 1・・・5,并将 5 个成功率映射在图 3 (a) 中,将 IO/CoT(k 个最佳结果)视为在赌博机中访问 k 个节点。毫不奇怪,CoT 比 IO 更具扩展性,而最好的 100 个 CoT 样本实现了 49% 的成功率,但仍远远不及在 ToT 中探索更多节点(b > 1)。
下图 3 (b) 分解了 CoT 和 ToT 样本在任务失败时的情况。值得注意的是,大约 60% 的 CoT 样本在生成第一步,相当于生成前三个单词 (例如 “4 + 9”) 后就已经失败了。这让直接从左到右解码的问题更加凸显了。
创意写作
研究者还发明了一个创意写作任务,输入 4 个随机句子,输出一篇包含四段的连贯文章,每段分别以 4 个输入句子结尾。这样的任务是开放式和探索性的,挑战了创造性思维和高级规划。
下图 5 (a) 显示了 GPT-4 在 100 个任务中的平均分数,其中 ToT (7.56) 比 IO (6.19) 和 CoT (6.93) 生成了更连贯的段落。虽然这样的自动度量可能会有噪声,但图 5 (b) 证实,人类在 100 passage 对中有 41 对更喜欢 ToT 而不是 CoT,而只有 21 对更喜欢 CoT 而不是 ToT (其他 38 对被发现 “相似连贯”)。
最后,迭代优化算法在该自然语言任务上取得了更好效果,IO 一致性得分从 6.19 提高到 7.67,ToT 一致性得分从 7.56 提高到了 7.91。研究者认为,这可以看作是 ToT 框架中思维生成的第三种方法,新思维可以从细化旧思维中产生,而不是顺序生成。
迷你填字游戏
在《24 点数学游戏》和创意写作中,ToT 是比较浅显的 —— 最多需要 3 个思考步骤就能达到最终的输出。研究者将探索 5×5 迷你填字游戏作为有关自然语言的更难一层的搜索问题。同样,这次的目标不仅仅是解决任务,因为一般填字游戏可以通过专门的 NLP pipeline 轻松解决,该 pipeline 利用大规模检索而不是 LM。相反,研究者的目标是探索语言模型作为一个通用问题求解器的极限,探索它自身的思维,并以严谨的推理作为启发式来指导自己的探索。
如下表 3 所示,IO 和 CoT 提示方法表现不佳,单词级别的成功率低于 16%,而 ToT 显著提高了所有指标,实现了 60% 的单词级别成功率,在 20 个游戏中解决了 4 个。考虑到 IO 和 CoT 缺乏尝试不同线索、更改决策或回溯的机制,这样的提升并不令人惊讶。
标签:
-
2022-05-23 16:13:32
上海奉贤等区开展常态化防疫压力测试 有序开放公交、公园、公共服务场所、公共街区商区<
本报上海5月21日电 (记者刘士安、曹玲娟)上海正在奉贤等区开展常态化防疫压力测试。在21日召开的上海市疫情防控工作新闻发布会上,奉
-
2022-05-23 16:13:32
“抗疫 宅家云课堂”,吸引沪上老同志观看50万人次<
由上海市委老干部局主办,上海市老干部大学、市科技助老服务中心承办的“抗疫 宅家云课堂”系列直播讲座自4月12日启动以来,深受老同
-
2022-05-23 16:13:32
“代跑腿”买药、开通绿色通道 丰台为管控区居民提供便捷医疗服务<
“真是太感谢了,解决了我的燃眉之急!”家住假日万恒社区的杨女士对前来送药的居委会工作人员说。 自5月17日6时起,丰台区对青塔街...
-
2022-05-23 16:13:32
上海嘉定:儿童计划免疫接种全部恢复,实行预约制<
在5月22日召开的上海市新冠肺炎疫情防控新闻发布会上,嘉定区副区长王浩介绍,从4月28日开始,嘉定在防范区逐步有序恢复老年人疫苗接种
-
2022-05-23 16:13:32
乡村振兴看新疆 | 种下红樱桃 结出“致富果”<
央广网阿图什5月22日消息(记者 罗成 通讯员 杨林)乡村振兴靠产业,产业发展靠特色。新疆阿图什市阿扎克镇麦依村积极引导农民因地制
-
2023-06-02 02:02:29
思考、思考、思考不停歇,思维树ToT「军训」LLM
GPT和PaLM等大型语言模型在处理数学、符号、常识和知识推理等任务时正变得越来越熟练。也许令人惊讶的是,
-
2023-06-02 00:33:40
全球新资讯:康达新材:累计回购约461万股 占比1.5081%
康达新材(SZ002669,收盘价:12 05元)6月1日晚间发布公告称,截至2023年5月31日,公司通过回购专用证券账
-
2023-06-01 23:34:47
腾冲:非遗特色让马站乡碗窑村焕发新活力 全球快讯
马站乡三联村碗窑村是第三批中国传统村落,具有600余年的制陶历史,土陶业是该村的一项传统产业。近年来,
-
2023-06-01 23:23:46
每日热议!宋小宝甄嬛后传台词剧本 宋小宝甄嬛后传2台词
今天来聊聊关于宋小宝甄嬛后传台词剧本,宋小宝甄嬛后传2台词的文章,现在就为大家来简单介绍下宋小宝甄嬛
-
2023-06-01 21:56:17
北京今年高考首次实行考点和考场两次安检|全球观速讯
6月1日,据央视新闻客户端报道:2023年高考将于6月7日拉开帷幕。今天,北京教育考试院发布提示,今年高考首
-
2023-06-01 20:45:38
互动| 天娱数科:为亚钾国际打造化肥行业首个具有品牌特色与个性魅力的虚拟数字人形象 “小钾”_新视野
天娱数科(行情002354,诊股)在互动平台表示,公司与亚钾国际(行情000893,诊股)展开合作,通过「MetaSurfing-
-
2023-06-01 20:17:55
阿根廷中国行票价曝光 最高或达到8880元
阿根廷国家队来华踢球的消息引发了众多球迷的关注,目前主办方已经公布了阿根廷对阵澳大利亚的热身赛的票务
-
2023-06-01 19:38:24
A股三大指数震荡整理 TMT赛道大涨航空股领跌 | 今盘三点半
海南板块方面,6月1日共有11只海南个股上涨,其中华闻集团上涨2 59%;海南椰岛上涨2 33%。
-
2023-06-01 19:35:09
全球速讯:南京“00后”视障大学生创业做“播客”教练:“逆光”行走 声探“视”界
中新网南京6月1日电 题:南京“00后”视障大学生创业做“播客”教练:“逆光”行走 声探“视”界中新
-
2023-06-01 18:07:45
1461_关于1461的介绍
1、1461次列车是一列空调普快列车。2、始发站是北京。3、终点站是上海。本文到此结束,希望对大家有所帮助。
-
2023-06-01 17:04:45
苹果六手机连接不了wifi怎么办 苹果6手机连不上wifi是怎么回事
今天来聊聊关于苹果六手机连接不了wifi怎么办,苹果6手机连不上wifi是怎么回事的文章,现在就为大家来简单
-
2023-06-01 16:35:52
小米开启618电池/屏幕换新服务
电商报快讯:6月1日消息,小米开启618电池和屏幕换新服务,活动时间6月1日到6月7日。换屏方面,此次活动可
-
2023-06-01 15:39:47
义马千秋煤矿:小小充电桩 便民又暖心
“矿上真是太贴心了!这有了充电桩方便多了,再也不用扯电线充电了,也不用担心安全问题了。”“是呀,是呀
-
2023-06-01 15:01:20
2023浙江丽水市遂昌县教育系统招聘幼儿园教师笔试成绩及入围面试人员公告 每日看点
点击下载>>>2023年遂昌县教育系统公开招聘幼儿园教师笔试成绩及入围面试人员名单原标题:2023年遂昌县教育系
-
2023-06-01 13:55:45
取保候审保证人承担什么保证责任
一、取保候审保证人承担什么保证责任取保候审保证人的保证责任:监督被保证人和及时报告。《刑事诉讼法》第
-
2023-06-01 13:39:19
【全球报资讯】【甘快看】金塔县:昔日戈壁荒滩 今日“光伏海洋”
中新网甘肃新闻5月31日电(王萍)近日,走进金塔县中电建30万千瓦光伏发电项目基地,一边是吊车来回穿梭正在
-
2023-06-01 13:11:31
中科院院士赵继宗:脑机接口医疗应用 需解决伦理等问题 环球快消息
这被业内认为是脑机接口迈向商业化应用的重要里程碑。脑机接口的临床应用谈及脑机接口技术目前在医疗领域的
-
2023-06-01 11:41:22
失踪一夜的汕头5岁女童有下落了!在离家数公里的山上被找到,身上全是蚊子咬的包_世界热议
1日上午,当地南和义工协会相关人士告诉极目新闻记者,当天早上7时许,婷婷在离家四五公里的山上被找到
-
2023-06-01 11:25:07
世界热推荐:焦点访谈:航天接力跑 天宫启新程
焦点访谈:航天接力跑天宫启新程
-
2023-06-01 10:12:03
世界热点!铁路东村社区开展“共读红色绘本,共建图书漂流站”庆“六一”活动
铁路东村社区开展“共读红色绘本,共建图书漂流站”庆“六一”活动,绘本,漂流,东村,幼儿园,图书
-
2023-06-01 09:41:38
金汇得手:黄金1975受阻回落 1964日内多空分水
美元指数本月收大阳正常走势还有一涨支撑1023附近阻力1058附近日线昨天冲高回落收长上影阳线今天关注103810
-
2023-06-01 09:00:44
天天看热讯:晶澳科技(002459.SZ):预计2023年全年度出货海外占比会保持在60%左右
格隆汇6月1日丨晶澳科技002459SZ于2023年5月30日下午15001700参与河北辖区上市公司2023年投资者网上集体接
-
2023-06-01 08:09:50
天天动态:“盲版邓丽君”张玉霞:走红后被逼整容,45岁重回街头卖唱
哈喽,大家好!看娱乐资讯,谈明星八卦!就来找小编,每天都会带来新鲜好看的娱乐八卦哦~一切都是命运,而
-
2023-06-01 06:57:06
聊天时淦是什么意思_你知道吗-焦点讯息
聊天时淦是什么意思,你知道吗很多人还不知道,现在让我们一起来看看吧!1、甘,拼音是gn,因为大家都知道
-
2023-06-01 05:49:39
即时:魔兽世界怀旧服附魔300在哪里学_魔兽世界怀旧服附魔图纸大全
1、武器单手+15敏、双手+25敏图纸。2、地图:费伍德森林与冬泉谷交界处--木喉要塞,NPC:梅罗什,分别需要
-
2023-06-01 03:49:30
世界实时:俞可平新著《帝国新论》:总结帝国盛衰兴亡的普遍规律
中国青年报客户端讯(中青报·中青网记者李桂杰)最近,著名学者俞可平新著《帝国新论》由浙江人民出版社出
-
2023-06-01 02:07:51
零就业家庭证明需要什么条件_零就业家庭 环球快讯
1、零就业家庭是指城市家庭中,所有法定劳动年龄内、具有劳动能力和就业愿望的家庭成员均处于失业状态,且
-
2023-06-01 00:46:41
环球新消息丨怎样删掉页眉中的横线_如何删掉页眉上的横线
1、要删除页眉上的横线可以这样做:打开Word文档,点击“开始”菜单;选择并点击“无框线”;点击“关闭页
-
2023-05-31 23:50:14
环球实时:ChatGPT创业 王小川、王慧文当学霍夫曼
撰文|赵卫卫一个中年互联网老炮,作为公司创始人曾在互联网浪潮中有着骄人战绩,而体验过ChatGPT之后兴奋不
-
2023-05-31 22:49:58
能链智电完成增发,投资方包括郑志刚、中誉集团等
5月31日,中国充电服务第一股能链智电公告显示,完成350万股美国存托股票(ADS)增发交易,投资人包括郑志刚
-
特写:风吹稻香忆袁老——袁隆平逝世一周年的墓前追思
2022-05-23 16:13:29 -
北京5月21日区域核酸筛查初筛10管混采阳性
2022-05-23 16:13:29 -
北京两地由高风险降为中风险 一地降为低风险地区
2022-05-23 16:13:29 -
5月21日15时至22日15时,北京新增本土新冠肺炎病毒感染者94例
2022-05-23 16:13:29 -
108岁病人顺利出院,瑞金医院卢湾分院已收治10位百岁老人
2022-05-23 16:13:29 -
生态花园助力乡村振兴 重庆小山村展现“乡土美学”
2022-05-23 16:13:29 -
上海金山政务服务场所逐步恢复服务
2022-05-23 16:13:29