当前位置:首页 > 每日资讯 > 正文

天天热门:与人类智商相近的ChatGPT,在金融场景中解不开鸡兔同笼数学题?2023-04-26 19:55:47 | 来源:21经济网 | 查看: | 评论:0

南方财经全媒体记者曹媛深圳报道

1950年,艾伦图灵提出著名的“图灵测试”,给出判定机器是否具有“智能”的试验方法。2022年,Open AI推出ChatGPT,它具有接近人类流畅而自然的多轮对话能力。


(资料图片)

在这72年间,第一支由计算机创作的弦乐四重奏《依利亚克组曲》(Illiac Suite)完成,世界上第一部完全由人工智能创作的小说《在路上》(I The Road)问世,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品......

生成式人工智能(AIGC)早已成为长驱直入人类生活的“强大之物”。于2022年末发布的ChatGPT更是在全球引发轰动效应,日前推出的多模态GPT-4显示出更强大的逻辑和推理能力。

“新版的ChatGPT(GPT-3.5)与GPT-4能力非常强大,远强于以往的任何一般大语言模型(LLM)。”香港大学经管学院深圳金融科技研究所所长罗晔介绍称,GPT-4的智商大约相当于人类智商测试的110,而普通人平均为100。

某国内投资人告诉南方财经全媒体记者,其机构在持续关注AIGC的投资机会,其已投资的部分人工智能公司也在布局AIGC技术,“AIGC的产业上游是数据服务产业,中游是算法模型产业,下游是应用拓展产业,我们认为大部分投资机会在于下游,最看好AIGC在金融行业的商业应用。”

金融行业作为数据密集型行业,是传统AI技术最早落地的商业场景之一。随着AIGC的快速发展,诸多金融场景和应用也在广泛试水和布局,如彭博社推出的Bloomberg GPT、GPT+Wolfram Alpha插件、上海人工智能研究院DB-1项目等。

无疑,AIGC为金融行业带来了更多想象空间。

金融场景下的ChatGPT

美东时间3月30日,彭博社发布了专门为金融领域打造的大型语言模型(LLM)——BloombergGPT。据彭博介绍,该模型将帮助彭博改进现有的金融NLP任务,如市场情绪分析、命名实体识别、新闻分类和问题回答等。

Bloomberg GPT是一个涉及500亿参数的语言模型,其训练主要是使用大规模的财务数据。罗晔介绍称,BloombergGPT通过大量金融数据对类GPT模型进行微调,在金融领域内一定任务上表现好于基本的ChatGPT。

ChatGPT自推出后,因在数学计算上的误差常被戏称为“文科生”,而GPT+Wolfram Alpha插件的出现让其数学能力有望突破。“Wolfram Alpha是全球领先的数学知识网站和求解器公司,与GPT结合之后,两者在数学上的能力有望突破。”罗晔称。

其他研究成果还在不断涌现。上海数字大脑研究院DB-1项目通过结合大语言模型与TravellingSalesman(旅行家问题)求解器,对复杂的规划问题实现自然语言求解;AutoGPT由GPT-4驱动,可以通过把任务提交给它,自主生成计划,并且执行该计划。AutoGPT通过反复调用GPT-4和ChatGPT来实现规划和执行。

此外,在下游应用端,AIGC技术主要聚焦于智慧客服和智慧顾问服务方面,已逐渐取代金融业大量客户人员和客户经理。例如在2017年4月,富国银行就开始试点一款基于Facebook Messenger平台的智慧客服项目,可以通过与用户交流,为客户提供账户信息,帮助客户重置密码等服务。美国银行很快也推出了类似的智能助手Erica。

而在国内,众多金融机构将AIGC的相关技术应用在客户服务和投顾咨询上。如早在2016年2月,中国工商银行便推出智能客服“工小智”,是面向客户提供业务咨询、信息查询、业务办理、优惠分享等服务的机器人。据其2022年半年报显示,“工小智”智能服务入口拓展至106个,智能呼入呼出业务量3.1亿次。

上述AIGC技术的快速发展及行业应用实例都可见其应用在金融行业的潜力和机遇。但罗晔认为,“GPT最大的优势是在于通用性,它是一个广泛的人工智能,可以覆盖很多不同场景,很多不同业务。但在解决一个深度的行业问题时,它的能力还是欠缺的。”

ChatGPT解不开鸡兔同笼数学题?

“很多人调侃说,ChatGPT可能是个‘文科生’,我也有同感。我感觉目前ChatGPT的数学水平大概相当于一个初中生,”罗晔说道。

为测试ChatGPT的能力边界,他不断给ChatGPT抛出“金融计算题”。首先用“鸡兔同笼”的数学题测试ChatGPT的计算能力,但将鸡和兔子改成了长颈鹿和鸭子,ChatGPT给出了错误答案。

除鸡兔同笼问题外,罗晔还在ChatGPT中提问“请问000001.SZ是什么?”,但ChatGPT给出了错误答案,认为其代表“上证指数”。在对其回复进行纠正和引导后,ChatGPT才给出了正确答案,即“它代表的是平安银行股份有限公司在中国深圳证券交易所的股票代码。”

此外,罗晔还让ChatGPT分析“过去十年春节过后A股的平均走势如何,并用表格展示”,ChatGPT准确写出了代码来分析历年数据,并列出了清晰的表格,但最后算错了平均数。

通过不断测试,罗晔总结ChatGPT在金融领域内的能力:一般性问答能力较强,有一定代码能力。但可靠性尚且有一定问题,且尚无法解决金融领域的深度问题。

ChatGPT的能力边界取决于其技术特点。ChatGPT属于广度人工智能,在解决特定问题上能力欠缺。GPT与控制论主导的AlphaGo一类强化学习技术(深度人工智能)可以形成互补。

“随着ChatGPT的技术改进,加上不断学习,回答的正确率有所提升。但是可以看出,GPT在特定问题上的能力是欠缺的。”他强调。

长驱直入的“强大之物”

古希腊剧作家索福克勒斯曾郑重提醒人类,“进入凡人生活的一切强大之物,无不具有弊端。”目前,以chatGPT为代表的生成式AI技术(AIGC)正是长驱直入人类生活的“强大之物”。

“未来可能阻止整个技术路线商业化最大的隐患是其可靠性(reliability)。”OpenAl首席科学家lya Sutskever在近期采访中说道。

罗晔认为ChatGPT商业化最大的问题在于它不是完全可靠的,“它有时候会错得很离谱,但你不仔细看,也许看不出来。”从上述对ChatGPT的数学能力测试中便可见一斑,而金融行业的业务特点要求数据质量好、维度全、场景多,数据的可靠性极其重要。

此外,安全性也是目前最大的隐患之一。人工智能无法独立思考和判断恶意的诱导行为,使用者会故意引导人工智能输出违禁内容。

例如,学者杜雨和张孜铭在《AIGC智能创作时代》中提到,部分公司为获得市场关注,故意在AI的训练数据集中加入一些违禁内容,让用户“方便”地使用它来制作色情、暴力、虚假新闻等内容,从而增加自己在网络上的曝光和宣传。

因此,科学家们呼吁,必须防止生成式AI回答一些被禁止的问题,并且必须将安全性放到首位。必须对GPT可以问答的内容和可进行的操作进行限制,必须了解GPT本身的能力边界并对其设置应用边界。

目前,基于AIGC出现的诸多问题,各国也在加快制定相关法律法规对其监管。据杜雨和张孜铭不完全统计,2022年,美国至少有17个州提出了AIGC相关的法案或决议,并在科罗拉多州、伊利诺伊州、佛蒙特州和华盛顿州颁布。

而在中国,2022年11月3日,国家互联网信息办公室、工业和信息化部、公安部联合发布了《互联网信息服务深度合成管理规定》,加强对深度合成技术的管理,确保其发展与安全,推进深度合成技术依法、合理、有效地被利用。

标签:

上一篇:蓝思科技走出亏损迷雾-世界热点评 最后一页下一篇: