当前位置: 首页 >> 发展
全球速看:LangChain:为你定制一个专属的GPT
来源:阿尔法工场     时间:2023-04-20 19:57:32


(相关资料图)

(原标题:LangChain:为你定制一个专属的GPT)

导语:用户可以利用LangChain的模块来改善大语言模型的使用,通过输入自己的知识库来“定制化”自己的大语言模型。 LLM(大语言模型) 是一项变革性的技术,它将人类的各类知识和逻辑能力打包进入了一个体积庞大的模型当中。 但是通常来说,包括当前公认效果最好的LLM GPT-4都会有一个问题——事实问题错误,也常被称之为幻觉。幻觉(Hallucination),或者说人工智能幻觉是人工智能的自信反应。 当模型输出欺骗性数据的倾向时,其使用的的训练数据并不能证明输出的合理性。人工智能幻觉的危险之处之一是模型的输出看起来是正确的,其实它本质上是错误的。 基于这种前提条件下,若是直接将LLM利用于生产环境中(例如客服答疑,新形式文档等)时,那么事实幻觉就可能会造成极其严重的影响。 但是通过LangChain,我们可以通过将其它计算资源和自有的知识库结合。依托于当前的各类产品,在整合了当前的语料资源库后,各类LLM都会进入到一个新的实用化发展阶段。 LangChain介绍LangChain是一个用于开发基于语言模型的应用程序开发框架。总的来说,LangChain是一个链接面向用户程序和LLM之间的一个中间层。 它在 2023 年 3 月获得了 Benchmark Capital 的 1000 万美元种子轮融资,在近期又拿到了红杉2000-2500万美金的融资,估值已经提升到了2亿美金左右。 LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。其组件包括了模型(各类LLM),提示模板(Prompts),索引,代理(Agent),记忆等等。 当前GitHub上的热门项目Auto-GPT和Babyagi所使用的链式思考能力都是由LangChain启发而来。 LangChain项目主页图 LangChain工作流程

本次重点介绍LangChain搭配自有的知识库让LLM发挥更大功能的流程。

在缺少了上下文的情况下,即使是目前公认最顶级的LLM GPT-4也无法回答部分需要特定领域的知识。

而要是想仅用自有知识库来训练出LLMs又是不可能的,这个时候最好的方法就是利用LangChain的模块来改善LLM的使用,通过输入自己的知识库来“定制化”自己的LLM。

Question Answering over specific documents是一个写在LangChain主页的主推功能。翻译过来就是 基于特定文档的问答 。 1.准备自定义数据 准备好需要LLM学习的内容,它可以是一个纯文本文件或者其他类型的文本(不同类型的文本需要不同的文档加载器)。 2.拆分文档 一般来讲,每个文档都是由复杂长短句、多种语法结合写作而成的。在进行输入之前,就必须对这些文字进行解构处理。 对于英文LangChain一般会使用RecursiveCharacterTextSplitter处理。由于中文的复杂性,会使用到jieba等处理工具预处理中文语句。 3.文本嵌入(Embeddings) 处理完文本之后,就可以对文本进行嵌入(Embeddings)了。通过调用OpenAI的Embeddings API将文本向量化。在这步处理之后,文本就已经不再是文字,而是以向量化存储的信息。 再使用一个开源的Embeddings数据库ChromaDB保存Embeddings数据,就可以达到使用数据长期存储和快速调用。 图:将原文本嵌入 4.使用链(Chain)对矢量数据库进行问答

在拥有了嵌入数据之后,我们就可以利用LangChain的强大链功能来执行我们的问答。这时就可以通过自然语言对于文档内容进行提问了。

通过LangChain回答问题/完成任务

LangChain可能的应用场景当前的AI热潮吸引了很多人,而除了ChatGPT这类问答还有New Bing这种搜索服务外,并没有什么可以将LLM商业化的案例。甚至可以说只有New Bing才是目前唯一一个成功的商业化案例。

LangChain为所有人提供了一个新的商业化方案。此前有将LLM导入客服软件中应用的方案,但是由于LLM容易出现事实幻觉而无法实施。 同时,将所需内容通过Prompt导入LLM的想法也由于LLM的对话(Context)输入限制而不可能实施。LangChain则通过将数据向量化避免了使用输入限制,从而将所需内容导入LLM进行问答。 当下的人工成本逐渐提升,例如淘宝客服等人工密集型产业的成本逐步提升。当前的智能问答距离可用仍有较远的距离。 通过已经预训练好的LLM是一个快速降本增效的方案。基于每个产品的数据,可以将数据引入LLM中,让LLM接替客服工作,准确、快速的回答客户的定制化问题,同时语气贴合自然口吻,避免了情绪化工作。 基于文档的工作还可以在各类公司培训和智能化文档方面提供作用。很多产品文档随着时间的积累变得越来越复杂,多层跳转也会让人学习起来效率低下且不适。 此时基于LangChain就可以将文档重新梳理,输出为大纲类,在使用的时候可以随时通过问答的形式将内容输出。类似于新员工培训和产品说明书等等场景都可以有所应用。这就极大的拓宽了文字类LLM的使用场景。

基于LangChain的问答 除了直接与人交互的方面外,还可以导入特定领域的知识库,实时更新LLM的内容,让LLM的知识时刻处于最新的状态。依赖于此,LangChain除了可以完成自然语言文档搜索外,还可以基于及时的资源进行快速开发。 导入资源后LangChain开发出的网页 当前LangChain的局限性目前,由于整个AI生态还处于一种快速发展期,各类工具和平台还没有完全成熟,因此LangChain的各类链和模块的定制性和功能都还不够强大。对于有高性能场景需求和定制化任务的可能需要自己重新修改。 事实合法性也是未来需要解决的一个痛点。LLM的各类越狱层出不穷。虽然在引入了嵌入之后LLM只会对文档内容进行问答,但是仍然需要有一套额外的监督系统防止出现任何非法的回答。 同时当前LangChain还有使用难度较高等问题。目前的各类AI工具都面临着普通用户无法轻松驾驭等等的问题,而LangChain的问题更盛。 普通产品或者开发者的上手学习成本较高,使用起来难度很大。这一切都需要社区和商业资本的共同投入才有可能解决。 结语

LangChain是当前众多的AGI实验性工具的基石项目。基于链(Chain)的LLM调用思维势必会贯穿未来LLM的发展生态。

提前关注AI发展动向,关注LangChain的开发进度,会对未来的AI应用落地有极大的帮助。

标签:
全球速看:LangChain:为你定制一个专属的GPT 本次重点介绍LangChain搭配自有的知识库让LLM发挥更大功能的流程。
【天天播资讯】2023上海车展|楚詠焱:多种传感器应互补融合 而非互相替代 这个寒气肯定会传递到我们供应链这边。因为楚航科技的初创团队相对比较专业,之前也都是在汽车行业里面深耕
天天资讯:怀孕水肿是怎样的现象_怀孕水肿什么原因 1、病情分析:怀孕期间,随着孕子宫增大,体内循环血量增加,会导致孕妇下肢明显水肿。2、而且凹陷性水肿最
中国非公立医疗机构协会:取消北京长峰医院会员会籍及相关认证,免去其实控人汪文杰相关职务|时快讯 App4月19日消息,从中国非公立医疗机构协会获悉,鉴于北京长峰医院4月18日火灾的造成的重大影响,中国非公
重庆市北碚区开出企业未落实食品安全主体责任首张罚单 中国质量新闻网讯(李琴谢旺江)近日,重庆市北碚区市场监管局开出首张关于企业未落实食品安全主体责任的罚
成都海棠公寓保障性租赁住房报名登记入口 天天要闻 成都高新区海棠公寓保障性租赁住房登记方式登录成都市住房和城乡建设局官网,进入“住建蓉e办”,进入“...
自动驾驶,是忽悠吗?-全球观速讯 谁卖的多听谁的。这几天,车圈最热的话题,除了上海车展,莫过于关于自动驾驶的大讨论。上个月,比亚迪董事
廿四节气|千里江山图之谷雨篇 今日谷雨,是春天最后一个节气。谷雨前后也是牡丹花开的重要时段,因此,牡丹花也被称为“谷雨花”。民...
上海车展拉开全球汽车变革序幕:燃油车已死 新能源车崛起 世界聚焦 上海车展拉开全球汽车变革序幕:燃油车已死新能源车崛起
北京人艺2022级表演学员培训班开班 今年主题是“怎样做一个合格的文艺工作者” 始于去年9月的北京人艺2022级表演学员培训班,经过半年多的报名、专业初试、复试、综合素质考试等多轮层...
快报:观后感600字 开学第一课观后感_观后感600字 抄写作文网小编为大家提供观后感600字开学第一课观后感_观后感600字来供大家参考,欢迎阅读。《徒手攀岩...
多举措推动经济持续好转 央视网消息(新闻联播):记者从国家发展改革委今天(4月19日)举行的新闻发布会上了解到,一季度,全国城镇...
华侨城A:一季度旗下文旅企业接待游客同比增长约80% 世界观察 华侨城A(000069)4月19日晚间公告,2023年3月份公司实现合同销售面积21 6万平方米,合同销售金额40亿元...
建工修复参与起草国家标准正式发布|世界聚看点 近日,建工修复(300958)参与起草的国家标准《土壤质量决策单元-多点增量采样法》由国家市场监督管理总局...
【快播报】Vlog|探访广西钦州市妇幼保健院:精准康复救助 为残疾儿童点亮希望 近日,中国残联“中央媒体走基层”采访团走进广西壮族自治区钦州市,探访钦州市妇幼保健院(钦州儿童医院...
科学计算器计算n次方 图解_科学计算器计算n次方 头条焦点 1、如图所示,比如要把14开5次方,先输入14。2、再点先图中所示的键,再输入5,最后点等号。3、结果就是...
量子计算机在信用评分卡组合优化中的应用最优题解 A题给我的整体感觉就是和2020年国赛中小微企业的信贷决策有点相似,只能说问题设置背景相似。稍后我也将...
石化油服:公司现有股东约为11万户 石化油服(600871)04月20日在投资者关系平台上答复了投资者关心的问题。
全柴动力:公司管理层结合市场未来发展趋势、历史数据等确定预算目标,并报董事会、股东大会审议批准 世界看点 全柴动力60021804月19日在投资者关系平台上答复了投资者关心的问题投资者请问贵公司年报里说2023年计划...
欧冠4强敲定2席:米兰终结16年等待!皇马双杀蓝军 北京时间4月19日3点,22-23赛季欧冠1 4决赛次回合,迎来两场备受瞩目的对决,切尔西在斯坦福桥迎战皇家...
环球视讯!TüV南德布局新兴产业 随着中国经济复苏步伐不断加快,全球检测认证领域头部企业TüV南德意志集团在中国市场投资的速度也在加...
环球快讯:减脂蔬菜有哪些_减脂蔬菜有哪些 1、冬瓜富含维生素,热量低具有消炎消肿利尿之功效帮助排除水肿减轻体重冬瓜不含脂肪,膳食钎维高营养丰...
车展名场面:保时捷高管近距离考察比亚迪展台 【ITBEAR科技资讯】4月19日消息,备受关注的上海车展正在如火如荼的进行中。今年的上海车展作为全球首个...
世界看热讯:瑞纳智能:4月19日融资净买入91.67万元,连续3日累计净买入317.76万元 4月19日,瑞纳智能(301129)融资买入144 98万元,融资偿还53 31万元,融资净买入91 67万元,融资余...
世界快消息!类风湿病人不能吃什么_类风湿不能吃什么东西 欢迎观看本篇文章,小勉来为大家解答以上问题。类风湿病人不能吃什么,类风湿不能吃什么东西很多人还不...

广告

X 关闭

广告

X 关闭