前端大模型入门:流式调用llm时前端该如何处理响应数据?

利用大模型开发应用时,我们有时候要第一时间给出用户相应,也就是使用流式调用的方式。这时候前端处理响应,就需要特殊的处理:利用处理可读流的方式从响应中读取数据。

随着大语言模型(LLM)在各种应用中的广泛使用,如何高效地从服务器获取模型生成的长文本响应成为一个重要问题。传统的HTTP请求模式通常等待服务器生成完整的响应内容再返回给客户端。然而,流式调用(streaming)通过分段传输部分响应,能提高实时性和用户体验。在此场景中,HTTP流式调用被广泛应用,尤其是在与LLM(如OpenAI的GPT等)进行交互时。

本文将介绍LLM的HTTP API流式调用的机制,并深入探讨前端如何处理流式响应,以实现实时的、渐进式的结果呈现。

一、什么是HTTP API流式调用?

HTTP API流式调用(HTTP Streaming)是一种传输方式,服务器不会等待所有的数据生成完毕再返回给客户端,而是将响应数据逐步分段发送。当大语言模型生成内容时,服务器可以通过流式传输,将文本按块传递给前端,前端可以立即呈现这些部分内容,无需等待完整响应。

流式响应的基本流程:

  1. 客户端请求:前端通过HTTP请求向服务器发出调用,通常是POST请求,附带需要生成内容的提示(prompt),以及相关的参数。
  2. 服务器处理并分段响应:服务器开始处理请求,但不等待处理结束,先将部分生成的文本作为响应的一个数据块(chunk)发送给客户端。
  3. 客户端逐步接收并处理数据块:客户端持续监听流式响应,接收每个数据块并实时处理或呈现。
  4. 连接关闭:服务器在生成完毕后关闭连接,客户端停止接收数据。

这种方式特别适合用于大语言模型的文本生成任务,因为大规模模型生成的内容可能会很长,逐步输出可以改善用户的等待体验。

二、如何实现LLM的HTTP API流式调用?

以一个调用LLM(如OpenAI GPT模型)的流式HTTP API为例,下面是一个使用fetch来发起流式调用的典型前端实现流程。国内的各个大模型,调用方式差不多,参数也类似,甚至还会有openai兼容的openapi接口

const fetchStreamData = async (prompt) => {
  const response = await fetch('https://api.openai.com/v1/completions', {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
      'Authorization': `Bearer YOUR_API_KEY`
    },
    body: JSON.stringify({
      model: 'gpt-4',
      prompt: prompt,
      stream: true // 启用流式响应
    })
  });

  // 检查响应状态
  if (!response.ok) {
    throw new Error('Network response was not ok');
  }

  // 获取响应的可读流并处理流数据
  const reader = response.body.getReader();
  const decoder = new TextDecoder('utf-8');
  let done = false;
  
  while (!done) {
    // 读取流中的下一个数据块
    const { value, done: readerDone } = await reader.read();
    done = readerDone;
    
    // 将数据块解码为字符串
    const chunk = decoder.decode(value, { stream: true });
    console.log(chunk);  // 处理或显示每一块数据
    // ***** 这需要注意,各个大模型的分块数据结构可能不一样,甚至会有可能出现部分数据的情况,要单独兼容和处理哦
    // 以及有些模型内容的路径不一样,一次性响应在content,但是流式在delta字段下
  }
};

1. 请求设置

  • fetch函数用于发起POST请求,stream: true选项通知服务器启用流式传输。
  • 请求体中包含模型ID和提示词prompt,以及其他必要参数(如API密钥)。

2. 读取流数据

  • 使用response.body.getReader()获取一个流的阅读器(Reader),该阅读器允许我们按数据块逐步读取响应。
  • TextDecoder将字节数据解码为文本格式,确保能够正确处理流传输中的文本数据。

3. 逐块处理数据

  • 通过reader.read()逐步读取每个数据块,value包含读取到的字节数据,done表示流是否已结束。
  • chunk是解码后的文本数据,每次接收到新的数据块时可以实时处理或显示。

三、前端如何处理流式响应?

当后端返回流式响应时,前端可以逐步接收并更新UI,提供更好的用户交互体验。以下是前端处理流式响应的关键步骤。

1. 逐步更新界面

每当接收到一个新的数据块,前端可以立即将其更新到UI上,而不必等待完整的响应。这种实时更新的机制对于聊天机器人、搜索建议等场景尤为重要。例如:

const chatBox = document.getElementById('chat-box');

const updateChat = (text) => {
  // 将新数据块追加到界面上
  chatBox.innerHTML += `<p>${text}</p>`;
};

// 在逐块接收时更新
while (!done) {
  const { value, done: readerDone } = await reader.read();
  const chunk = decoder.decode(value, { stream: true });
  updateChat(chunk);  // 实时更新聊天框
}

通过这种方式,用户能够看到模型生成内容的部分结果,即使整个请求尚未完成,提升了用户体验。

2. 处理中断或错误

在流式调用中,网络连接可能会中断,或者服务器可能会返回错误。前端应该做好错误处理,例如:

if (!response.ok) {
  console.error('Error with the request');
  return;
}

reader.read().then(processStream).catch(error => {
  console.error('Error while reading stream:', error);
});

在中断时,前端可以选择显示错误消息,或尝试重新发起请求以重新建立连接。

3. 流数据的拼接与处理

由于流传输的数据是分块发送的,前端可能需要将这些分段数据拼接起来,形成完整的响应。例如:

let fullResponse = '';

while (!done) {
  const { value, done: readerDone } = await reader.read();
  const chunk = decoder.decode(value, { stream: true });
  fullResponse += chunk;  // 拼接完整响应
}

4. 自动滚动和用户交互优化

对于聊天机器人或类似应用,前端可以设置自动滚动,使得用户在流式数据逐步加载时能够始终看到最新的内容。

const scrollToBottom = () => {
  chatBox.scrollTop = chatBox.scrollHeight;
};

updateChat(chunk);
scrollToBottom();  // 更新后自动滚动

四、流式调用的优势

  1. 提升用户体验:通过流式传输,用户能够实时看到部分生成的内容,而不需要等待整个模型生成完毕,从而减少了感知延迟。
  2. 减少服务器压力:在某些场景下,流式调用可以减少服务器压力,因为服务器可以按需逐步处理和发送数据,而不需要一次性生成和发送大量数据。
  3. 增强交互性:用户能够根据逐步收到的内容进行进一步操作,如在对话中实时反馈等。

五、总结

HTTP API流式调用为大语言模型的响应提供了更高效和实时的交互方式。通过流式调用,前端可以逐步接收模型生成的部分数据,并即时呈现,从而提升用户体验。前端在实现流式调用时,需要处理数据分块的拼接、实时更新界面和处理可能的中断错误。通过这种方式,可以在交互密集的应用场景(如聊天机器人、自动化助手等)中大幅改善用户的使用体验。

处理流式调用,尤其是国产大模型的兼容是一个重复的工作,后面的章节如果有空,我会讲讲如何基于rxjs或者langchain.js简化这个工作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/882166.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu22.04关闭631端口的方法

何为631端口&#xff1f; 631端口主要用于访问和控制网络打印服务&#xff0c;是linux下CUPS&#xff08;Common UNIX Printing System&#xff0c;通用UNIX打印系统&#xff09;服务的端口。Linux中的CUPS&#xff08;Common UNIX Printing System&#xff0c;通用UNIX打印系…

VisualStudio的“应用代码更改“按钮功能

无意发现这个按钮&#xff0c;因为开发这么多年也没专门尝试这个按钮&#xff0c;于是好奇它的功能。 光标放在按钮上面提示了“应用代码更改”&#xff0c;于是猜想应该是在调试不断开的情况下支持热应用更改。 经过验证&#xff0c;功能确实如同猜想的一样&#xff0c;具体验…

【Elasticsearch系列廿一】ES7 SQL 新特性

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

基于c++实现的简易shell

代码逻辑 核心思想 解析命令行&#xff0c;拆解命令及其选项创建子进程&#xff0c;在子进程中执行命令如果是前台执行命令&#xff0c;则父进程就阻塞等待子进程中命令执行结束后回收子进程的资源如果是后台执行命令&#xff0c;则父进程不进行阻塞等待&#xff0c;可继续向下…

【ArcGIS微课1000例】0123:数据库中要素类批量转为shapefile

除了ArcGIS之外的其他GIS平台,想要打开ArcGIS数据库,可能无法直接打开,为了便于使用shp,建议直接将数据库中要素类批量转为shapefile。 文章目录 一、连接至数据库二、要素批量转shp一、连接至数据库 打开ArcMap,或者打开ArcCatalog,找到数据库连接,如下图: 数据库为个…

Laravel邮件发送:从配置到发邮件的指南!

Laravel邮件发送功能如何实现&#xff1f;怎么使用Laravel发信&#xff1f; Laravel作为一款流行的PHP框架&#xff0c;提供了强大且易用的邮件发送功能。AokSend将详细介绍如何从配置到实际发送邮件的全过程&#xff0c;帮助你快速掌握Laravel邮件发送的技巧。 Laravel邮件发…

数据中台!企业的必备还是可有可无?(附数据中台构建完整脑图)

数据中台&#xff01;企业的必备还是可有可无&#xff1f;&#xff08;附数据中台构建完整脑图&#xff09; 前言数据中台 前言 在这个数据爆炸的时代&#xff0c;数据已经成为了企业最宝贵的资产之一。然而&#xff0c;如何有效地管理和利用这些数据&#xff0c;却是许多企业…

Linux驱动开发 ——架构体系

只读存储器&#xff08;ROM&#xff09; 1.作用 这是一种非易失性存储器&#xff0c;用于永久存储数据和程序。与随机存取存储器&#xff08;RAM&#xff09;不同&#xff0c;ROM中的数据在断电后不会丢失&#xff0c;通常用于存储固件和系统启动程序。它的内容在制造时或通过…

Blender软件三大渲染器Eevee、Cycles、Workbench对比解析

Blender 是一款强大的开源3D制作平台&#xff0c;提供了从建模、雕刻、动画到渲染、后期制作的一整套工具&#xff0c;广泛应用于电影、游戏、建筑、艺术等领域。 渲染101云渲染云渲6666 相比于其他平台&#xff0c;如 Autodesk Maya、3ds Max 或 Cinema 4D&#xff0c;Blende…

Error when custom data is added to Azure OpenAI Service Deployment

题意&#xff1a;在向 Azure OpenAI 服务部署添加自定义数据时出现错误。 问题背景&#xff1a; I receive the following error when adding my custom data which is a .txt file (it doesnt matter whether I add it via Azure Cognitive Search, Azure Blob Storage, or F…

药用植物的空间多组学:从生物合成途径到工业应用-文献精读51

Spatial multi-omics in medicinal plants: from biosynthesis pathways to industrial applications 药用植物的空间多组学&#xff1a;从生物合成途径到工业应用 摘要 随着分子测序和成像技术的快速发展&#xff0c;药用植物的多组学研究进入了单细胞时代。我们讨论了空间多…

振弦式渗压计常见故障有哪些?怎么解决?

振弦式渗压计是一种用于测量结构物或土体内部渗透水压力的仪器&#xff0c;广泛应用于土木工程、水利工程及环境监测领域。在使用过程中&#xff0c;可能会遇到一些常见的故障&#xff0c;以下是一些故障及其解决方法&#xff1a; 1. 读数不稳定&#xff1a; - 确保渗压计安装在…

React18入门教程

React介绍 React由Meta公司开发&#xff0c;是一个用于 构建Web和原生交互界面的库 React的优势 相较于传统基于DOM开发的优势 组件化的开发方式 不错的性能 相较于其它前端框架的优势 丰富的生态 跨平台支持 React的市场情况 全球最流行&#xff0c;大厂必备 开发环境…

2024年数学建模比赛题目及解题代码

目录 一、引言 1. 1竞赛背景介绍 1.1.1数学建模竞赛概述 1.1.2生产过程决策问题在竞赛中的重要性 1.2 解题前准备 1.2.2 工具与资源准备 1.2.3 心态调整与策略规划 二、问题理解与分析 三、模型构建与求解 3.1 模型选择与设计 3.1.1 根据问题特性选择合适的数学模型类…

线程池的执行流程和配置参数总结

一、线程池的执行流程总结 提交线程任务&#xff1b;如果线程池中存在空闲线程&#xff0c;则分配一个空闲线程给任务&#xff0c;执行线程任务&#xff1b;线程池中不存在空闲线程&#xff0c;则线程池会判断当前线程数是否超过核心线程数&#xff08;corePoolSize&#xff09…

【超详细】基于YOLOv8训练无人机视角Visdrone2019数据集

主要内容如下&#xff1a; 1、Visdrone2019数据集介绍 2、下载、制作YOLO格式训练集 3、模型训练及预测 4、Onnxruntime推理 运行环境&#xff1a;Python3.8&#xff08;要求>3.8&#xff09;&#xff0c;torch1.12.0cu113&#xff08;要求>1.8&#xff09;&#xff0c…

[Python]一、Python基础编程(2)

F:\BaiduNetdiskDownload\2023人工智能开发学习路线图\1、人工智能开发入门\1、零基础Python编程 1. 文件操作 把⼀些内容 ( 数据 )存储存放起来,可以让程序下⼀次执⾏的时候直接使⽤,⽽不必重新制作⼀份,省时省⼒ 。 1.1 文件的基本操作 1. 打开文件 2. 读写操作 3. 关闭…

【Go】Go语言切片(Slice)深度剖析与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

[PICO VR]Unity如何往PICO VR眼镜里写持久化数据txt/json文本

前言 最近在用PICO VR做用户实验&#xff0c;需要将用户实验的数据记录到PICO头盔的存储空间里&#xff0c;记录一下整个过程 流程 1.开启写入权限 首先开启写入权限&#xff1a;Unity->Edit->Player->安卓小机器人->Other Settings->Configuration->Wri…

Spring的任务调度

Spring的任务调度 1.概述 Spring框架为任务调度提供了专门的解决方案。在Spring框架的org.springframework.scheduling包中&#xff0c;通过对JDK 的ScheduledExecutorService接口的实例进行封装&#xff0c;对外提供了一些注解和接口&#xff0c;为开发者处理定时任务提供了…