[置顶]开源即时通讯IM框架MobileIMSDK的鸿蒙NEXT端开发快速入门

相关链接：

① MobileIMSDK-鸿蒙端的详细介绍
② MobileIMSDK-鸿蒙端的开发手册new（* 精编PDF版）

一、理论知识准备

您需要对鸿蒙Next和ArkTS开发有所了解：

您需要对WebSocket技术有所了解：

HTML5的标准WebSocket协议文档、API手册：

1）WebSocket 的 API 手册
2）WebSocket 的标准文档

鸿蒙Next的WebSocket文档和手册：

1）鸿蒙Next的WebSocket官方文档

小提示：鸿蒙Next中的WebSocket API跟标准HTML5中的WebSocket接口及用法略有不同，但主要API都能一一对应，相差不大。

二、开发工具准备

1）DevEco-Studio：

（JackJiang 使用的版本号如上图所示，为了方便直接引用工程，建议你也使用此版或较新版本）

2）一站式下载地址：鸿蒙官网下载地址点此进入。（需要注册成为开发者才能下载哟！）

3）DevEco-Studio效果预览：

三、SDK 文件用途说明

3.1文件概览

纯ArkTS实现，无任何第3方库依赖，更无本地原生代码混编：

MobileIMSDK-鸿蒙端SDK本身只是ets文件源码的集合，自带的Demo代码只是为了方便随时测试SDK代码，目的主要是用于演示SDK的API调用，Demo代码不属于SDK框架的一部分。

大致的目录说明：

3.2详细说明

SDK 各模块/文件作用说明：

四、主要API接口和用途说明

* 主要API文档地址是：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/

1）ClientCoreSDK.getInstance().loginHasInit：

用途：是否已经完成过首次登陆。
说明：用户一旦从自已的应用中完成登陆IM服务器后，本方法就会一直返回true（直到退出登陆IM）。
返回值：{boolean}，true表示已完成首次成功登陆（即已经成功登陆过IM服务端了，后面掉线时不影响此标识），否则表示尚未连接IM服务器。

2）ClientCoreSDK.getInstance().connectedToServer：

用途：是否在线。
说明：表示网络连接是否正常。
返回值：{boolean}，true表示网络连接正常，否则表示已掉线，本字段只在this._logined=true时有意义（如果都没有登陆到IM服务器，怎么存在在线或掉线的概念呢）。

3）ClientCoreSDK.getInstance().currentLoginInfo：

用途：保存登陆时提交的登陆信息（用户名、密码/token等）。
说明：格式形如：{loginUserId:'',loginToken:''}，此返回值的内容由调用登陆函数 loginImpl()时传入的内容决定。字段定义详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1697l。

4）ClientCoreSDK.getInstance().init(eventHub: common.EventHub): void：

用途：初始化SDK核心。
说明：不同于MobileIMSDK的iOS和Java客户端，本方法需要由开发者调用，以确保MobileIMSDK核心已被初始化完成。
本方法被调用后， #isInitialed() 将返回true，否则返回false。

5）ClientCoreSDK.getInstance().release(): void：

用途：保释放MobileIMSDK框架资源统一方法。
说明：本方法建议在退出登陆（或退出APP时）时调用。调用时将尝试关闭所有MobileIMSDK框架的后台守护线程并同设置核心框架init=false、loginHasInit=false、connectedToServer=false。

6）LocalDataSender.getInstance().sendLogin(loginInfo: PLoginInfo | undefined): number：

用途：发送登陆(连接)信息给服务端。
说明：不同于其它IM框架，本框架的登录和连接高度封装在了一个sendLogin方法中，无需单独再去connect服务器，大大简化了SDK的使用。loginInfo登陆信息各字段定义见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1697。

7）LocalDataSender.getInstance().sendLoginout(): number：

用途：发送注销登陆信息。
说明：此方法的调用将被本库理解为退出库的使用，本方法将会额外调用资源释放方法 ClientCoreSDK#release() ，以保证资源释放。本方法调用后，除非再次进行登陆过程，否则核心库将处于初始未初始化状态。

8）LocalDataSender.getInstance().sendCommonDataPlain(dataContentWidthStr: string, to_user_id: string, QoS: boolean = true, fingerPrint: string = '', typeu: number = -1): number：

用途：向某人发送一条消息。
参数dataContentWidthStr：要发送的数据内容（字符串方式组织）。
参数to_user_id：要发送到的目标用户id。
参数QoS ：true表示需QoS机制支持，否则不需要。
参数fingerPrint：QoS机制中要用到的指纹码（即消息包唯一id），可设为null，生成方法见 Protocal.genFingerPrint()。
参数typeu：应用层专用字段——用于应用层存放聊天、推送等场景下的消息类型。注意：此值为-1时表示未定义。MobileIMSDK框架中，本字段为保留字段，不参与框架的核心算法，专留作应用层自行定义和使用。
返回值：0表示数据发出成功，否则返回的是错误码，see ErrorCode。

9）LocalDataSender.getInstance().sendCommonData(p: Protocal): number：

用途：通用数据协议包的发送根方法。
参数p：{Protocal} 要发送的消息协议包对象，Protocal详情请见“/module/mb_constants.js”下的createCommonData函数说明。
返回值：0表示数据发出成功，否则返回的是错误码，see ErrorCode。

10）SocketEvent.SOCKET_EVENT_ON_RECIEVE_MESSAGE事件通知：

用途：以便收到聊天消息时在UI上展现出来（事件通知于收到IM消息时）。
推荐用法：开发者可在此通知中处理收到的各种IM消息。
参数1： {Protocal}：详情请见Protocal类定义：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1350。

11）SocketEvent.SOCKET_EVENT_ON_LOGIN_RESPONSE事件通知：

用途：本地用户的登陆结果回调事件通知（此事件发生时表示客户端已登陆/连接或重连完成）。
推荐用法：开发者可在此事件中处理登录连接和掉线重连响应反馈。
参数1： {PLoginInfoResponse}：API文档详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1434。

12）SocketEvent.SOCKET_EVENT_ON_LINK_CLOSE事件通知：

用途：与服务端的通信断开的回调事件通知（此事件发生时表示客户端已掉线）。
该消息只有在客户端连接服务器成功之后网络异常中断之时触发。导致与与服务端的通信断开的原因有（但不限于）：无线网络信号不稳定、WiFi与2G/3G/4G/5G等同开情况下的网络切换、手机系统的省电策略等。
推荐用法：开发者可在此通知中处理掉线时的界面状态更新等，比如设置将界面上的“在线”文字更新成“离线”。

13）SocketEvent.SOCKET_EVENT_PING事件通知：

用途：本地发出心跳包后的回调通知（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

14）SocketEvent.SOCKET_EVENT_PONG事件通知：

用途：收到服务端的心跳包反馈的回调通知（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

15）SocketEvent.SOCKET_EVENT_KICKOUT事件通知：

用途：收到服务端反馈的错误信息指令（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数1：{PKickoutInfo}：非空，详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1428。

16）SocketEvent.SOCKET_EVENT_ON_ERROR_RESPONSE事件通知：

用途：收到服务端反馈的错误信息指令（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数1：{PErrorResponse}：非空，详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1430。

17）SocketEvent.SOCKET_EVENT_RECONNECT_ATTEMPT事件通知：

用途：“自动重连尝试中”事件（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数 code ：{numeric}：0：已停止，1：持续运行中，2：单次脉搏

18）SocketEvent.SOCKET_EVENT_MESSAGE_LOST事件通知：

用途：消息未送达的回调事件通知。
发生场景：比如用户刚发完消息但网络已经断掉了的情况下，表现形式如：就像手机qq或微信一样消息气泡边上会出现红色图标以示没有发送成功）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送失败”以便即时告之用户。
参数1：{Array}：由框架的QoS算法判定出来的未送达消息列表。

19）SocketEvent.SOCKET_EVENT_MESSAGE_BE_RECIEVED事件通知：

用途：消息已被对方收到的回调事件通知。
说明：目前，判定消息被对方收到是有两种可能：1) 对方确实是在线并且实时收到了；2) 对方不在线或者服务端转发过程中出错了，由服务端进行离线存储成功后的反馈（此种情况严格来讲不能算是“已被收到”，但对于应用层来说，离线存储了的消息原则上就是已送达了的消息：因为用户下次登陆时肯定能通过HTTP协议取到）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送成功”以便即时告之用户。
参数1：{String}：已被收到的消息的指纹特征码（唯一ID），应用层可据此ID找到原先已发的消息并可在UI是将其标记为”已送达“或”已读“以便提升用户体验。

五、如何引入SDK库文件

5.1方法一：源码形式

第一步：先将整个sdk源码module复制到您的鸿蒙工程中：

第二步：配置您的工程，确保正确引用了MobileIMSDK鸿蒙SDK的源码module：

5.2方法二：.har包形式

第一步：先将MobileIMSDK鸿蒙端SDK的.har包放入您的鸿蒙Next主module中（比如新建的libs目录下）：

第二步：配置您的工程，确保正确引用了MobileIMSDK鸿蒙SDK的.har包：

六、如何调用SDK代码

6.1第一步：设置ws/wss连接URL

设置您自已部署的MobileIMSDK服务端IP或域名的（示例详见Demo中的 IMClientManager.ets 文件）：

提示：MobileIMSDK的服务端Demo部署指南请见 http://www.52im.net/thread-63-1-1.html。

6.2第二步：初始化SDK

调用ClientCoreSDK中的init()方法进行初始化（示例详见Demo中的I MClientManager.ets 文件）：

6.3第三步：注册框架事件

注册MobileIMSDK框架级的事件监听（示例详见Demo中的 IMClientManager.ets 文件）：

6.4第四步：调用登录方法（框架内部会自动启动connect全过程）

调用登录方法（示例详见Demo中的 LoginPage.ets 文件）：

提示：不同于其它IM框架，本框架的登录和连接高度封装在了一个sendLogin方法中，无需单独再去connect服务器，大大简化了SDK的使用。

七、Demo运行效果和功能说明

八、Demo运行方法

8.1重要说明

特别说明：MobileIMSDK的鸿蒙端工程（包括Demo代码），不依赖任何第3方库，也不存在任何Native代码混编，完全使用ArkTS、ArkUI官方标准API实现，所以你在拿到MobileIMSDK的鸿蒙端工程后直接开箱即可运行，切莫搞复杂、不要私自加戏！

8.2配置要连接的MobileIMSDK服务器IP

注意：下图中登陆连接的IP地址请设置为您自已的MobileIMSDK服务器地址哦。

友情提示： MobileIMSDK的服务端该怎么部署就不是本手册要讨论的内容了，你可以参见《即时通讯框架MobileIMSDK的Demo使用帮助：Server端》。

▲ 配置要连接的服务器IP（以上代码详见IMClientManager.ets文件）

8.3启动模拟器

注意：如果没有新建模拟器可以自已新建一个。另外也可以使用支持鸿蒙Next的真机，打开“开发者模式”并插入USB线即可使用。

▲ 点击绿色箭头，立即启动模拟器！

8.4一键运行

如下图所示，点击绿色“运行”按钮后，将自动在模拟器或真机里显示自带的Demo界面了：

8.5运行效果

1）Demo的登陆界面运行截图：

2）Demo的主界面运行截图：

3）Demo运行的同时，可以查看详细的log输出（方便调试）：

九、引用资料

[1] 鸿蒙Next官方开发资料

[2] MobileIMSDK开源框架的API文档

[3] MobileIMSDK开源IM框架源码（Github地址点此）

[4] MobileIMSDK-鸿蒙Next端发布公告

[5] MobileIMSDK-鸿蒙Next端详细介绍

[6] MobileIMSDK-鸿蒙Next端开发手册（* 精编PDF版）

[7] MobileIMSDK的Server端Demo使用帮助

posted @ 2024-12-30 12:08 Jack Jiang 阅读(91) | 评论 (0) | 编辑收藏

[置顶]IM消息送达保证机制实现(二)：保证离线消息的可靠投递

摘要: 本文的上篇我们讨论了在线实时消息的投递，如果接收方用户B不在线，系统是如何保证离线消息的可达性的呢？这就是本文要讨论的问题。阅读全文

posted @ 2016-11-18 14:39 Jack Jiang 阅读(3102) | 评论 (0) | 编辑收藏

[置顶]【原创】高性能网络编程(二)：上一个10年，著名的C10K并发连接问题

摘要: 虽然C10K问题已被妥善解决，但对于即时通讯应用（或其它网络编程方面）的开发者而言，研究C10K问题仍然价值巨大，因为技术的发展都是有规律和线索可循的，了解C10K问题及其解决思路，通过举一反三，或许可以为你以后面对类似问题提供更多可借鉴的思想和解决问题的实践思路。而这，也正是撰写本文的目的所在。阅读全文

posted @ 2016-10-21 16:02 Jack Jiang 阅读(2685) | 评论 (0) | 编辑收藏

[置顶]【原创】新手入门一篇就够：从零开发移动端IM

摘要: 本文将以新手的视角引导你阅读相关文章，以便为从零开发一个移动端IM做好方方面面的知识准备：包括但不限于网络编程基础、通信协议的选型、IM的架构设计等等。阅读全文

posted @ 2016-08-29 17:42 Jack Jiang 阅读(3218) | 评论 (0) | 编辑收藏

[置顶]开源IM工程“蘑菇街TeamTalk”的现状：一场有始无终的开源秀

摘要: 本文将简要介绍TeamTalk开源的过去和现在，为打算研究和采用TeamTalk的同行提供一定程度的参考。阅读全文

posted @ 2016-08-09 17:25 Jack Jiang 阅读(2857) | 评论 (0) | 编辑收藏

[置顶]Android后台保活实践总结：即时通讯应用无法根治的“顽疾”

摘要: 本文基于作者的实践以及相关资料的整理，总结了自已对Android进程和Service保活的理解，希望能为你的应用开发带来启发。阅读全文

posted @ 2016-08-02 22:43 Jack Jiang 阅读(2574) | 评论 (0) | 编辑收藏

[置顶]Comet技术详解：基于HTTP长连接的Web端实时通信技术

摘要: 本文将介绍如何在现有的技术基础上选择合适的方案开发一个“服务器推”（Comet技术）的应用，最优的方案还是取决于应用需求的本身。相对于传统的 Web 应用，开发 Comet 应用具有一定的挑战性。阅读全文

posted @ 2016-07-28 11:07 Jack Jiang 阅读(1518) | 评论 (0) | 编辑收藏

[置顶]SSE技术详解：一种全新的HTML5服务器推送事件技术

摘要: 本文对服务器推送技术（SSE）进行了详细的介绍，包含浏览器端和服务器端的相应实现细节，为在实践中使用该技术提供了指南阅读全文

posted @ 2016-07-22 18:03 Jack Jiang 阅读(1221) | 评论 (0) | 编辑收藏

[置顶]Web端即时通讯技术盘点：短轮询、Comet、Websocket、SSE

摘要: Web端即时通讯技术因受限于浏览器的设计限制，一直以来实现起来并不容易，主流的Web端即时通讯方案大致有4种：传统Ajax短轮询、Comet技术、WebSocket技术、SSE（Server-sent Events）。本文将简要介绍这4种技术的原理，并指出各自的异同点、优缺点等。阅读全文

posted @ 2016-07-15 15:08 Jack Jiang 阅读(1898) | 评论 (2) | 编辑收藏

[置顶]新手入门贴：史上最全Web端即时通讯技术原理详解

摘要: Web端的IM应用，由于浏览器的兼容性以及其固有的“客户端请求服务器处理并响应”的通信模型，造成了要在浏览器中实现一个兼容性较好的IM应用，其通信过程必然是诸多技术的组合，本文的目的就是要详细探讨这些技术并分析其原理和过程。阅读全文

posted @ 2016-07-12 15:59 Jack Jiang 阅读(5605) | 评论 (0) | 编辑收藏

[置顶]【原创】NIO框架入门(四)：Android与MINA2、Netty4的跨平台UDP双向通信实战

摘要: 文演示的是一个Android客户端程序，通过UDP协议与两个典型的NIO框架服务端（分别用MINA2和Netty4来实现），实现跨平台双向通信的完整Demo。阅读全文

posted @ 2016-06-30 16:57 Jack Jiang 阅读(772) | 评论 (0) | 编辑收藏

[置顶]【原创】NIO框架入门(三)：iOS与MINA2、Netty4的跨平台UDP双向通信实战

摘要: 本文将演示一个iOS客户端程序，通过UDP协议与两个典型的NIO框架服务端（将分别用MINA2和Netty4来实现），实现跨平台双向通信的完整Demo。阅读全文

posted @ 2016-06-28 22:11 Jack Jiang 阅读(1409) | 评论 (0) | 编辑收藏

[置顶]【原创】NIO框架入门(二)：服务端基于MINA2的UDP双向通信Demo演示

摘要: 本文是《NIO框架入门》系列文章中的第2篇，将演示的是一个基于MINA2的UDP服务端和一个标准UDP客户端（Java实现）双向通信的完整例子。阅读全文

posted @ 2016-06-24 14:38 Jack Jiang 阅读(867) | 评论 (0) | 编辑收藏

[置顶]【原创】NIO框架入门(一)：服务端基于Netty4的UDP双向通信Demo演示

摘要: 本文将演示的是一个基于Netty4的UDP服务端和一个标准UDP客户端（Java实现）双向通信的完整例子。实际上，Netty4的UDP例子非常难找，官方的代码演示里只有一个简单的UDP广播例子，不足以用于演示Netty4的UDP通信最佳实践。阅读全文

posted @ 2016-06-20 14:48 Jack Jiang 阅读(1538) | 评论 (0) | 编辑收藏

[置顶]【原创】轻量级移动端即时通讯技术MobileIMSDK的常见问题解答

摘要: MobileIMSDK是一套专为移动端开发的原创即时通讯框架：超轻量级、高度提炼，lib包50KB以内；完全基于UDP协议实现；客户端支持iOS、Android、标准Java平台；可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。阅读全文

posted @ 2015-12-14 15:18 Jack Jiang 阅读(2796) | 评论 (0) | 编辑收藏

[置顶]【原创】轻量级移动端即时通讯技术 MobileIMSDK 发布了

摘要: MobileIMSDK是专为移动端开发的原创即时通讯开源框架：超轻量级、高度提炼，lib包50KB以内；完全基于UDP协议实现；客户端支持iOS、Android、标准Java平台；可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。阅读全文

posted @ 2015-12-01 16:06 Jack Jiang 阅读(3400) | 评论 (2) | 编辑收藏

鸿蒙NEXT时代你所不知道的全平台跨端框架：CMP、Kuikly、Lynx、uni-app x等

摘要: 本文由GSYTech 恋猫de小郭分享，原题“2025 跨平台框架更新和发布对比，这是你没看过的全新版本”，下文有修订和重新排版。1、前言2025 年可以说又是一个跨平台的元年，其中不妨有鸿蒙Next平台刺激的原因，也有大厂技术积累“达到瓶颈”的可能，又或者“开猿截流、降本增笑”的趋势的影响，2025 年上半年确实让跨平台框架... 阅读全文

posted @ 2025-07-16 10:28 Jack Jiang 阅读(15) | 评论 (0) | 编辑收藏

纯血鸿蒙NEXT即时通讯/IM系统：RinbowTalk正式发布，全源码、纯ArkTS编写

1、基本情况

RainbowTalk是一套基于MobileIMSDK的产品级鸿蒙NEXT端IM系统，目前已正式发布。纯ArkTS、从零编写，无套壳、没走捷径，每一行代码都够“纯”（详见：《RainbowTalk详细介绍》）。

MobileIMSDK是一整套开源IM即时通讯框架，历经10年，超轻量级、高度提炼，一套API优雅支持 UDP 、TCP 、WebSocket 三种协议，支持 iOS、Android、H5、标准Java、小程序、Uniapp、鸿蒙NEXT，服务端基于Netty编写。

MobileIMSDK工程的开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK
3）GitCode托管地址：https://gitcode.com/hellojackjiang2011/MobileIMSDK

2、功能简介

1）支持文本消息、语音留言消息、图片消息、大文件消息（支持断点上传）、短视频消息、个人名片、群名片、Emoji表情、消息撤回、消息转发、消息引用、“@”功能、“扫一扫”功能等；
2）支持一对一陌生人聊天模式；
3）支持一对一正式好友聊天模式；
4）支持多对多群聊聊天模式；
5）完善的群组信息管理：建群、退群、解散、转让、邀请、踢人、群公告等；
6）完整的注册、登陆（同时支持手机验证码登录和密码登录）、密码找回等功能闭环；
7）个人中心功能：改基本信息、改个性签名、改头像、改密码等；
8）支持个人相册查看；
9）完整的离线消息/指令拉取机制；
10）完整的本地消息/指令缓存机制，节省网络流量；
11）完整的富媒体文件（语音、大文件、图片、短视频）缓存机制，节省网络流量；
12）完整的好友关系管理：查找好友、发出请求、处理请求、删除好友、好友备注等；
13）其它未提及的功能和特性请自行下载体验。

RainbowTalk线上版本目前仅作演示和研究之用，运行环境配置最小化（仅1核1G和1MB带宽），请客观评估。

3、登陆和注册等

4、首页等主要界面

5、“我的”、“个人中心”等页面

6、好友关系等

7、陌生人聊天

8、好友聊天

9、世界频道聊天

10、群聊和群管理

11、大文件消息

12、短视频消息

13、“个人名片”消息

14、“群名片”功能

15、“扫一扫”功能

16、“搜索”功能

17、“消息转发”功能

18、“消息引用”功能

19、“@”功能

20、“消息撤回”功能

（本文内容引用自：http://www.52im.net/thread-4822-1-1.html）

posted @ 2025-07-09 11:27 Jack Jiang 阅读(31) | 评论 (0) | 编辑收藏

零基础音视频入门：你所不知道的Web前端音视频知识

本文由字节跳动张华挺分享，原题“你不知道的前端音视频知识”，下文有修订和重新排版。

1、前言

本文回顾了Web端音视频的发展历程，同时还介绍了视频的编码、帧率、比特率等概念，提到了Canvas作为视频播放的替代方案，以及FFmpeg在音视频处理中的重要作用等知识。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4840-1-1.html）

2、远古时期的HTML

Web端音视频的发展史得从刀耕火种的年代——早期 HTML说起。

在早期的 HTML，由于带宽、技术等各种因素限制，网页主要以简单的静态内容为主，只支持一些文字图片内容和简单的排版，不支持在线观看音视频。

图为 1994 年的 Yahoo!：

3、 Flash的兴起与淘汰

20 世纪初，随着互联网的发展，各种 Web 应用和门户网站不断出现，人们渴望在网页上看到更加丰富多彩的内容，比如视频、动画等等，于是 Flash 进入了人们的视野。

彼时的 Flash 没有像现在大家印象中的那么臃肿，刚诞生的 Flash 小巧、高效、跨平台，同时凭借几十 K 的体积做出放大也不会失真的各种矢量彩色动画，在还是拨号上网，带宽条件受限，加载一个在线视频需要好几分钟的年代脱颖而出，甚至可以做出各种令人沉迷的 Flash 小游戏。

Flash 塑造了很多经典的小游戏角色，火柴人就是其中之一：

Flash 的兴起，得益于当时 HTML 对于媒体文件支持的匮乏。Flash 以插件的形式，干着平台才需要负担的繁重工作，并得益于 Adobe 的大力推广，Flash 先后增加了对 Javascrip、HTML、XML 的支持，并增强了影音方面的功能。同时由于 Flash 跨平台的特性，非常容易被移植，市面上稍微高端点的设备，也得乖乖地给 Adobe 交授权费。

然而 2007 年推出的 iPhone 并不买账，他们以增加续航、安全为由抛弃了 Flash，很多人一开始对此嗤之以鼻，但事实证明苹果对此确实有远见，大量低质量的 Flash 使当时续航本就有限的移动设备更加不堪重负。2012 年，Android 也宣布不再支持 Flash，Flash 在移动市场不再有立足之地。

在桌面市场上，Flash 的日子也并不好过。Chrome 从的 Chrome 42 开始，就已经强制把 Flash 装入沙箱，以 PPAPI 的形式运行；而从 Chromium 版本号 88 开始，已经彻底不再支持 Flash 技术了。微软的 Edge 浏览器也同步不支持 Flash。Chrome 的前辈 Firefox 更加激进，从 2016 年就已经默认禁止 Flash 运行了。

至于 Flash 为什么走向了淘汰，除了它的效率变低，不安全因素过多，稳定性不足外，还有一个重要原因：Web 音视频解决方案有了更好的替代品—— HTML5。

4、HTML5的到来

其实，对于 HTML5 是否可以真正替代 Flash，尤大在 2011 年已经给出了预言：

事实正如预言所预料，HTML5 在 2008 年发布后，经过不断改进完善，基本上能包办 Flash 所有能干的事情了。HTML5 引入了许多新特性和新功能，其中就包含了 video 和 audio 标签，也就是对音视频的支持。使用了支持 HTML5 标准的网络浏览器访问 HTML5 站点，用户无需在电脑上安装 Flash 插件就可以在线观看视频，摆脱了对 Flash 的依赖。

2021 年 1 月 20 日，chrome 88 正式发布，彻底的禁止使用 Flash。自此，Flash 算是彻底退出了历史舞台。

5、到底什么是视频

视频，其实就是一系列连续播放的图片，如果一秒钟播放 24 张图片，那么人眼看到的就不再是一张张独立的图片，而是动起来的画面。

其中一张图片称为一帧，1s 播放的图片数称为帧率。由于人类眼睛的特殊生理结构，如果所看画面之帧率高于每秒约 10-12 帧的时候，就会认为是连贯的；当看到帧率为 24 fps 以上时，大脑会认为这是流畅播放的视频。所以一般有声电影的拍摄及播放帧率大约为每秒 24 帧，欧美、日本那边由于电视制式不同，大约为 30 帧。

关于视频及视频编码相关的入门文章可以继续详读以下资料：

6、电影的帧率与游戏的帧率

为什么 24 帧的电影比 30 帧的游戏要流畅许多？这其中的原因就在于，电影和游戏的图像生成原理不同。

电影的 24 fps，是每 1/24 秒拍摄一副画面，如果你玩过相机的手动设置，你应该知道如果以 1/24 秒的快门速度拍摄一个运动的物体会“糊”掉，而正是这样“糊”掉的画面连起来才让我们的眼睛看上去很“流畅”。

而游戏画面不是按 1/24 秒快门拍出来的，而是每一幅画面都是独立渲染出来的，之所以跑成 24fps 是因为显卡处理能力不够而“丢弃”了其中的一些画面，这样一来每两幅画面之间就不连续了，自然看上去会“卡”。

举个例子：一个圆从左上角移动到右下角，如果是电影，第一帧与第二帧可能是类似下图这样的。

如果是游戏画面，第一帧与第二帧会类似下面这两张图：

此外，帧与帧之间间隔恒定：人眼对于动态视频的捕捉是非常敏感的，电影帧率是固定不变，肉眼很难察觉出异常。

而游戏的帧率却是很容易变化的——如果手动锁定帧数，显卡会默认渲染最高帧率。

玩家触发的很多剧情往往伴随剧烈的画面变动，这时显卡的帧率就会出现下降，前后不一致的帧率很容易被肉眼捕捉，这时我们就会觉得，游戏变“卡”了。

7、视频的编码

7.1 概述

视频是由图片构成的，图片是由像素构成的，假设尺寸为 1980*1080。每个像素由 RGB 构成，每个 8 位，共 24 位。

假设帧率是 24，那么每秒钟的视频的尺寸如下：

一分钟视频的尺寸就是 9237888000 Bytes 已经是 8.8 个 G 了。可以看到，如果是不对视频做任何处理，是非常不方便对于视频做传输与存储的，所以需要对视频进行压缩，也就是编码。

7.2 视频编码

视频图像数据有很强的相关性，也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉（去除数据之间的相关性），压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。

经过编码之后，视频由一帧帧的图片，变成了一串串让人看不懂的二进制代码，因为编码的方式(算法)的不同，所以就有了编码格式的区分。常见的编码格式有 H.264，MPEG-4，VP8 等。

我们前端开发只需要记住一点，主流浏览器支持的视频编码格式是 H.264。

7.3 音频编码

CD 音质的音频，存放一分钟数据需要的大小为 10M，太大了，也需要压缩（编码）。

常见的编码方式有：WAV、MP3 和 AAC 格式。

音频的编码方式不像视频那样那么多，而且音频在各个浏览器基本上都可以播放。具体的每种编码格式包含的音频是怎么构成的，这里就不讲了。

关于音频及音频编码相关的入门文章可以继续详读以下资料：

7.4 封装格式

我们把视频数据、音频数据打包到一起，然后再添加一些基本信息，例如分辨率、时长、标题等，构成一个文件，这个文件称为封装格式。常见的封装格式有 MP4、AVI、RMVB 等。

可以看出：视频的封装格式和视频的编码格式往往是无关的。一个 mp4 文件里面的视频流编码可以是 h264也可以是 mpeg-4。所以就会出现，同样都是 mp4 文件，有的浏览器可以放，有的浏览器就放不了的问题，因为能不能放是由视频码流的编码格式决定的。

8、视频的码率

码率，也叫比特率，帧率是 1s 播放多少帧，类比一下，比特率就是 1s 的视频有多少 bit。这个参数直接决定了视频的大小与清晰程度。

一般网上流传的电影 MKV（BDrip-1080P）的码率是 10Mb/s 左右，蓝光原盘是 20Mb/s 左右，这两者都是 H.264 编码的。另外一些 MV、PV、演示片什么的除了 H.264 编码，可能还有 MPEG-2 编码，码率大小不等，像 youtube 那些在线的 1080P 的视频，码率可能只有 5Mb/s，而一些 MV 的码率可以高到离谱，可以达到 110Mb/s 的，3 分多钟的 MV 差不多有 3GB 大小。

而一般的视频剪辑、后期软件，在输出序列的时候，都会有码率这个选项。

9、视频播放器的原理

播放视频的基本流程是：解协议 → 解封装 → 解码 → 视音频同步。如果播放本地文件则不需要解协议。

解协议的作用，就是将流媒体协议的数据，解析为标准的相应的封装格式数据。视音频在网络上传播的时候，常常采用各种流媒体协议，例如 HTTP、RTMP或是 MMS 等等。这些协议在传输视音频数据的同时，也会传输一些信令数据。这些信令数据包括对播放的控制（播放、暂停、停止），或者对网络状态的描述等。解协议的过程中会去除掉信令数据而只保留视音频数据。

解封装的作用，就是将输入的封装格式的数据，分离成为音频流压缩编码数据和视频流压缩编码数据。封装格式种类很多，例如 MP4、MKV、RMVB、TS、FLV、AVI 等等，它的作用就是将已经压缩编码的视频数据和音频数据按照一定的格式放到一起。例如，FLV 格式的数据，经过解封装操作后，输出 H.264 编码的视频码流和 AAC 编码的音频码流。

解码的作用，就是将视频/音频压缩编码数据，解码成为非压缩的视频/音频原始数据。音频的压缩编码标准包含 AAC、MP3、AC-3 等等，视频的压缩编码标准则包含 H.264、MPEG2、VC-1 等等。解码是整个系统中最重要也是最复杂的一个环节。通过解码，压缩编码的视频数据输出成为非压缩的颜色数据，例如 YUV420P、RGB 等等；压缩编码的音频数据输出成为非压缩的音频抽样数据，例如 PCM 数据。

视音频同步的作用，就是根据解封装模块处理过程中获取到的参数信息，同步解码出来的视频和音频数据，并将视频音频数据送至系统的显卡和声卡播放出来。

10、HTML5的canvas播放视频

如果我们碰到一些特殊机型或者特殊情况 HTML5 的 video 解决方案不是很好处理，也可以采用 Canvas 去播放这个视频。

使用 Canvas 播放视频主要是利用 ctx.drawImage(video, x, y, width, height) 来对视频当前帧的图像进行绘制，其中 video 参数就是页面中的 video 对象。所以如果我们按照特定的频率不断获取 video 当前画面，并渲染到 Canvas 画布上，就可以实现使用 Canvas 播放视频的功能。

<video id="video" controls="controls" style="display: none;">
    <source src="https://xxx.com/vid_159411468092581" />
</video>
<canvas id="myCanvas" width="460" height="270" style="border: 1px solid blue;" ></canvas>
<div>
    <button id="playBtn">播放</button>
    <button id="pauseBtn">暂停</button>
</div>

const video = document.querySelector("#video");
const canvas = document.querySelector("#myCanvas");
const playBtn = document.querySelector("#playBtn");
const pauseBtn = document.querySelector("#pauseBtn");
const context = canvas.getContext("2d");
let timerId = null;
function draw() {
    if (video.paused || video.ended) return;
    context.clearRect(0, 0, canvas.width, canvas.height);
    context.drawImage(video, 0, 0, canvas.width, canvas.height);
    timerId = setTimeout(draw, 0);
}
playBtn.addEventListener("click", () => {
    if (!video.paused) return;
    video.play();
    draw();
});
pauseBtn.addEventListener("click", () => {
    if (video.paused) return;
    video.pause();
    clearTimeout(timerId);
});

事实上，市面上已经有不少 Canvas 播放视频的解决方案，比较出名的是这个 JSMpeg。它和 PIXI 一样，可以选择 WebGL 渲染视频也可以直接用 Canvas 渲染视频。

JSMpeg 是没有 npm 包的，但是社区上有开发者基于 JSMpeg 封装了一个 npm 包：https://github.com/cycjimmy/jsmpeg-player。

在官网上是这么介绍的：

JSMpeg is a Video Player written in JavaScript. It consists of an MPEG-TS Demuxer, WebAssembly MPEG1 Video & MP2 Audio Decoders, WebGL & Canvas2D Renderers and WebAudio Sound Output. JSMpeg can load static files via Ajax and allows low latency streaming (~50ms) via WebSocktes.

由于它所支持的编码格式不是常规的 H.264，而是比较老的 MPEG1，并且解封装器为 MPEG-TS。所以一般我们使用它去渲染视频的格式为 TS。TS 是日本高清摄像机拍摄下进行的封装格式，全称为 MPEG2-TS。它的特点就是要求从视频流的任一片段开始都是可以独立解码的。

TS 文件通常作为多个文件保存在 DVD 上，虽然它可以在高清摄像机、蓝光 DVD 中无需借助其他软件就能直接打开，但是 TS 视频文件与大多数的媒体播放器、便携式播放器或视频编辑工具都不兼容，所以这个时候，FFmpeg 就可以出场了。

11、视频操作神器——FFmpeg

FFmpeg是一个开源的软件，我们直接用 homebrew 就可以安装：

1brew install ffmpeg

如果我们想转换为 jsmpeg 所需的 ts 格式视频，可以执行：

$ ffmpeg -i input.mp4 -f mpegts \
         -codec:v mpeg1video -s 640x360 -b:v 1500k -r 25 -bf 0 \
         -codec:a mp2 -ar 44100 -ac 1 -b:a 64k \
         output.ts

1）i：指定输入文件，这里指定为 input.mp4；
2）f 指明输出文件的封装格式，这里为 jsmpeg 所需的 mpegts；
3）codec:v 指明输出文件的视频编码，这里指明为 jsmpeg 所需的 mpeg1video；
4）s 设置视频分辨率，参数格式为w*h或w×h；
5）b:v 设置视频码率，一般如果想得到高清的效果，至少需要 4000k 以上，如果对视频体积有要求，可以视情况小一点；
6）r 设置帧率（fps），一般都为 25；
7）bf bframe 数目控制，一般为 0。

B 帧法（B frame）是双向预测的帧间压缩算法。当把一帧压缩成 B 帧时，它根据相邻的前一帧、本帧以及后一帧数据的不同点来压缩本帧，也即仅记录本帧与前后帧的差值。

1）codec:a 指明输出文件的音频编码；
2）ar 设置音频编码采样率，单位kHz，一般网上的音频，大多为 44100；

音频采样率是指录音设备在单位时间内对模拟信号采样的多少，采样频率越高，机械波的波形就越真实越自然；

3）ac 设置音频编码声道数；
4）b:a 设置音频码率；

音频码率，指一个音频流中每秒钟能通过的数据量，码率越大的话，音质越好。

最后一个参数即为输出文件位置与名称和后缀格式。

FFmpeg 是一个非常强大的音视频转换工具，不仅可以视频转换，还可以视频尺寸裁剪、视频时长裁剪、视频拼接等等功能，目前很多在线视频剪辑工具基本是基于 FFmpeg 开发的。

12、音视频的一些资源推荐

国内学习音视频相关的开发，绕不过的一个大神是雷霄骅，大佬已经去世了，但是留下的文章永垂不朽。本文也是参考了雷霄骅的部分博客，如果感兴趣，可以从这篇文章看起：《视音频编解码技术零基础学习方法》。

对于直播 webrtc 感兴趣的，也可以看一下 Real time communication with WebRTC，国内慕课网上李超老师也有不错的教程。

对 ffmpeg 感兴趣的，可以看一下这里：https://github.com/leandromoreira/ffmpeg-libav-tutorial。

13、参考资料

[1] 即时通讯音视频开发（十八）：详解音频编解码的原理、演进和应用选型

[2] 即时通讯音视频开发（十九）：零基础，史上最通俗视频编码技术入门

[3] 即时通讯音视频开发（二十）：一文读懂视频的颜色模型转换和色域转换

[4] 实时语音聊天中的音频处理与编码压缩技术简述

[5] 网易视频云技术分享：音频处理与压缩技术快速入门

[6] 福利贴：最全实时音视频开发要用到的开源工程汇总

[7] 理解实时音视频聊天中的延时问题一篇就够

[8] 写给小白的实时音视频技术入门提纲

[9] 爱奇艺技术分享：轻松诙谐，讲解视频编解码技术的过去、现在和将来

[10] 零基础入门：实时音视频技术基础知识全面盘点

[11] 实时音视频面视必备：快速掌握11个视频技术相关的基础概念

[12] 实时音视频开发理论必备：如何省流量？视频高度压缩背后的预测技术

[13] 视频直播技术干货(十三)：B站实时视频直播技术实践和音视频知识入门

[14] 零基础入门：基于开源WebRTC，从0到1实现实时音视频聊天功能

[15] 实时音视频入门学习：开源工程WebRTC的技术原理和使用浅析

[16] 零基础快速入门WebRTC：基本概念、关键技术、与WebSocket的区别等

（本文已同步发布于：http://www.52im.net/thread-4840-1-1.html）

posted @ 2025-06-26 15:25 Jack Jiang 阅读(45) | 评论 (0) | 编辑收藏

微信读书十周年，后台架构的技术演进和实践总结

本文由腾讯技术团队罗国佳分享，原题“微信读书后台架构演进之路”，下文有修订和重新排版。

1、前言

今年是微信读书上线10周年，后台技术架构也伴随着微信读书的成长经历了多次迭代与升级。每一次的组件升级与架构突破，在一个运行了10年的系统上落地都不是一件容易的事情，需要破釜沉舟的决心与胆大心细的业务联动。

微信读书经过了多年的发展，赢得了良好的用户口碑，后台系统的服务质量直接影响着用户的体验。团队多年来始终保持着“小而美”的基因，快速试错与迭代成为常态。后台团队在日常业务开发的同时，需要主动寻求更多架构上的突破，提升后台服务的可用性、扩展性，以不断适应业务与团队的变化。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

2、整体架构设计

微信读书是独立于微信的App，且由于历史原因，开发及运维环境均存在一定的差异与隔离。因此，微信读书的后台服务实现了从接入层到存储层的一整套完整架构。

架构上分解为典型的接入层、逻辑层和存储层：

1）接入层：按业务划分为多个CGI服务，实现了资源隔离。在CGI层面还实现了如路由、频控、接入层缓存、长连接等。

2）逻辑层：采用WRMesh框架构建了多个微服务，这些微服务按业务场景进行划分，实现了不同模块间的解耦。框架也提供了如RPC、路由发现、过载保护、限流频控、监控上报等能力。

3）存储层：主要采用PaxosStore存储用户数据，分为K-V和K-Table两种类型，具备高可用、强一致的特性，针对String和Table两种类型定制了缓存中间件，以适配某些业务场景下对访问存储的性能要求。BookStore提供书籍的存储服务，满足读书场景下对书籍的拆章、修改、下载等需要。此外，也不同程度地使用了腾讯云的PaaS存储服务，以灵活满足更多场景需要。

具体的业务逻辑不再赘述，下面简单介绍下微信读书近几年在后台架构上的一些演进。

3、异构服务间调用：RPC框架

微信读书后台微服务源于Hikit框架，采用C++开发。该框架诞生于广研、QQ邮箱年代，在性能、容灾、运维、监控层面都经受了线上的考验，在微信读书上线初期作为主要框架，支撑了后台服务长达数年。

随着微信读书的发展，越来越多异构的系统发展起来。例如推荐算法系统是独立部署在TKE上的容器服务，采用GO语言开发，好处是历史负担少，运维更加方便、开发更加便捷。

两套系统同时存在带来的问题是如何做好服务治理，推荐系统需要频繁调用后台基础模块获取用户数据，必须要有一套完善的路由管理、容灾机制，且考虑到是异构服务，开发语言也不相同，如果为每种语言都定制开发一套服务治理框架，代价会非常高。

在这个阶段，我们开发了WRMesh框架，采用Sidecar+Business的方式解决这个问题。

Sidecar专注于处理网络层的逻辑，和Business业务层分开为两个进程，由WRMesh脚手架生成代码，上层业务无需感知。

Sidecar集成了Hikit框架中用于服务治理的核心逻辑：通过UnixSocket与Business进行通信，代理Business的所有网络读写。当Business进程中需要发起网络请求时，由WRMesh生成的Client代码会自动识别当前是否在mesh环境中，并转发请求给Sidecar，由Sidecar完成接下来的网络处理。

因此：Business进程可以由任意语言任意框架开发，只要遵循Sidecar的通信协议，只需要薄薄的一层网络协议转换即可接入到Hikit的服务治理框架中。

另外：对于某些有特殊路由逻辑的Client，如KV访问、Batch请求等，代理转发并不能满足要求，因此Sidecar还提供了插件能力集成这些Client逻辑，最大限度为异构Business业务提供原生C++的能力。

随着WXG容器平台P6N的建设越来越完善，许多微信的能力也是基于P6N提供，我们也在思考如何逐步迁移到P6N。由于微信读书后台运维目前依赖于企微团队，有独立于P6N的一套运维体系，我们负责业务和架构开发。

如果要一刀切把所有后台服务迁移至P6N，将会面临几个问题：

1）框架代码需要重新适配，开发环境和现网环境都有巨大的改造成本。

2）迁移不是一蹴而就，后台上百个服务在迁移过程中，会存在新旧服务互调的问题，由于运维环境不互通，微服务之间无法完成服务治理，这种互相调用最终只能通过Proxy来转发，不仅增加了网络的失败率，时延增加，最关键的是这个过程会让容灾体系大打折扣。

3）存储模块的迁移成本和风险巨大，如果不迁移存储模块只迁移了逻辑模块，那势必又会存在2中的问题，这个过程很难收尾。

考虑到人力成本及投入性价比，我们最终采用了折衷的方案：

1）一方面：我们保留了依赖于企微的运维环境，保障绝大多数现成服务的稳定运行。

2）另一面：对于微信P6N中的服务，我们搭建了比较完善的Proxy层，例如Svrkit代理、WQueue代理等，两套架构可以方便进行互通，最大限度的在原有基础上接入微信的新能力。

目前，微信读书已顺利接入如WQueue、FKVOL、SimOL、TFCC等众多微信的能力。

4、书籍数据中台的演进

4.1 技术背景

书籍是微信读书的内容根基，书籍数量的多少、书籍质量的好坏，很大程度上决定了用户是否选择微信读书作为阅读App。

过去：我们依托阅文集团提供电子书资源，免去了书籍上架前繁琐的处理流程，包括排版、审校、元信息管理、更新管理等，后台服务只需要对接阅文API即可方便获取书籍数据，我们只需要关注书籍在平台的存储管理和分发流转即可。

近几年：电子书行业的大环境发生变化，一方面，用户对书籍品类多样性、内容质量有更高的诉求，另一方面，平台对成本、版权等行业因素也更为敏感。因此，我们也在积极探索自签版权，甚至是自出品的模式，尝试走更多不一样的道路。从后台角度而言，从过去单一依赖阅文集团API的模式，慢慢转为开放更多的书籍管理接口，形成书籍数据中台模式，为上层运营同学搭建内容管理平台，让更多人可以方便参与到电子书的制作、排版、上下架、运营管理当中。

以EPUB为例，从内容产出到上架到微信读书，大致经历以下阶段：

1）排版审校：这个阶段多为人工或者部分机器自动化介入。

2）上架预处理：这个阶段需要创建书籍信息，配置各种运营策略，当这本书是重排版上架时，内容发生改变，由于现网已经存在用户的划线笔记、进度等数据，需要有完善指标评估是否适合覆盖上架，当上架时，需要对用户数据进行修复，避免发生错位情况，严重影响用户体验。

3）EPUB解析：当书籍上架后，由于EPUB是单一文件，不适合解析和管理分发，因此后台会把源文件解析成自有格式，包括EPUB拆章、图文分离、样式分离、按章生成离线包等等。

4）生成BookInfo和BookData并落盘：EPUB文件经过解析后，BookInfo和BookData会存储到自建的StoreSvr服务上，StoreSvr针对书籍存储、下载等场景进行了很多优化，具备高可用、低时延的特点，提供了书籍信息获取、按章下载等核心接口。

4.2 建设数据中台

回到最初的目标，我们希望把更多的书籍管理能力开放出来，对上层屏蔽电子书底层的后台逻辑，让运营同学可以更专注于书籍的管理。

因此，我们构建了如下书籍数据中台：

后台服务拆分开StoreAPI和StoreSvr：

1）StoreAPI：提供书籍管理的接口，由运营同学搭建的内容平台与StoreAPI交互，完成书籍的管理工作；

2）StoreSvr：一方面接受StoreAPI的请求，更新书籍数据，另一方面为现网用户提供高可用的服务。

StoreAPI提供了如下接口能力：

1）书籍id分配、上下架；
2）书籍信息创建、修改；
3）书籍内容修改、连载更新、订阅推送；
4）运营策略管理。

此外：如上所述，划线位置和阅读进度等核心UGC数据由于是按文件偏移记录，当书籍文件替换后，这些数据会发生错位，如果不能及时修复，将对用户体验造成巨大影响。尤其在一些热门书籍里，单本书里与位置相关的UGC数据往往能达到亿级别，由于文件替换后位置的偏移具有随机性，并不能采用简单的映射方式解决，在过去，我们开发了专门的修复服务来完成这个事情，针对每一个UGC内容，采用全文模糊查找的方式重新计算新的偏移，并更新的UGC正排、书籍倒排等多个存储中。

但随着用户数据越来越多，书籍替换频率越来越频繁，修复不及时或者失败的问题逐渐暴露出来：

1）修复量大导致修复不及时。过去的修复服务虽然是多机部署，但处理单本书仍只是集中在一台机器上，单机性能有限；
2）修复任务缺乏落盘管理，修复服务一旦重启，任务丢失。

针对上面的问题：我们重新设计了修复服务，目标是最大限度缩短修复时间，并且让整个过程是可靠的。

为此，我们先首手考虑业务流程，我们发现在书籍上架前，运营同学本来就需要依赖UGC的修复情况做前置判断是否覆盖上架，这个过程中虽然是对UGC抽样评估，如果能对这个修复映射结果进行缓存，在正式替换文件后，也能一定程度提升修复速度。

在核心修复流程中，我们进行了较大的重构，把单本书的修复任务拆解成多个子任务，存储在Chubby上，多机器抢锁共同消费这些任务，由于任务有落盘，在服务上线重启过程中，也能马上恢复。修复过程涉及大量的KV写入，并发太高时容易命中单key的限频或者版本冲突，我们为此开发了针对K-Str和K-Table的写入中间件，可以在内存中聚合一批请求进行批量合并写入，缓解KV层面的失败。

目前，微信读书已通过内容平台完成了多家版权方自签，并在探索自出品等内容创作新形式。

5、账号系统的高可用性重构

账号是微信读书后台系统的基石，承担了登录、会话密钥生成与派发、用户资料管理等核心功能，所有的用户请求都需经过账号系统进行鉴权验证用户身份，但凡有一点系统抖动都会影响到整个App的正常使用，严重者还会导致账号被踢出无法再次登录。

账号系统的架构在微信读书诞生之初便一直沿用，同一个号段的账号服务AccountSvr和MySQL部署在同一台机器上，备机采用主从同步的方式获取数据，当主机不可用时，备机承担了所有读请求。

在某些场景下，为了能使访问备机时也具备一定的写入能力，曾经魔改过主备逻辑，但一切都显得治标不治本，且引入了更复杂的系统特性，整个架构略显混乱。在机器裁撤、数据扩容过程中，曾造成过几次严重故障，导致App不可用，严重影响用户体验。究其原因，是因为当时基础设施还不完善，缺少高性能高可靠的强一致存储，MySQL也是手动搭建的，运维成本和风险都非常高。

为了彻底解决这个历史包袱，我们在2024下定决心对其进行重构。重构就意味着要抛弃现有MySQL这套臃肿的存储方案，把数据迁移到新的存储组件上。

这里涉及到的挑战点如下：

1）账号鉴权服务访问量巨大，迁移过程须尽量不增加系统负担，且必须是在不停机的情况下进行；
2）迁移过程中一旦有数据丢失或者错误，会导致用户资料受损，用户登录态丢失，App无法使用；
3）账号系统还涉及用户id分配和回收逻辑，在切换存储时如何保证数据的一致性，不重复分配号码。

背水一战，没有退路可言。在经历了多次论证后，我们决定采用Paxosmemkv作为新的存储组件，全内存、多副本、强一致的特性，很适合作为账号系统的底层存储。

同时，我们为整个迁移过程制定了周密的方案，把每一步进行了分解，且要求每个环节可灰度可回退，同时要做好数据的一致性检查。

在完成数据迁移后，我们还需要对AccountSvr进行重构，抛弃按号段的账号分配、路由、缓存逻辑，以全新的视角设计更简洁的架构。

6、内容召回系统的架构设计

以往微信读书的搜索仅限于基于书名、作者等维度的文本召回，通过自建的全内存索引服务实现书籍的检索。全文检索则基于ES搭建，采用规则分段的方式建立索引，能满足读书大部分场景的需要。

在大语言模型迅速发展的近两年，微信读书作为一个庞大的内容知识库，具有大量的书籍原文资源。同时，用户在微信读书也留下了大量的文字内容，如书评、想法等，这些内容构成了AI问书的内容基石，也是AI问书区别于其它问答工具的核心优势。

基于微信读书构建RAG召回系统，核心挑战如下：

1）基于书籍原文构建全文检索，为了达到最好的效果，往往需要支持按语义进行段落切分，在此基础上构建embedding进行语义召回。微信读书拥有百万级书籍原文数据，此外，对于用户导入书，更是达到亿级别规模。现有架构无论从成本还是耗时上都无法解决。

2）为了支持更多维度的召回，需要对UGC内容进行召回，部分UGC内容属于私密信息，并不向全网公开，只需要满足用户个人检索即可。此时如果用常规的检索系统构建常驻索引，访问率太低，成本难以收敛。

为此，我们针对微信读书不同的RAG使用场景，设计了如下召回架构：

我们把数据划分成两类：全局公开可搜以及用户个人可搜。

1）对于全局公开可搜索的数据：如库内电子书的全文、书籍大纲、书评、人工知识库等，我们构建了一套入库流程，能对源信息进行语义分段、生成正排倒排，语义分段基于开源的chunk模型进行微调，正排基于fkv，倒排则基于ES构建，ES提供了DiskANN方案，通过设置合理的缓存和分片，能在存储成本和召回效率之间取得不错的平衡。对于 App 内主搜等低时延场景，为了满足多种定制化检索需求，我们自建了基于内存索引的Searchsvr服务，支持索引落盘，可以在毫秒级返回电子书搜索结果。

2）对于用户个人数据：如导入书全文、个人想法等，特点是数据量大但使用频率不高，不需要针对全网用户进行检索，如果采用上述方案，会带来成本灾难，性价比极低。为此，我们按用户及物料的维度，基于USearch、Xapian等方案构建了向量及文本索引，这些组件的优势在于可以把单个索引存储成文件的形式，便于落盘，配合一些量化的方法，可以把大大压缩索引大小。在构建索引阶段，按用户+类型构建出不同的索引，并存储在低成本的COS上，当用户需要检索召回时，采用读时加载的方式实时进行召回，结合CFS进行预热可以大大提升检索速度。当检索完成后，定时淘汰策略会把长期不用的索引从CFS中清理，降低存储成本。

7、写在最后

虽然微信读书已经发展了十个年头，但我们的脚步从未停止。

在日常业务开发之余，我们也从未停止思考如何让系统能走得更远、更稳健，抓住每一个可能的优化点，随时做好准备，迎接下一个精彩的十年。

8、相关资料

[1] 腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面

[2] 快速理解高性能HTTP服务端的负载均衡技术原理

[3] 子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践

[4] 知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

[5] 新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践

[6] 阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史

[7] 阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路

[8] 达达O2O后台架构演进实践：从0到4000高并发请求背后的努力

[9] 优秀后端架构师必会知识：史上最全MySQL大表优化方案总结

[10] 小米技术分享：解密小米抢购系统千万高并发架构的演进和实践

[11] 一篇读懂分布式架构下的负载均衡技术：分类、原理、算法、常见方案等

[12] 通俗易懂：如何设计能支撑百万并发的数据库架构？

[13] 多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了

[14] 从新手到架构师，一篇就够：从100到1000万高并发的架构演进之路

[15] 美团技术分享：深度解密美团的分布式ID生成算法

[16] 12306抢票带来的启示：看我如何用Go实现百万QPS的秒杀系统(含源码)

9、微信团队的其它精华文章

微信后台基于时间序的海量数据冷热分级架构设计实践

微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

微信后台团队：微信后台异步消息队列的优化升级实践分享

微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案

一份微信后台技术架构的总结性笔记

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

微信团队分享：极致优化，iOS版微信编译速度3倍提升的实践总结

IM“扫一扫”功能很好做？看看微信“扫一扫识物”的完整技术实现

微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

微信团队分享：微信直播聊天室单房间1500万在线的消息架构演进之路

企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

IM全文检索技术专题(四)：微信iOS端的最新全文检索技术优化实践

微信团队分享：微信后台在海量并发请求下是如何做到不崩溃的

微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

企业微信针对百万级组织架构的客户端性能优化实践

揭秘企业微信是如何支持超大规模IM组织架构的——技术解读四维关系链

微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

大型IM工程重构实践：企业微信Android端的重构之路

IM技术干货：假如你来设计微信的群聊，你该怎么设计？

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

posted @ 2025-06-20 15:26 Jack Jiang 阅读(46) | 评论 (0) | 编辑收藏

微信读书十周年，后台架构的技术演进和实践总结

本文由腾讯技术团队罗国佳分享，原题“微信读书后台架构演进之路”，下文有修订和重新排版。

1、前言

今年是微信读书上线10周年，后台技术架构也伴随着微信读书的成长经历了多次迭代与升级。每一次的组件升级与架构突破，在一个运行了10年的系统上落地都不是一件容易的事情，需要破釜沉舟的决心与胆大心细的业务联动。

微信读书经过了多年的发展，赢得了良好的用户口碑，后台系统的服务质量直接影响着用户的体验。团队多年来始终保持着“小而美”的基因，快速试错与迭代成为常态。后台团队在日常业务开发的同时，需要主动寻求更多架构上的突破，提升后台服务的可用性、扩展性，以不断适应业务与团队的变化。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

2、整体架构设计

微信读书是独立于微信的App，且由于历史原因，开发及运维环境均存在一定的差异与隔离。因此，微信读书的后台服务实现了从接入层到存储层的一整套完整架构。

架构上分解为典型的接入层、逻辑层和存储层：

1）接入层：按业务划分为多个CGI服务，实现了资源隔离。在CGI层面还实现了如路由、频控、接入层缓存、长连接等。

2）逻辑层：采用WRMesh框架构建了多个微服务，这些微服务按业务场景进行划分，实现了不同模块间的解耦。框架也提供了如RPC、路由发现、过载保护、限流频控、监控上报等能力。

3）存储层：主要采用PaxosStore存储用户数据，分为K-V和K-Table两种类型，具备高可用、强一致的特性，针对String和Table两种类型定制了缓存中间件，以适配某些业务场景下对访问存储的性能要求。BookStore提供书籍的存储服务，满足读书场景下对书籍的拆章、修改、下载等需要。此外，也不同程度地使用了腾讯云的PaaS存储服务，以灵活满足更多场景需要。

具体的业务逻辑不再赘述，下面简单介绍下微信读书近几年在后台架构上的一些演进。

3、异构服务间调用：RPC框架

微信读书后台微服务源于Hikit框架，采用C++开发。该框架诞生于广研、QQ邮箱年代，在性能、容灾、运维、监控层面都经受了线上的考验，在微信读书上线初期作为主要框架，支撑了后台服务长达数年。

随着微信读书的发展，越来越多异构的系统发展起来。例如推荐算法系统是独立部署在TKE上的容器服务，采用GO语言开发，好处是历史负担少，运维更加方便、开发更加便捷。

两套系统同时存在带来的问题是如何做好服务治理，推荐系统需要频繁调用后台基础模块获取用户数据，必须要有一套完善的路由管理、容灾机制，且考虑到是异构服务，开发语言也不相同，如果为每种语言都定制开发一套服务治理框架，代价会非常高。

在这个阶段，我们开发了WRMesh框架，采用Sidecar+Business的方式解决这个问题。

Sidecar专注于处理网络层的逻辑，和Business业务层分开为两个进程，由WRMesh脚手架生成代码，上层业务无需感知。

Sidecar集成了Hikit框架中用于服务治理的核心逻辑：通过UnixSocket与Business进行通信，代理Business的所有网络读写。当Business进程中需要发起网络请求时，由WRMesh生成的Client代码会自动识别当前是否在mesh环境中，并转发请求给Sidecar，由Sidecar完成接下来的网络处理。

因此：Business进程可以由任意语言任意框架开发，只要遵循Sidecar的通信协议，只需要薄薄的一层网络协议转换即可接入到Hikit的服务治理框架中。

另外：对于某些有特殊路由逻辑的Client，如KV访问、Batch请求等，代理转发并不能满足要求，因此Sidecar还提供了插件能力集成这些Client逻辑，最大限度为异构Business业务提供原生C++的能力。

随着WXG容器平台P6N的建设越来越完善，许多微信的能力也是基于P6N提供，我们也在思考如何逐步迁移到P6N。由于微信读书后台运维目前依赖于企微团队，有独立于P6N的一套运维体系，我们负责业务和架构开发。

如果要一刀切把所有后台服务迁移至P6N，将会面临几个问题：

1）框架代码需要重新适配，开发环境和现网环境都有巨大的改造成本。

2）迁移不是一蹴而就，后台上百个服务在迁移过程中，会存在新旧服务互调的问题，由于运维环境不互通，微服务之间无法完成服务治理，这种互相调用最终只能通过Proxy来转发，不仅增加了网络的失败率，时延增加，最关键的是这个过程会让容灾体系大打折扣。

3）存储模块的迁移成本和风险巨大，如果不迁移存储模块只迁移了逻辑模块，那势必又会存在2中的问题，这个过程很难收尾。

考虑到人力成本及投入性价比，我们最终采用了折衷的方案：

1）一方面：我们保留了依赖于企微的运维环境，保障绝大多数现成服务的稳定运行。

2）另一面：对于微信P6N中的服务，我们搭建了比较完善的Proxy层，例如Svrkit代理、WQueue代理等，两套架构可以方便进行互通，最大限度的在原有基础上接入微信的新能力。

目前，微信读书已顺利接入如WQueue、FKVOL、SimOL、TFCC等众多微信的能力。

4、书籍数据中台的演进

4.1 技术背景

书籍是微信读书的内容根基，书籍数量的多少、书籍质量的好坏，很大程度上决定了用户是否选择微信读书作为阅读App。

过去：我们依托阅文集团提供电子书资源，免去了书籍上架前繁琐的处理流程，包括排版、审校、元信息管理、更新管理等，后台服务只需要对接阅文API即可方便获取书籍数据，我们只需要关注书籍在平台的存储管理和分发流转即可。

近几年：电子书行业的大环境发生变化，一方面，用户对书籍品类多样性、内容质量有更高的诉求，另一方面，平台对成本、版权等行业因素也更为敏感。因此，我们也在积极探索自签版权，甚至是自出品的模式，尝试走更多不一样的道路。从后台角度而言，从过去单一依赖阅文集团API的模式，慢慢转为开放更多的书籍管理接口，形成书籍数据中台模式，为上层运营同学搭建内容管理平台，让更多人可以方便参与到电子书的制作、排版、上下架、运营管理当中。

以EPUB为例，从内容产出到上架到微信读书，大致经历以下阶段：

1）排版审校：这个阶段多为人工或者部分机器自动化介入。

2）上架预处理：这个阶段需要创建书籍信息，配置各种运营策略，当这本书是重排版上架时，内容发生改变，由于现网已经存在用户的划线笔记、进度等数据，需要有完善指标评估是否适合覆盖上架，当上架时，需要对用户数据进行修复，避免发生错位情况，严重影响用户体验。

3）EPUB解析：当书籍上架后，由于EPUB是单一文件，不适合解析和管理分发，因此后台会把源文件解析成自有格式，包括EPUB拆章、图文分离、样式分离、按章生成离线包等等。

4）生成BookInfo和BookData并落盘：EPUB文件经过解析后，BookInfo和BookData会存储到自建的StoreSvr服务上，StoreSvr针对书籍存储、下载等场景进行了很多优化，具备高可用、低时延的特点，提供了书籍信息获取、按章下载等核心接口。

4.2 建设数据中台

回到最初的目标，我们希望把更多的书籍管理能力开放出来，对上层屏蔽电子书底层的后台逻辑，让运营同学可以更专注于书籍的管理。

因此，我们构建了如下书籍数据中台：

后台服务拆分开StoreAPI和StoreSvr：

1）StoreAPI：提供书籍管理的接口，由运营同学搭建的内容平台与StoreAPI交互，完成书籍的管理工作；

2）StoreSvr：一方面接受StoreAPI的请求，更新书籍数据，另一方面为现网用户提供高可用的服务。

StoreAPI提供了如下接口能力：

1）书籍id分配、上下架；
2）书籍信息创建、修改；
3）书籍内容修改、连载更新、订阅推送；
4）运营策略管理。

此外：如上所述，划线位置和阅读进度等核心UGC数据由于是按文件偏移记录，当书籍文件替换后，这些数据会发生错位，如果不能及时修复，将对用户体验造成巨大影响。尤其在一些热门书籍里，单本书里与位置相关的UGC数据往往能达到亿级别，由于文件替换后位置的偏移具有随机性，并不能采用简单的映射方式解决，在过去，我们开发了专门的修复服务来完成这个事情，针对每一个UGC内容，采用全文模糊查找的方式重新计算新的偏移，并更新的UGC正排、书籍倒排等多个存储中。

但随着用户数据越来越多，书籍替换频率越来越频繁，修复不及时或者失败的问题逐渐暴露出来：

1）修复量大导致修复不及时。过去的修复服务虽然是多机部署，但处理单本书仍只是集中在一台机器上，单机性能有限；
2）修复任务缺乏落盘管理，修复服务一旦重启，任务丢失。

针对上面的问题：我们重新设计了修复服务，目标是最大限度缩短修复时间，并且让整个过程是可靠的。

为此，我们先首手考虑业务流程，我们发现在书籍上架前，运营同学本来就需要依赖UGC的修复情况做前置判断是否覆盖上架，这个过程中虽然是对UGC抽样评估，如果能对这个修复映射结果进行缓存，在正式替换文件后，也能一定程度提升修复速度。

在核心修复流程中，我们进行了较大的重构，把单本书的修复任务拆解成多个子任务，存储在Chubby上，多机器抢锁共同消费这些任务，由于任务有落盘，在服务上线重启过程中，也能马上恢复。修复过程涉及大量的KV写入，并发太高时容易命中单key的限频或者版本冲突，我们为此开发了针对K-Str和K-Table的写入中间件，可以在内存中聚合一批请求进行批量合并写入，缓解KV层面的失败。

目前，微信读书已通过内容平台完成了多家版权方自签，并在探索自出品等内容创作新形式。

5、账号系统的高可用性重构

账号是微信读书后台系统的基石，承担了登录、会话密钥生成与派发、用户资料管理等核心功能，所有的用户请求都需经过账号系统进行鉴权验证用户身份，但凡有一点系统抖动都会影响到整个App的正常使用，严重者还会导致账号被踢出无法再次登录。

账号系统的架构在微信读书诞生之初便一直沿用，同一个号段的账号服务AccountSvr和MySQL部署在同一台机器上，备机采用主从同步的方式获取数据，当主机不可用时，备机承担了所有读请求。

在某些场景下，为了能使访问备机时也具备一定的写入能力，曾经魔改过主备逻辑，但一切都显得治标不治本，且引入了更复杂的系统特性，整个架构略显混乱。在机器裁撤、数据扩容过程中，曾造成过几次严重故障，导致App不可用，严重影响用户体验。究其原因，是因为当时基础设施还不完善，缺少高性能高可靠的强一致存储，MySQL也是手动搭建的，运维成本和风险都非常高。

为了彻底解决这个历史包袱，我们在2024下定决心对其进行重构。重构就意味着要抛弃现有MySQL这套臃肿的存储方案，把数据迁移到新的存储组件上。

这里涉及到的挑战点如下：

1）账号鉴权服务访问量巨大，迁移过程须尽量不增加系统负担，且必须是在不停机的情况下进行；
2）迁移过程中一旦有数据丢失或者错误，会导致用户资料受损，用户登录态丢失，App无法使用；
3）账号系统还涉及用户id分配和回收逻辑，在切换存储时如何保证数据的一致性，不重复分配号码。

背水一战，没有退路可言。在经历了多次论证后，我们决定采用Paxosmemkv作为新的存储组件，全内存、多副本、强一致的特性，很适合作为账号系统的底层存储。

同时，我们为整个迁移过程制定了周密的方案，把每一步进行了分解，且要求每个环节可灰度可回退，同时要做好数据的一致性检查。

在完成数据迁移后，我们还需要对AccountSvr进行重构，抛弃按号段的账号分配、路由、缓存逻辑，以全新的视角设计更简洁的架构。

6、内容召回系统的架构设计

以往微信读书的搜索仅限于基于书名、作者等维度的文本召回，通过自建的全内存索引服务实现书籍的检索。全文检索则基于ES搭建，采用规则分段的方式建立索引，能满足读书大部分场景的需要。

在大语言模型迅速发展的近两年，微信读书作为一个庞大的内容知识库，具有大量的书籍原文资源。同时，用户在微信读书也留下了大量的文字内容，如书评、想法等，这些内容构成了AI问书的内容基石，也是AI问书区别于其它问答工具的核心优势。

基于微信读书构建RAG召回系统，核心挑战如下：

1）基于书籍原文构建全文检索，为了达到最好的效果，往往需要支持按语义进行段落切分，在此基础上构建embedding进行语义召回。微信读书拥有百万级书籍原文数据，此外，对于用户导入书，更是达到亿级别规模。现有架构无论从成本还是耗时上都无法解决。

2）为了支持更多维度的召回，需要对UGC内容进行召回，部分UGC内容属于私密信息，并不向全网公开，只需要满足用户个人检索即可。此时如果用常规的检索系统构建常驻索引，访问率太低，成本难以收敛。

为此，我们针对微信读书不同的RAG使用场景，设计了如下召回架构：

我们把数据划分成两类：全局公开可搜以及用户个人可搜。

1）对于全局公开可搜索的数据：如库内电子书的全文、书籍大纲、书评、人工知识库等，我们构建了一套入库流程，能对源信息进行语义分段、生成正排倒排，语义分段基于开源的chunk模型进行微调，正排基于fkv，倒排则基于ES构建，ES提供了DiskANN方案，通过设置合理的缓存和分片，能在存储成本和召回效率之间取得不错的平衡。对于 App 内主搜等低时延场景，为了满足多种定制化检索需求，我们自建了基于内存索引的Searchsvr服务，支持索引落盘，可以在毫秒级返回电子书搜索结果。

2）对于用户个人数据：如导入书全文、个人想法等，特点是数据量大但使用频率不高，不需要针对全网用户进行检索，如果采用上述方案，会带来成本灾难，性价比极低。为此，我们按用户及物料的维度，基于USearch、Xapian等方案构建了向量及文本索引，这些组件的优势在于可以把单个索引存储成文件的形式，便于落盘，配合一些量化的方法，可以把大大压缩索引大小。在构建索引阶段，按用户+类型构建出不同的索引，并存储在低成本的COS上，当用户需要检索召回时，采用读时加载的方式实时进行召回，结合CFS进行预热可以大大提升检索速度。当检索完成后，定时淘汰策略会把长期不用的索引从CFS中清理，降低存储成本。

7、写在最后

虽然微信读书已经发展了十个年头，但我们的脚步从未停止。

在日常业务开发之余，我们也从未停止思考如何让系统能走得更远、更稳健，抓住每一个可能的优化点，随时做好准备，迎接下一个精彩的十年。

8、相关资料

[1] 腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面

[2] 快速理解高性能HTTP服务端的负载均衡技术原理

[3] 子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践

[4] 知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

[5] 新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践

[6] 阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史

[7] 阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路

[8] 达达O2O后台架构演进实践：从0到4000高并发请求背后的努力

[9] 优秀后端架构师必会知识：史上最全MySQL大表优化方案总结

[10] 小米技术分享：解密小米抢购系统千万高并发架构的演进和实践

[11] 一篇读懂分布式架构下的负载均衡技术：分类、原理、算法、常见方案等

[12] 通俗易懂：如何设计能支撑百万并发的数据库架构？

[13] 多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了

[14] 从新手到架构师，一篇就够：从100到1000万高并发的架构演进之路

[15] 美团技术分享：深度解密美团的分布式ID生成算法

[16] 12306抢票带来的启示：看我如何用Go实现百万QPS的秒杀系统(含源码)

9、微信团队的其它精华文章

微信后台基于时间序的海量数据冷热分级架构设计实践

微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

微信后台团队：微信后台异步消息队列的优化升级实践分享

微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案

一份微信后台技术架构的总结性笔记

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

微信团队分享：极致优化，iOS版微信编译速度3倍提升的实践总结

IM“扫一扫”功能很好做？看看微信“扫一扫识物”的完整技术实现

微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

微信团队分享：微信直播聊天室单房间1500万在线的消息架构演进之路

企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

IM全文检索技术专题(四)：微信iOS端的最新全文检索技术优化实践

微信团队分享：微信后台在海量并发请求下是如何做到不崩溃的

微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

企业微信针对百万级组织架构的客户端性能优化实践

揭秘企业微信是如何支持超大规模IM组织架构的——技术解读四维关系链

微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

大型IM工程重构实践：企业微信Android端的重构之路

IM技术干货：假如你来设计微信的群聊，你该怎么设计？

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

posted @ 2025-06-20 15:26 Jack Jiang 阅读(48) | 评论 (0) | 编辑收藏

微信读书十周年，后台架构的技术演进和实践总结

本文由腾讯技术团队罗国佳分享，原题“微信读书后台架构演进之路”，下文有修订和重新排版。

1、前言

今年是微信读书上线10周年，后台技术架构也伴随着微信读书的成长经历了多次迭代与升级。每一次的组件升级与架构突破，在一个运行了10年的系统上落地都不是一件容易的事情，需要破釜沉舟的决心与胆大心细的业务联动。

微信读书经过了多年的发展，赢得了良好的用户口碑，后台系统的服务质量直接影响着用户的体验。团队多年来始终保持着“小而美”的基因，快速试错与迭代成为常态。后台团队在日常业务开发的同时，需要主动寻求更多架构上的突破，提升后台服务的可用性、扩展性，以不断适应业务与团队的变化。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

2、整体架构设计

微信读书是独立于微信的App，且由于历史原因，开发及运维环境均存在一定的差异与隔离。因此，微信读书的后台服务实现了从接入层到存储层的一整套完整架构。

架构上分解为典型的接入层、逻辑层和存储层：

1）接入层：按业务划分为多个CGI服务，实现了资源隔离。在CGI层面还实现了如路由、频控、接入层缓存、长连接等。

2）逻辑层：采用WRMesh框架构建了多个微服务，这些微服务按业务场景进行划分，实现了不同模块间的解耦。框架也提供了如RPC、路由发现、过载保护、限流频控、监控上报等能力。

3）存储层：主要采用PaxosStore存储用户数据，分为K-V和K-Table两种类型，具备高可用、强一致的特性，针对String和Table两种类型定制了缓存中间件，以适配某些业务场景下对访问存储的性能要求。BookStore提供书籍的存储服务，满足读书场景下对书籍的拆章、修改、下载等需要。此外，也不同程度地使用了腾讯云的PaaS存储服务，以灵活满足更多场景需要。

具体的业务逻辑不再赘述，下面简单介绍下微信读书近几年在后台架构上的一些演进。

3、异构服务间调用：RPC框架

微信读书后台微服务源于Hikit框架，采用C++开发。该框架诞生于广研、QQ邮箱年代，在性能、容灾、运维、监控层面都经受了线上的考验，在微信读书上线初期作为主要框架，支撑了后台服务长达数年。

随着微信读书的发展，越来越多异构的系统发展起来。例如推荐算法系统是独立部署在TKE上的容器服务，采用GO语言开发，好处是历史负担少，运维更加方便、开发更加便捷。

两套系统同时存在带来的问题是如何做好服务治理，推荐系统需要频繁调用后台基础模块获取用户数据，必须要有一套完善的路由管理、容灾机制，且考虑到是异构服务，开发语言也不相同，如果为每种语言都定制开发一套服务治理框架，代价会非常高。

在这个阶段，我们开发了WRMesh框架，采用Sidecar+Business的方式解决这个问题。

Sidecar专注于处理网络层的逻辑，和Business业务层分开为两个进程，由WRMesh脚手架生成代码，上层业务无需感知。

Sidecar集成了Hikit框架中用于服务治理的核心逻辑：通过UnixSocket与Business进行通信，代理Business的所有网络读写。当Business进程中需要发起网络请求时，由WRMesh生成的Client代码会自动识别当前是否在mesh环境中，并转发请求给Sidecar，由Sidecar完成接下来的网络处理。

因此：Business进程可以由任意语言任意框架开发，只要遵循Sidecar的通信协议，只需要薄薄的一层网络协议转换即可接入到Hikit的服务治理框架中。

另外：对于某些有特殊路由逻辑的Client，如KV访问、Batch请求等，代理转发并不能满足要求，因此Sidecar还提供了插件能力集成这些Client逻辑，最大限度为异构Business业务提供原生C++的能力。

随着WXG容器平台P6N的建设越来越完善，许多微信的能力也是基于P6N提供，我们也在思考如何逐步迁移到P6N。由于微信读书后台运维目前依赖于企微团队，有独立于P6N的一套运维体系，我们负责业务和架构开发。

如果要一刀切把所有后台服务迁移至P6N，将会面临几个问题：

1）框架代码需要重新适配，开发环境和现网环境都有巨大的改造成本。

2）迁移不是一蹴而就，后台上百个服务在迁移过程中，会存在新旧服务互调的问题，由于运维环境不互通，微服务之间无法完成服务治理，这种互相调用最终只能通过Proxy来转发，不仅增加了网络的失败率，时延增加，最关键的是这个过程会让容灾体系大打折扣。

3）存储模块的迁移成本和风险巨大，如果不迁移存储模块只迁移了逻辑模块，那势必又会存在2中的问题，这个过程很难收尾。

考虑到人力成本及投入性价比，我们最终采用了折衷的方案：

1）一方面：我们保留了依赖于企微的运维环境，保障绝大多数现成服务的稳定运行。

2）另一面：对于微信P6N中的服务，我们搭建了比较完善的Proxy层，例如Svrkit代理、WQueue代理等，两套架构可以方便进行互通，最大限度的在原有基础上接入微信的新能力。

目前，微信读书已顺利接入如WQueue、FKVOL、SimOL、TFCC等众多微信的能力。

4、书籍数据中台的演进

4.1 技术背景

书籍是微信读书的内容根基，书籍数量的多少、书籍质量的好坏，很大程度上决定了用户是否选择微信读书作为阅读App。

过去：我们依托阅文集团提供电子书资源，免去了书籍上架前繁琐的处理流程，包括排版、审校、元信息管理、更新管理等，后台服务只需要对接阅文API即可方便获取书籍数据，我们只需要关注书籍在平台的存储管理和分发流转即可。

近几年：电子书行业的大环境发生变化，一方面，用户对书籍品类多样性、内容质量有更高的诉求，另一方面，平台对成本、版权等行业因素也更为敏感。因此，我们也在积极探索自签版权，甚至是自出品的模式，尝试走更多不一样的道路。从后台角度而言，从过去单一依赖阅文集团API的模式，慢慢转为开放更多的书籍管理接口，形成书籍数据中台模式，为上层运营同学搭建内容管理平台，让更多人可以方便参与到电子书的制作、排版、上下架、运营管理当中。

以EPUB为例，从内容产出到上架到微信读书，大致经历以下阶段：

1）排版审校：这个阶段多为人工或者部分机器自动化介入。

2）上架预处理：这个阶段需要创建书籍信息，配置各种运营策略，当这本书是重排版上架时，内容发生改变，由于现网已经存在用户的划线笔记、进度等数据，需要有完善指标评估是否适合覆盖上架，当上架时，需要对用户数据进行修复，避免发生错位情况，严重影响用户体验。

3）EPUB解析：当书籍上架后，由于EPUB是单一文件，不适合解析和管理分发，因此后台会把源文件解析成自有格式，包括EPUB拆章、图文分离、样式分离、按章生成离线包等等。

4）生成BookInfo和BookData并落盘：EPUB文件经过解析后，BookInfo和BookData会存储到自建的StoreSvr服务上，StoreSvr针对书籍存储、下载等场景进行了很多优化，具备高可用、低时延的特点，提供了书籍信息获取、按章下载等核心接口。

4.2 建设数据中台

回到最初的目标，我们希望把更多的书籍管理能力开放出来，对上层屏蔽电子书底层的后台逻辑，让运营同学可以更专注于书籍的管理。

因此，我们构建了如下书籍数据中台：

后台服务拆分开StoreAPI和StoreSvr：

1）StoreAPI：提供书籍管理的接口，由运营同学搭建的内容平台与StoreAPI交互，完成书籍的管理工作；

2）StoreSvr：一方面接受StoreAPI的请求，更新书籍数据，另一方面为现网用户提供高可用的服务。

StoreAPI提供了如下接口能力：

1）书籍id分配、上下架；
2）书籍信息创建、修改；
3）书籍内容修改、连载更新、订阅推送；
4）运营策略管理。

此外：如上所述，划线位置和阅读进度等核心UGC数据由于是按文件偏移记录，当书籍文件替换后，这些数据会发生错位，如果不能及时修复，将对用户体验造成巨大影响。尤其在一些热门书籍里，单本书里与位置相关的UGC数据往往能达到亿级别，由于文件替换后位置的偏移具有随机性，并不能采用简单的映射方式解决，在过去，我们开发了专门的修复服务来完成这个事情，针对每一个UGC内容，采用全文模糊查找的方式重新计算新的偏移，并更新的UGC正排、书籍倒排等多个存储中。

但随着用户数据越来越多，书籍替换频率越来越频繁，修复不及时或者失败的问题逐渐暴露出来：

1）修复量大导致修复不及时。过去的修复服务虽然是多机部署，但处理单本书仍只是集中在一台机器上，单机性能有限；
2）修复任务缺乏落盘管理，修复服务一旦重启，任务丢失。

针对上面的问题：我们重新设计了修复服务，目标是最大限度缩短修复时间，并且让整个过程是可靠的。

为此，我们先首手考虑业务流程，我们发现在书籍上架前，运营同学本来就需要依赖UGC的修复情况做前置判断是否覆盖上架，这个过程中虽然是对UGC抽样评估，如果能对这个修复映射结果进行缓存，在正式替换文件后，也能一定程度提升修复速度。

在核心修复流程中，我们进行了较大的重构，把单本书的修复任务拆解成多个子任务，存储在Chubby上，多机器抢锁共同消费这些任务，由于任务有落盘，在服务上线重启过程中，也能马上恢复。修复过程涉及大量的KV写入，并发太高时容易命中单key的限频或者版本冲突，我们为此开发了针对K-Str和K-Table的写入中间件，可以在内存中聚合一批请求进行批量合并写入，缓解KV层面的失败。

目前，微信读书已通过内容平台完成了多家版权方自签，并在探索自出品等内容创作新形式。

5、账号系统的高可用性重构

账号是微信读书后台系统的基石，承担了登录、会话密钥生成与派发、用户资料管理等核心功能，所有的用户请求都需经过账号系统进行鉴权验证用户身份，但凡有一点系统抖动都会影响到整个App的正常使用，严重者还会导致账号被踢出无法再次登录。

账号系统的架构在微信读书诞生之初便一直沿用，同一个号段的账号服务AccountSvr和MySQL部署在同一台机器上，备机采用主从同步的方式获取数据，当主机不可用时，备机承担了所有读请求。

在某些场景下，为了能使访问备机时也具备一定的写入能力，曾经魔改过主备逻辑，但一切都显得治标不治本，且引入了更复杂的系统特性，整个架构略显混乱。在机器裁撤、数据扩容过程中，曾造成过几次严重故障，导致App不可用，严重影响用户体验。究其原因，是因为当时基础设施还不完善，缺少高性能高可靠的强一致存储，MySQL也是手动搭建的，运维成本和风险都非常高。

为了彻底解决这个历史包袱，我们在2024下定决心对其进行重构。重构就意味着要抛弃现有MySQL这套臃肿的存储方案，把数据迁移到新的存储组件上。

这里涉及到的挑战点如下：

1）账号鉴权服务访问量巨大，迁移过程须尽量不增加系统负担，且必须是在不停机的情况下进行；
2）迁移过程中一旦有数据丢失或者错误，会导致用户资料受损，用户登录态丢失，App无法使用；
3）账号系统还涉及用户id分配和回收逻辑，在切换存储时如何保证数据的一致性，不重复分配号码。

背水一战，没有退路可言。在经历了多次论证后，我们决定采用Paxosmemkv作为新的存储组件，全内存、多副本、强一致的特性，很适合作为账号系统的底层存储。

同时，我们为整个迁移过程制定了周密的方案，把每一步进行了分解，且要求每个环节可灰度可回退，同时要做好数据的一致性检查。

在完成数据迁移后，我们还需要对AccountSvr进行重构，抛弃按号段的账号分配、路由、缓存逻辑，以全新的视角设计更简洁的架构。

6、内容召回系统的架构设计

以往微信读书的搜索仅限于基于书名、作者等维度的文本召回，通过自建的全内存索引服务实现书籍的检索。全文检索则基于ES搭建，采用规则分段的方式建立索引，能满足读书大部分场景的需要。

在大语言模型迅速发展的近两年，微信读书作为一个庞大的内容知识库，具有大量的书籍原文资源。同时，用户在微信读书也留下了大量的文字内容，如书评、想法等，这些内容构成了AI问书的内容基石，也是AI问书区别于其它问答工具的核心优势。

基于微信读书构建RAG召回系统，核心挑战如下：

1）基于书籍原文构建全文检索，为了达到最好的效果，往往需要支持按语义进行段落切分，在此基础上构建embedding进行语义召回。微信读书拥有百万级书籍原文数据，此外，对于用户导入书，更是达到亿级别规模。现有架构无论从成本还是耗时上都无法解决。

2）为了支持更多维度的召回，需要对UGC内容进行召回，部分UGC内容属于私密信息，并不向全网公开，只需要满足用户个人检索即可。此时如果用常规的检索系统构建常驻索引，访问率太低，成本难以收敛。

为此，我们针对微信读书不同的RAG使用场景，设计了如下召回架构：

我们把数据划分成两类：全局公开可搜以及用户个人可搜。

1）对于全局公开可搜索的数据：如库内电子书的全文、书籍大纲、书评、人工知识库等，我们构建了一套入库流程，能对源信息进行语义分段、生成正排倒排，语义分段基于开源的chunk模型进行微调，正排基于fkv，倒排则基于ES构建，ES提供了DiskANN方案，通过设置合理的缓存和分片，能在存储成本和召回效率之间取得不错的平衡。对于 App 内主搜等低时延场景，为了满足多种定制化检索需求，我们自建了基于内存索引的Searchsvr服务，支持索引落盘，可以在毫秒级返回电子书搜索结果。

2）对于用户个人数据：如导入书全文、个人想法等，特点是数据量大但使用频率不高，不需要针对全网用户进行检索，如果采用上述方案，会带来成本灾难，性价比极低。为此，我们按用户及物料的维度，基于USearch、Xapian等方案构建了向量及文本索引，这些组件的优势在于可以把单个索引存储成文件的形式，便于落盘，配合一些量化的方法，可以把大大压缩索引大小。在构建索引阶段，按用户+类型构建出不同的索引，并存储在低成本的COS上，当用户需要检索召回时，采用读时加载的方式实时进行召回，结合CFS进行预热可以大大提升检索速度。当检索完成后，定时淘汰策略会把长期不用的索引从CFS中清理，降低存储成本。

7、写在最后

虽然微信读书已经发展了十个年头，但我们的脚步从未停止。

在日常业务开发之余，我们也从未停止思考如何让系统能走得更远、更稳健，抓住每一个可能的优化点，随时做好准备，迎接下一个精彩的十年。

8、相关资料

[1] 腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面

[2] 快速理解高性能HTTP服务端的负载均衡技术原理

[3] 子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践

[4] 知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

[5] 新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践

[6] 阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史

[7] 阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路

[8] 达达O2O后台架构演进实践：从0到4000高并发请求背后的努力

[9] 优秀后端架构师必会知识：史上最全MySQL大表优化方案总结

[10] 小米技术分享：解密小米抢购系统千万高并发架构的演进和实践

[11] 一篇读懂分布式架构下的负载均衡技术：分类、原理、算法、常见方案等

[12] 通俗易懂：如何设计能支撑百万并发的数据库架构？

[13] 多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了

[14] 从新手到架构师，一篇就够：从100到1000万高并发的架构演进之路

[15] 美团技术分享：深度解密美团的分布式ID生成算法

[16] 12306抢票带来的启示：看我如何用Go实现百万QPS的秒杀系统(含源码)

9、微信团队的其它精华文章

微信后台基于时间序的海量数据冷热分级架构设计实践

微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

微信后台团队：微信后台异步消息队列的优化升级实践分享

微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案

一份微信后台技术架构的总结性笔记

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

微信团队分享：极致优化，iOS版微信编译速度3倍提升的实践总结

IM“扫一扫”功能很好做？看看微信“扫一扫识物”的完整技术实现

微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

微信团队分享：微信直播聊天室单房间1500万在线的消息架构演进之路

企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

IM全文检索技术专题(四)：微信iOS端的最新全文检索技术优化实践

微信团队分享：微信后台在海量并发请求下是如何做到不崩溃的

微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

企业微信针对百万级组织架构的客户端性能优化实践

揭秘企业微信是如何支持超大规模IM组织架构的——技术解读四维关系链

微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

大型IM工程重构实践：企业微信Android端的重构之路

IM技术干货：假如你来设计微信的群聊，你该怎么设计？

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

posted @ 2025-06-20 15:26 Jack Jiang 阅读(51) | 评论 (0) | 编辑收藏

Web网页端即时通讯源码/IM聊天源码RainbowChat-Web

1、基本介绍

RainbowChat-Web是一套基于MobileIMSDK-Web的网页端IM系统。不同于市面上某些开源练手或淘宝售卖的demo级代码，RainbowChat-Web的产品级代码演化自真正运营过的商业产品，其所依赖的通信层核心SDK已在数年内经过大量客户及其辐射的最终用户的使用和验证。RainbowChat-Web同时也是移动端IM应用RainbowChat的姊妹产品。

2、品质说明

❶ 源自真正运营的商业产品：RainbowChat-Web的技术源于真实运营的商业产品。

❷ 它不是个Demo：不同于市面上某些开源或淘宝售卖的demo级代码，RainbowChat-Web的产品级代码演化自真正运营过的商业产品，其所依赖的通信层核心SDK（即MobileIMSDK-Web）已在数年内经过大量客户及其辐射的最终用户的使用和验证。

❸ 简洁、精炼、优化、原生：RainbowChat-Web为了尽可能降低2次开发时的上手门槛、兼容性、可读性、可维护性的难度，坚持不依赖任何前端框架（这些框架通常是指AngularJS、VUE、EmberJS、React等），返璞归真，只使用原生JS+HTML+CSS（再无其它复杂性），极大降低开发者的上手难度、兼容成本，达到最简洁、最精炼、最灵活的目标（简洁、简单、回归本质的东西，才能拥最强的生命力）。

截止目前：RainbowChat-Web努力保证在各主流系统、主流浏览器、不同分辨率屏幕上的体验，包括但不限于：Chrome、Safari、FireFox、Edge、360浏览器、世界之窗浏览器等▼

3、运行演示

❶ 运行截图，详见：《RainbowChat-Web前端功能截图》
❷ 演示视频，详见：《RainbowChat-Web运行演示视频》

4、功能简介

1、支持文本消息、查看语音留言消息(由App产品发送)、图片消息、大文件消息、查看短视频消息(由App产品发送)、名片消息、位置消息、消息表情、快捷消息、消息撤回、消息转发等；
2、支持一对一陌生人聊天模式；
3、支持一对一正式好友聊天模式；
4、支持多对多群聊聊天模式；
5、完善的群组信息管理：建群、退群、解散、转让、邀请、踢人、群公告等；
6、完整的注册、登陆、密码找回等等功能闭环；
7、个人中心功能：改基本信息、改个性签名、改头像、改密码等；
8、支持查看个人相册、个人语音介绍；
9、完整的离线消息/指令拉取机制；
10、完整的历史消息/指令存取机制；
11、完整的好友关系管理：查找好友、发出请求、处理请求、删除好友、好友备注等；
12、以及其它未提及的功能和特性。

5、技术亮点

1）轻量易使用：纯原生JS编写，坚持不依赖任何前端框架（这些框架通常是指AngularJS、VUE、EmberJS、React等）；

2）模块化设计：所有UI模块、数据逻辑均由独立封装的JS对象管理，代码规范、低耦合，有效防止代码复杂性扩散；

3）浏览器跨域：所有AJAX接口均为JSONP实现，百分百支持跨域；

4）通信代码解偶：得益于高内聚的MobileIMSDK-Web工程，实现了IM功能逻辑与网络通信的解偶，利于持续升级、重用和维护（这是经验不足的IM产品做不到的）；

5）支持WebSocket：并非某些产品中还在使用的过时“长轮询”技术，真正的“即时通讯”；

6）网络兼容性好：核心层基于MobileIMSDK-Web技术，在不支持WebSocket的情况下仍可很好地工作；

7）断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；

8）轻松支持加密：一个参数即可开启SSL/TLS通信加密；

9）服务端慢io解偶：IM实例本身坚持不直接进行DB等慢io的读、写，保证IM实时消息高吞吐和性能；

10）服务端逻辑解偶：得益于MobileIMSDK-Web工程，实现了上层逻辑与网络通信核心的解偶，底层数据通信全部通过低偶合的回调通知来实现；

11）完善的log记录：服务端使用log4js日志框架，确保每一关键步骤都有日志输出，让您的运行调试更为便利；

12）聊天协议兼容：实现了与RainbowChat-APP产品完全兼容的协议模型；

13）消息收发互通：实现了与RainbowChat-APP产品的无缝消息互通。

6、支持的聊天消息类型

7、好友聊天

8、群聊聊天

9、发送“群名片”消息

10、发送“位置”消息

11、“消息撤回”

12、“消息转发”

12、“消息引用”

14、“@”功能

15、其它特性和细节

聊天区上方聊天对象信息显示：（查看视频）

消息送达状态图标显示：（查看视频）

posted @ 2025-06-13 16:15 Jack Jiang 阅读(52) | 评论 (0) | 编辑收藏

Web端实时通信技术SSE在携程机票业务中的实践应用

摘要: 本文由携程前端开发专家Chris Xia分享，关注新技术革新和研发效率提升。1、引言本文介绍了携程机票前端基于Server-Sent Events（SSE）实现服务端推送的企业级全链路通用技术解决方案。文章深入探讨了 SSE 技术在应用过程中包括方案对比、技术选型、链路层优化以及实际效果等多维度的技术细节，为类似使用场景提供普适性参考和借鉴。该方案设计目标是实现通用性，适用于各种网络架构和业务场景... 阅读全文

posted @ 2025-06-13 15:32 Jack Jiang 阅读(54) | 评论 (0) | 编辑收藏

长连接网关技术专题(十二)：大模型时代多模型AI网关的架构设计与实现

本文来自哔哩哔哩通用技术团队分享，下文进行了排版优化和修订。

1、引言

随着 AI 技术快速发展，业务对 AI 能力的渴求日益增长。当 AI 服务面对处理大规模请求和高并发流量时，AI 网关从中扮演着至关重要的角色。AI 服务通常涉及大量的计算任务和设备资源占用，此时需要一个 AI 网关负责协调这些请求来确保系统的稳定性与高效性。因此，与传统微服务架构类似，我们将相关 API 管理的功能（如流量控制、用户鉴权、配额计费、负载均衡、API 路由等）集中放置在 AI 网关层，可以降低系统整体复杂度并提升可维护性。

本文要分享的是B站在大模型时代基于多模型AI的网关架构设计和实践总结，希望能带给你启发。

* 相关阅读：《全民AI时代，大模型客户端和服务端的实时通信到底用什么协议？》

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4831-1-1.html）

2、系列文章

3、AI网关技术概览

AI 网关是一个用于统一接入和调度大语言模型（LLM）服务的系统，支持多供应商、多模型、负载均衡调度的管理。同时具备统一鉴权、Token 配额管理、安全审计与可观测能力，确保 API 调用的安全性和稳定性。负载均衡模块，能够根据提供商多线路、多模型和 API Key 进行灵活路由，并适用于多模型接入、多租户等复杂场景。

4、整体架构设计

AI 网关的整体架构和传统 API 网关及其类似，在数据面和控制面上有几乎相同的设计。

实际上 AI 网关就是衍生于之前微服务团队的 API Gateway，我们在 API Gateway 的基础上做了一些针对 AI 业务接口的特性优化，如无缓冲区的请求代理，支持域名、服务发现等混合调度，AI 超长响应时间请求的优雅退出等功能。

在此基础上我们使用于 API Gateway 相类似的数据面、控制面分离的架构，控制面会将变更后的网关配置准实时下发至数据面节点。数据面节点识别配置有更新后在运行时会动态切换代理引擎至新的代理逻辑下，并保证老的代理逻辑会处理完当下被分配的请求。

在数据面中，我们对请求过滤器有两种模式的抽象：请求过滤器和模型过滤器。请求过滤器作用于用户的原始请求，这类过滤器往往被设计用于处理鉴权、限流等逻辑。而模型过滤器作用于请求被转发至该模型时，常用于模型 API 的兼容逻辑。比如模型发展中目前对深度思考 <think> 的标签处理，推理引擎自定义参数的兼容修正等。

除此之外控制面也会提供 OpenAPI 供 AI 模型供给团队上架模型，新增 API Key 等日常运营能力。模型提供方可以在上架模型时支持为模型配置相应的 RPM、TPM 上限，并根据模型的推理引擎选择相应的兼容策略。也可以通过 OpenAPI 为单个 API Key 授权相应模型等功能。

5、鉴权认证

在鉴权机制中，采用目前主流 OpenAI SDK 兼容的 API Key 认证方案。

Authorization: Bearer <YOUR_API_KEY>

在 API Key 的认证基础上还提供细粒度的权限控制功能，允许为每个 API Key 配置可访问的模型范围，以及对不同模型的设置不同的配额。

另外支持灵活的 API Key 有效期配置，用户可根据需求设置 API Key 的过期时间或不过期。

6、配额管理

在配额管理体系里可以限制模型消费者的调用速率，在这里主要参考了 OpenAI 的配额策略： RPM（每分钟请求数）和 TPM（每分钟 Tokens 数）。

在这里可以按照为每个用户分配不同模型的 Token 配额，或指定单位时间的请求数限制，以确保 AI 服务的高效运行并防止超出预算。

同时我们还支持月维度的 Token 配额，业务按自然月进行预算申请，超过预算时请求将被限制。对于接入 AI 能力而言，每个业务都需要提前申请预算额度，避免带来难以负担的成本。

7、多模型访问

目前版本仅支持基于 OpenAI API 的协议转发。以目前推理引擎发展和在线 AI 云服务而言，兼容 OpenAI API 协议已经成为业界共识，在此基础上我们只需要实现根据用户需求的模型名，择优选择一个相应模型的上游 API 提供商（公司自建 IDC或公有云），并替换成相应服务商的 API Key 和 Upstream 域名就可以进行负载均衡。

对于公司 IDC 自建的模型服务而言，我们继续沿用基于 discovery 等服务发现技术来发现推理引擎节点，直接将请求包装调度至这些自建模型。

8、模型负载均衡

LLM API 的负载均衡和传统实时 API 的模式有很大的不同。

传统 API 开发中：一次请求往往被设计成会极大概率地命中一块结果缓存，且缓存 Key 的计算都比较简单，因此很多负载均衡都简单基于请求相应时间、连接数等等。

在 LLM 推理场景下：每个推理请求都会带来网关本身难以评估的计算时间和设备资源占用，此时基于 RPS、TTFB、连接数等负载均衡策略将不再适用。

在 AI 网关的默认负载均衡策略中：我们主要基于单模型服务节点处理 Token 的吞吐和时延能力，在黑盒模式下评估节点的饱和度。除此之外，推理引擎自身和显卡其实也暴露了许多和执行队列相关的指标，综合这些指标同样预计能获得比传统负载均衡更有效的体验。

另外：基于 Prefix Cache 的节点选择同样会是一个相当有效的调度策略，但 Prefix Cache 的计算能力往往需要外部服务来进行，因此 AI 网关同样支持接入外置的负载均衡算法，通过前置的 RPC 来让外置服务选择最合适的模型节点。

9、多租户隔离

业务主要通过域名 + API Key 进行访问大模型推理，可以通过域名进行管理对接的接口路由，进行配置转发到指定 Model Provider 服务。如果需要进行多业务隔离，只需要通过不同的域名访问并配置不同的转发目标。

10、可观测能力

从业务视角，主要分为 Gateway、 Domain、Consumer、Provider、UserModel、UpstreamModel 维度，进行查询和观察请求接口的可用率，以及 QPS、Latency、5xx、Quota 等指标。

11、支持的API协议

11.1 概述

在 AI 网关中，我们主要以 OpenAI 提供的 API 作为基础协议，让开发者基于 OpenAI SDK 实现各种业务场景对接。

目前支持的 API 协议有：

1）对话式模型交互（CHAT_COMPLETION）；
2）通用文本向量接口（EMBEDDING）；
3）提示词模板（CHAT_TEMPLATE）；
4）模型上下文协议（MODEL_CONTEXT_PROTOCOL）。

业务可以根据自己不同的场景进行选择对应的协议。

11.2 对话式模型交互（CHAT_COMPLETION）

对话式模型交互是最基础的协议，用于构建具有复杂逻辑的对话交互。同时 API 支持上下文感知的对话，使得模型能够理解和响应多轮交流，并在对话中保持合理的逻辑和语境一致性。

对话接口是 LLM 与现实世界沟通的重要渠道，大量 AI 需求实际上就是在与模型进行一轮或多轮对话实现的。

例如业务希望通过 LLM 排查线上故障的潜在原因，简单来说就是将应用的各项可观测指标、故障期间的日志记录或应用上下游的变更记录以对话形式告知 LLM，并让 LLM 输出一段便于程序理解的结果表达模式，让 LLM 从模型数据中计算出符合直觉潜在故障原因。

11.3 通用文本向量（EMBEDDING）

通用文本向量（EMBEDDING）接口的核心功能是将文本转化为高维向量，捕捉其语义特征。这在需要进行大规模信息检索、匹配和知识管理的场景中尤为关键。

11.4 提示词模板（CHAT_TEMPLATE）

提示词模板是一种结构化的对话生成方式，允许业务通过设置预定义的模板来生成系统化的回复。这种方式将语言模型的生成能力与模板化结构相结合，使业务能够以普通 API 的方式进行请求交互，并可以更集中化地控制生成内容的样式和格式。

同时我们也支持内嵌函数，以方便在提示词模板进行处理内容：

1）len(v any) string
2）jsonify(v any) string
3）make_json_object(v ...any) map[string]any
4）slice_to_index_map(v any, startBy int) map[int]any

以评论内容翻译的场景：

- path: /v1/reply-to-en
  protocol: HTTP
  timeout: 300s
  middlewares:
  - name: v1_chat_template
    options:
'@type': type.googleapis.com/infra.gateway.middleware.llm.v1.contrib.ChatTemplateConfig
      provider: bilibili
      model_name: index
      prompt_template: |
        你的任务：以下给定文本是一个B站视频的相关文本信息，可能为标题、简介、弹幕或评论，请你将给定的文本逐条翻译成英文。输入为一个json格式，key为序号，value为待翻译的弹幕，一共有{{ len .reply_list }}个文本。示例如下:
        输入: {"1": "xxx", "2": "xxx"}

        输出: {"1": "xxx", "2": "xxx"}

        注意，用{dyn:xxx}符号包裹的是图片引用，不需要翻译，直接保留。用[xxx]包裹的是表情符号，不需要翻译，直接保留。现在请根据上述要求完成如下片段的翻译，输出一共{{ len .reply_list }}个翻译后的结果，直接输出翻译后的英文，不要进行任何解释。

        输入: {{ jsonify (slice_to_index_map .reply_list 1) }}

        输出:

提示词模版接口实际上是基于对话接口的一种高效对接模式。众所周知，自 OpenAI 发布 ChatGPT 后，提示词工程（Prompt Engineering）本身被当作一种技术路线而提出。提示词工程主要关注提示词开发与优化，帮助用户将大语言模型用于各场景和研究领域。研究人员可利用提示工程来提升大语言模型处理复杂任务场景的能力，如问答和算术推理能力。

对于接入 LLM 的业务研发而言，他可能本身不具备很强的提示词工程能力；甚至提示词的优化本身也取决于模型的迭代更新。因此对于解决特定领域的业务场景，AI 工程师往往会基于最优模型写出最精准的提示词，通过 AI 网关的提示词模版接口发布。业务提交简单 JSON KV 对后，渲染出最有效的完整提示词，LLM 基于有效提示词输出最精确的结果。

11.5 模型上下文协议（MODEL_CONTEXT_PROTOCOL）

MCP (Model Context Protocol，模型上下文协议) 是由 Anthropic 在 2024 年底推出的一种开放协议，旨在让大型语言模型（LLM）能够以标准化的方式连接到外部数据源和工具。该协议抽象并标准化了 Resources、Prompts、Tools 等资源及其接入方式，允许 LLM Client 应用以一致的方式连接到各种数据源和工具，如文件、数据库、API 等。

配置转发到注册中心的 MCP 服务：

- path: /example-mcp/*
  protocol: HTTP
  timeout: 300s
  middlewares:
  - name: v1_mcp_server
    options:
      '@type': type.googleapis.com/infra.gateway.middleware.llm.v1.contrib.MCPServerConfig
      proxy:
        name: example-mcp
        upstreams:
        - url: 'discovery://infra.example.example-mcp'
- path: /example-mcp/*
  protocol: HTTP
  timeout: 300s
  middlewares:
  - name: v1_mcp_server
    options:
      '@type': type.googleapis.com/infra.gateway.middleware.llm.v1.contrib.MCPServerConfig
      proxy:
        name: example-mcp
        upstreams:
        - url: 'discovery://infra.example.example-mcp'

12、MCP市场与API接入

MCP 市场其实就是一个公司内部的资源共享和协作平台。简单来说，它可以看作是企业内的小型“App Store”，专门用来提供各种服务和资源的接入入口。可以让业务通过这个平台轻松获取、整合、使用这些资源，使业务对接更加地简单。

用户可以把自己的 MCP 服务快速发布到市场上，并且接入到 MCP Gateway 后即可使用。

当前的 MCP 协议中主要有两个端点：

1）/sse：是一个 Events 长连接通知协议，用于实时通知资源信息的变更；
2）/message：用于 JSONRPC 通信端点，能够以 JSONRPC 方式进行通信交互。

而我们在 MCP Gateway 中，我们在企业内部将通过统一的域名进行提供业务接入，并且进行管理每一个 MCP服务的接口，例如：https://mcp.example.com/logging-mcp。

同时在 MCP服务中，需要使用相同的根路径 /logging-mcp，因为在 MCP 协议中，会先连接到 /sse 端点，再返回对应的 /message 端点信息，所以请求路径需要保持跟网关一致。

13、本文小结

AI 网关通过统一接入、鉴权、配额管理和模型调度支持，为大模型提供了高效、安全、定制的连接能力。同时，支持了 OpenAI 协议、提示词模板和 MCP 市场等功能，进一步扩展了 AI 技术在企业中的应用场景，为业务接入和资源整合提供了极高的便利性。

[2] SSE技术详解：一种全新的HTML5服务器推送事件技术

[3] 网页端IM通信技术快速入门：短轮询、长轮询、SSE、WebSocket

[4] 搞懂现代Web端即时通讯技术一文就够：WebSocket、socket.io、SSE

[5] 全民AI时代，大模型客户端和服务端的实时通信到底用什么协议？

（本文已同步发布于：http://www.52im.net/thread-4831-1-1.html）

posted @ 2025-05-22 14:08 Jack Jiang 阅读(62) | 评论 (0) | 编辑收藏

小红书APP的全新鸿蒙NEXT端性能优化技术实践

本文来自QCon全球软件开发大会王劲鹏的技术分享，下文进行了排版优化和修订。

1、引言

性能和体验在 iOS / Android 双端场景下已经是一个较为成熟的话题，但随着鸿蒙 OS 的发展，端侧开发者需要更多的关注多端场景的差异性。

本次分享的主题是小红书在鸿蒙平台上的工程实践，主要聚焦于性能优化和探索。（* PPT讲稿原文下载：《小红书鸿蒙OS下的性能优化探索与实践(PPT)[附件下载]》）

先介绍一下自己的背景。之前一直从事大前端领域的工作，主要专注于跨端和容器化方案。也曾手写过一个跨端框架，名为 Doric，它可以对标 React Native、Vue Native 和 Flutter 等。Doric 框架在落地时表现良好，还支持了一些自研的 3D 引擎方案。除此之外，我还有播放器内核研发经验，以及大前端常规体系建设和 CI/CD 流水线的工程经验。未来，我将持续关注大前端的演进，尤其是鸿蒙这样的多端和跨端平台。

从 2023 年开始，鸿蒙的优势愈发明显，已经成为可与 iOS、安卓媲美的第三大移动操作系统。从一些抖音视频中也可以看出，鸿蒙在流畅性方面甚至在某些层面上超过了 iOS。

今天的分享内容分为四个部分：

1）介绍整个历程和背景；
2）介绍鸿蒙 OS 的相关能力和小红书在该平台上的优化实践；
3）通过鸿蒙 OS 提供的性能验证工具，展示小红书在鸿蒙平台上的性能优化验证方法、优化后的性能提升以及具体的收益和结果；
4）总结和展望。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4821-1-1.html）

2、内容分享和整理

分享者：王劲鹏，内容审校和编辑：Kitty。

王劲鹏：小红书鸿蒙工程师。目前主要负责小红书鸿蒙版的研发和工程建设，曾从事过大前端架构设计、研发效能等方向的工作，在终端架构演进、性能优化以及跨端容器和动态化等方面具备长期实践及深厚经验，持续关注大前端技术体系，鸿蒙以及多端的演进。

3、版本历程和开发背景

3.1 小红书迭代历程

从 2023 年年中开始，鸿蒙的“千帆计划”正式启动，并很快升级为“鸿飞计划”。小红书作为 7 家头部合作商之一，率先支持了鸿蒙，并于 2023 年 11 月中旬上线了一个基础版的 beta 版本 APP。这个版本主要包含笔记浏览和视频笔记浏览两大功能，以及一些简单的个人设置。当时，小红书的动作非常迅速，可以说是头部应用厂商中对华为支持最为积极的品牌之一。

在整个鸿飞计划中，我们规划了三个核心里程碑：除了 2023 年 11 月的 beta 版本外，还包括 2024 年 6 月的 HDC 版本和 2024 年 9 月的商用版本。HDC 版本主要是针对华为正式宣发鸿蒙 3（HarmonyOS Next）开发者测试的情况。在 HDC 版本中，我们上线了许多小红书特有的存量功能，包括视频拍摄、图文拍摄以及多设备协同等创新特性。而到了 2024 年 9 月的商用版本交付时，小红书的核心功能已经基本与主端对齐。考虑到鸿蒙的开发周期仅有一年，小红书的鸿蒙 APP 在这一年中要对齐开发了十年甚至十几年的安卓和 iOS 版本，难度和压力都非常巨大。

到 2024 年 9 月，除了对齐双端的所有功能外，我们还开发了许多其他功能，包括华为支持的创新特性，例如智能拖拽——用户可以将图片拖拽到中转站或小艺等场景。此外，商用版本还支持了用户呼声较高的 HDR 或 Moonlight Photo 拍摄能力。

3.2 纯血鸿蒙与安卓的区别

我从几个维度来对比一下纯血鸿蒙和安卓 OS 的主要区别。

内核架构纯血鸿蒙的本质是微内核，而安卓是基于 Linux 宏内核。微内核只提供基础的内存和文件管理能力，驱动和其他系统能力都在 OS 之外。这样做的好处是系统稳定性极高，即使应用崩溃，也不会导致整个系统崩溃（system crash）。而在 Linux 宏内核中，应用的不当行为可能会直接导致系统崩溃。

多设备适配鸿蒙目前支持多种设备类型：包括 Mate 60 Pro 这样的直板手机、Mate X5 或非凡大师 XT 这样的双折叠和三折叠手机、平板电脑、车机，甚至华为正在研发的鸿蒙 PC。鸿蒙真正实现了类似 iOS 的多端整合能力，通过一套代码实现多端部署。其工程体系和架构支持单 HAP（Harmony Ability Package）多 HSP（Harmony Service Package）模块，指令集适配了 ARM64 等多种架构，开发者只需根据设备尺寸适配 UI 展示即可。例如，在 2024 年 9 月的华为全场景设备发布会上，余承东展示了小红书在从直板机到双折叠、三折叠设备上的适配能力，完全实现了响应式编程，不同设备形态下有不同的浏览体验。

开发工具和编程模型鸿蒙的开发工具和编程模型与安卓差异较大。鸿蒙更类似于 Flutter 的嵌套型容器布局，而不是安卓那种面向对象的开发方式。在语言层面，鸿蒙完全封装了底层逻辑，采用类似前端 Flux 单向数据流模式，通过数据变更驱动 UI 刷新。这种模式类似于前端 Redux 或 MobX 框架中的 state 管理。

从 2024 年 10 月 8 日公测开始，鸿蒙的应用生态正在逐渐繁荣。不过，目前像微信这样的应用还处于抢先体验阶段。相比之下，安卓的生态已经相对成熟。鸿蒙的最终目标是打造全场景智能设备生态，涵盖所有终端设备，以及基于 OpenHarmony 内核开发的物联网终端。它还支持多种芯片体系，例如瑞芯微 RK3568 等。

3.3 小红书鸿蒙应用架构层级

小红书经过一年的迭代，其整体应用架构已经基本成熟。目前，整体代码量接近 200 万行，达到了一个较高的复杂度。在一般成熟的 APP 架构中，通常会包含一些基础底层能力，例如网络、磁盘存储、埋点体系、APM（应用性能管理）系统，以及一些通用组件和能力。对于鸿蒙平台，小红书还具备一些特殊的公共通用能力。

我们开发了一个“一多框架”，这是一个支持一套代码多端部署的具体框架体系。通过这个框架，我们实现了多设备的断点控制功能。用户可以根据设备的尺寸和类型进行适配，因为华为设备支持多端投屏。例如，用户可以在手机上浏览小红书，然后将内容投屏到车机上。比如用户购买了一辆问界汽车，可以在车内通过车机继续浏览手机上的小红书内容，这种场景在驾驶时尤其有用。

除了底层框架，对于上层业务，小红书还有一套自研的组件库方案，这套组件库承载了上层业务的多种功能，包括图文笔记、视频笔记浏览，以及一些 Hybrid 容器能力。小红书本质上在跨端开发中仍然使用了 React Native（RN）和类 Web 技术。RN 引擎由华为内部合作提供，采用了自研的 ohos 方案，用于解决 React Native 的 bundle 和 JS 加载以及渲染问题。此外，还包括产品定制层，这里涵盖了所有相关的设备适配内容。

3.4 性能优化与实践

目前，安卓和 iOS 在性能优化方面已经相当成熟，包括如何分析性能热点问题、有哪些工具以及最佳实践等。然而，对于鸿蒙来说，它是一个全新的系统。直到 2024 年年中，鸿蒙的稳定性和流畅性都还存在一些问题。这里重点讲述小红书在 2024 年与华为一起进行了哪些实践，以提升应用的性能和用户体验。

我们定义了一个性能指标场景。这个指标体系是小红书与华为共同探讨的结果，因为华为有一个性能工厂，它对每个应用的评级都有一个 S 标标准。小红书与华为一起确定了针对小红书场景需要观测的具体指标。性能优化的核心是慢函数指标，它主要包含两部分：过程时长和应用体验的流畅性。

过程时长主要包含以下三点：

1）冷启动时长：这是用户最关心的指标之一，即从点击应用图标到应用完成动画并展示第一帧的时间。对于多数应用，首页通常有缓存机制。例如，小红书会缓存用户上次刷新的笔记，淘宝会缓存用户上次浏览的商品内容；
2）场景完成时长：指完成某个特定场景所需的时间；
3）应用响应时长：指用户操作界面后，界面真正发生变化的时间，即响应时延。

流畅性方面，最基础的观测指标是平均 FPS（帧率），包括丢帧数、最大连续丢帧数、丢帧卡顿次数以及卡顿率。卡顿率可以通过量化计算得出：当一个场景中出现丢帧时，丢帧的时长与场景总时长的比值即为卡顿率，它是一个小于 1 的百分比数值。

3.5 OS 能力 & 优化实践

首先，针对 IO 场景，我们进行了相应的优化。

鸿蒙 OS 的系统能力主要分为以下三个方面：

1）并行化能力鸿蒙 OS 提供了两种并行化能力：Worker 和 TaskPool。Worker 类似于传统的线程模型，每个 Worker 都有自己的内存空间和执行单元，支持通过消息（message）进行通信。TaskPool 则类似于协程或线程池，能够动态管理线程数量，支持标记为 @concurrent 的函数直接在任务池中调度和运行。这两种机制都支持线程间隔离，内存不共享；
2）多线程通信和数据传输在多线程通信方面，鸿蒙 OS 支持序列化数据传输和基于消息（message）的通信机制。此外，还引入了事件发射器（Emitter）用于系统事件的发布和订阅。这种机制允许线程间通过消息传递来实现复杂的交互逻辑；
3）同步转异步机制鸿蒙 OS 支持基于 Promise 的异步编程模型，包括 async 和 await 语法，以及 then 和 catch 方法。这种机制能够有效提升应用的响应性和用户体验。

4、并行化能力

在并行化能力方面，鸿蒙 OS 提供了两套基础实现方式。开发者可以通过 RTS（运行时系统）实现并行化，也可以通过底层库（如 C++ 标准库中的）实现。不过，如果完全依赖底层库，可能会导致开发效率下降。为了满足业务需求，鸿蒙 OS 在年初引入了 Worker 和 TaskPool 能力。Worker 类似于传统的线程模型，每个 Worker 都有独立的内存空间和执行单元，支持通过消息进行通信。消息可以包含可序列化的数据，也可以通过指针直接迁移数据。TaskPool 则类似于线程池，能够动态管理线程数量，支持标记为 @concurrent 的函数直接在任务池中调度和运行。与安卓平台的线程池不同，鸿蒙 OS 的 TaskPool 会根据硬件条件和任务负载动态调整线程数量。这种机制避免了安卓平台中因线程池数量过多而导致的系统资源消耗问题。

接下来我们对比鸿蒙 OS 的 Worker 并行化能力和安卓端的相关特性。从多个维度来看，Worker 本质上不推荐手动创建，而是通过系统配置 build-provider.json 绑定 ETS 文件来实现创建。这一点与安卓端并无明显差异，安卓端可以通过 THREAD 等方式启动线程。

在鸿蒙 OS 5.0 以下版本（如 4.2 版本）中，主要运行的仍然是安卓系统。这种情况下，安卓线程数量存在上限，这对应用开发者来说是一个挑战。如果 SDK 集成过多，线程数可能超标，进而导致应用被系统强制终止，或出现业务场景异常崩溃等稳定性问题。

数据传输方面：鸿蒙 OS 为了优化 Worker 的性能和负载，对 Worker 的数量和单个 Worker 的传输上限进行了限制。鸿蒙 Worker 的单个传输上限类似于安卓中的 Binder 机制，也存在类似的传输限制。不过，安卓线程通常没有严格限制，因为线程本质上是一个内存拷贝过程，除非开发者通过指针等方式自定义线程间数据传输。

在传输格式上：鸿蒙 OS 支持通过 Sendable 接口进行数据传输。Sendable 是一种注解方式定义的数据结构，具有传染性，即如果一个类被标记为 Sendable，其关联属性也必须是 Sendable 类型。鸿蒙 OS 支持基础数据类型（如 number、string）和集合类型作为 Sendable 传输的内容。对于跨模块调用，鸿蒙 OS 不允许 Worker 跨 HAP 或跨 HSP 调用。相比之下，安卓应用通常运行在一个或多个 Dex 文件中，允许跨 Dex 或跨模块的线程间调用。

TaskPool 类似于双端的协程概念，是一种轻量级线程，仅存储函数。不过，TaskPool 与协程有所不同，它独立于任务维度，且任务执行时长有限制（超过 3 分钟会被系统自动回收）。安卓平台可以通过 ASM 插桩技术对线程的创建和执行进行监控和优化，但轻量级线程或协程的实现通常依赖于线程池或协程机制。

TaskPool 中的任务默认支持数据转移（transfer），不支持拷贝。此外，TaskGroup 不支持 SDK 初始化包的加载。某些同学习惯在异步线程中触发 SDK 的行为，在鸿蒙 OS 上可能会因 TaskPool 生命周期结束而导致变量被释放。

关于并行化数据传输的 Sendable 概念：Sendable 通过系统提供的 SharedHeap（共享堆）实现传输。共享堆与本地堆（local Heap）的区别在于，共享堆支持 Sendable 化数据的传输，而本地堆则需要序列化。共享堆的管理和控制耗费了华为专家大量时间和精力，其中还涉及复杂的异步锁（async lock）机制。在 RTS 并发实例期间（包括 Worker、TaskPool 等），数据可以通过 Sendable 传递，但 Worker 需要使用单独的 API。TaskPool 则完全支持 Sendable 的直接传输。这种异步锁机制允许在 TaskPool 或 Worker 中锁定其他任务中的某些函数，实现线程间的同步，类似于安卓中的 synchronized 或其他锁机制。

5、小红书典型并行化场景

小红书在一些典型化场景中已经实现了并行化处理。例如，网络请求是一个典型的耗时操作，因为请求过程中涉及验签和安全能力的处理，这些操作如果在主线程中同步完成，可能会导致应用掉帧。当用户滑动时，掉帧现象会非常明显，这通常是由于大量计算引起的。为了解决这一问题，我们采用了 Worker 化的方式，将这些操作移到 Worker 线程中，从而避免主线程的卡顿。

在进行埋点时，可能会涉及数据库的 IO 操作，这些操作也不建议在主线程中执行。通过将这些操作放到 Worker 线程中，可以有效避免对主线程的影响。

针对双列布局中的图片和资源预加载，我们采用华为自研的 RCP 网络解决方案（类似于 HTTP），通过 Worker 线程在远端进行下载，并在完成后将结果返回到主线程。此外，TaskPool 的应用场景也非常广泛，例如文件上传、多媒体操作以及启动任务的编排等。TaskPool 的优势在于轻量化，避免了线程上下文切换带来的不必要耗时。

关于冷启动和首刷场景的优化。这部分主要包括两个方面：模块的懒加载和动态组件的复用池。懒加载是应用开发中常见的优化手段，类似于安卓端的 class order 机制。当应用不需要某个类时，可以延迟加载该类，直到真正需要使用时才加载。这种方式可以显著提高冷启动阶段的代码加载效率，从而大幅降低冷启动时长。

动态组件和组件复用池则是为了解决 UI 组件重复创建的问题。在应用中，可能会有多种相同类型的 UI 组件（例如小红书中的笔记组件）。为了避免重复创建带来的开销，我们希望在运行时尽量复用已有的组件，而不是频繁地创建和销毁。

6、类前端视角下的模块懒加载

我们通过特定的分析工具对懒加载进行了深入分析。如图所示，我们能够识别出启动过程中加载的各种模块，包括 RNOH（React Native on Harmony）、Web engine（网页引擎）、Red Player（播放器）等组件。这些模块的加载过程涉及到多个.so 文件，即共享对象文件。

通过自上而下的分析方法，我们可以清晰地看到每个模块加载的具体耗时。进一步分析这些.so 文件与 RTS（运行时系统）的关联，以及它们所引入的 Napi 的 TS 文件。我们进行了懒加载潜在对象的分析，发现许多 RTS 实际上并不需要的类文件已经被加载。这是因为开发者在编写代码时，可能并未充分考虑到导入一个类或方法对应用启动延迟的影响。

为了优化这一过程，我们的目标是减少字节码中需要加载的类文件数量，从而加快应用的冷启动速度。华为提供的编译器能够将 RTS 编译成 Ark bytecode（方舟字节码），这是一种高效的字节码格式。通过减少需要加载的类文件数量，我们可以显著提高应用的启动速度。

华为还提供了一种懒加载的导入方式，只有在真正需要使用某个类时，它才会被加载。这种懒加载机制有助于减少应用启动时的资源消耗。这引发了一个问题：为什么华为不默认采用全懒加载方式，即只有在使用时才加载类文件呢？我已经将这个问题反馈给华为，并且系统侧可能会考虑在未来的版本中默认采用懒加载方式，同时仍然允许用户手动选择非懒加载的方式进行类文件的加载。

7、动态组件

在小红书的首页场景中，笔记卡组件在多个场景中被复用。为了避免重复创建 UI 导致的性能消耗，我们采用了动态组件的概念。动态组件的核心原理是利用占位符来延迟组件的创建，这与 Android 开发中使用 Stub 模式的概念相似。在这种模式下，可以使用一个代理对象（stub）来代表尚未初始化的组件，从而延迟组件的创建过程。当真正需要渲染组件时，再将渲染内容填充进去，从而避免每次调用构建函数（如 build）时的耗时。

占位逻辑通过系统的 API 实现，涉及到 NodeContainer 和 NodeController 的绑定关系。Container 和 Controller 一一映射，由 NodeCore 进行管理。Container 仅管理当前展现的内存部分，使用完毕后需要将其放回池中进行回收和再利用。以冷启动首刷为例，在启动阶段可以先获取磁盘上的笔记内容，然后在 BuilderNode 中预先创建多个 Image 组件。这样，在等待网络或推荐接口响应时，Image 组件已经创建完毕，从而在首页刷新时可以立即使用这些组件，这对于提高首刷非常有益。

对于组件复用池，当动态组件不再使用时，需要将其返回到组件池中。对于自定义组件，通过 NoteContainer 占位方式，由 NodeController 进行管理。在需要创建子组件时，先在 NodePool 中查找，如果找不到，则创建新组件；如果找到，则尝试复用。流程图展示了从 Container 装载 NodeItem 开始，通过 NodePool 查找，如果找到则进行条件判断和复用。

组件的新建和复用过程中，如果找到对应的 NodeItem，则调用 build 方法并更新自定义组件的状态，完成复用。如果有对应的 NodeItem，可以直接通过 update 函数更新内部状态并刷新 UI。但要注意，update 方法可能会因状态变量过于复杂而导致更新延迟，出现图像残影。因此，需要拆分 state，使其足够小，以确保状态变更到通知 UI 的时间缩短，消除残影。

我们的策略是优先在 NodePool（节点池）中查找可用的 NodeItem（节点项）。如果 NodePool 中存在可用的 NodeItem，我们就直接使用它，并通过 getNode 方法进行 item 绑定，随后更新其状态以实现复用。如果 NodePool 中没有找到对应的 NodeItem，那么我们将通过 makeNode 方法调用 build 函数来创建新的节点项。

完成组件的复用后，我们需要将这些组件返回到缓存池中，以便在未来可以再次使用。这个过程涉及到 NodeContainer（节点容器）和 NodeController（节点控制器）的销毁，并将 NodeItem 重新放回 NodePool 中。为了更有效地管理缓存，业务层可以利用 LRU（最近最少使用）算法，或者鸿蒙系统提供的 LRUCache 和 LiUHashMap 等数据结构，来自定义缓存的大小，从而优化组件的复用和缓存策略。

8、滑动类场景

在小红书应用中，滑动类场景非常普遍，包括推荐页的子频道、个人页中的收藏点赞以及用户自己发布的笔记，还有搜索结果页中的搜索结果和用户商品等，这些都是双列滑动场景。这些双列滑动场景占据了小红书用户体验的 90% 到 95%，因此，滑动体验的流畅性对于用户的整体体验至关重要。

为了提升滑动场景的流畅性，小红书采用了 RCP 框架来优化网络资源的获取。RCP 是华为提供的一个系统组件能力，主要解决网络资源获取效率问题。通过 RCP，开发者可以在需要时发起网络请求，并自定义资源的写入地址，如文件或 ArrayBuffer。RCP 负责高效地将资源写入指定位置，而在不需要时，可以取消 RCP 请求，从而优化资源管理。

RCP 的核心能力在于能够取消请求，并对弱网场景进行了优化，其建联过程优于 HTTP 1.1 或 2.0。基于 RCP，小红书还应用了华为俄研所提供的 Prefetch 方案。Prefetch 方案在瀑布流组件的可见区变更时，通过 worker 线程（如 prefetched worker）启动资源获取，当不可见时关闭，从而优化快速滑动场景，减少不必要的带宽消耗。

在快速滑动过程中，有些 item 可能短暂消失，对于双端场景，网络请求可能已经发出且在途，无法取消，导致带宽浪费。Prefetch 和 RCP 结合的方式可以优化这种快滑场景，防止真正想要看的内容出现白块。Prefetched worker 线程管理多个 RCP 请求，每个请求都有完整的生命周期。当通过 RCP 请求获取到所需资源时，会通知主线程，主线程根据地址加载资源到 Image 组件或占位符 RQI 组件中。

在小红书的开发过程中，我们遇到了一些性能热点问题，这些问题大多是通过 Code Linter（代码检查工具）检测出来的。由于开发节奏快，开发者在编写代码时可能难以关注到性能问题，因此需要 CI（持续集成）检查工具来辅助检查。

常见的性能热点包括：

1）在列表场景中频繁使用的 LadyForEach 组件，需要指定 key 以实现列表复用。如果开发者忘记指定 key，Code Linter 会报错提示；

2）在 onClick 或 onVisible 等函数中编写空 callback（回调函数）。当这些空 callback 积累到一定数量（如几百个或上千个）时，可能会严重拖慢应用性能。Code Linter 可以扫描出这类问题；

3）未使用 TaskPool 处理网络资源。例如，Image Bitmap 直接传递 URL 进行同步加载，当网络阻塞时会导致 UI 线程卡顿；

4）复杂的 ETS 组件在列表场景下未实现重用。未设置重用的 ETS 组件在列表滚动时需要重新构建，非常耗时。组件嵌套层级过深也会导致性能问题。在安卓端，布局检查器建议容器嵌套不超过四层；

5）使用 JSON.stringify 进行对象序列化。JSON.stringify 有一定耗时，尤其在处理 100KB 左右的数据时，可能需要 10 毫秒左右。Code Linter 会提示这部分性能问题，但是否需要转异步线程需要开发者自行判断；

6）调用 Image 的 syncLoad（同步加载）。在某些场景下，如转场动画，需要同步加载 image 以保证连贯性。但如果 image 是非磁盘资源（如网络资源），会导致卡帧。Code Linter 可以扫描出这类问题；

7）关于编译器的优化。ETS 组件应避免嵌套过深。如果嵌套过深，可以将每层函数通过系统的 builder param 或 builder 函数转换。使用 @builder 注解标识的函数会在编译期间与 ETS 代码整合，从而提高编译器优化效果。

Code Linter 支持全量扫描和基于 Git DIFF 的增量扫描，但目前华为的 Code Linter 还不能与 Git Prehook 关联，导致无法在流水线上自动检查。虽然 CI 检查阶段已有 Code Linter，但本地代码提交阶段仍需手动运行脚本，无法实现自动检查。我们正在催促华为解决这一问题。

9、UI 重载场景分帧方案

在处理 UI 重载场景时，我们采用了一种称为分帧方案的方法。分帧这个术语的含义是，当应用在一帧内无法完成所有绘制工作，或者在多帧内都无法完成时，会导致屏幕卡顿现象。尽管用户可以看到画面，但却无法进行滑动或操作。在这种情况下，分帧方案就显得尤为合适。虽然分帧方案可能看起来不是最优雅的解决办法，但它确实能够有效地解决性能问题，使应用性能达到预期标准。分帧方案虽然看似是一种应急措施，但它能够帮助应用性能达标。

分帧方案的流程大致如下：假设我们有数据 a、b、c 需要渲染，未采用分帧方案前，数据 a、b、c 会同时到达并触发状态变更，进而驱动整个 UI 进行刷新。这会导致在一帧内需要绘制大量 UI 组件，从而影响应用性能。为了解决这个问题，我们采用分帧方案，将数据 a、b、c 拆分开，分别在不同的帧中进行渲染。例如，数据 a 在第一帧中渲染完成后，通过调用宏观指令让其进入下一阶段，然后在下一帧中更新数据 b，依此类推。

在小红书的图文笔记场景中，分帧方案得到了应用。当用户在首页的双列场景中点击一篇笔记进入笔记详情页时，这个过程涉及到许多组件的加载。我们可以将这些组件拆分成不同的帧，例如帧 a、帧 b 和帧 c。对于用户而言，他们通常希望在第一时间看到整个大屏的画面，因此我们会优先在帧 a 中展示大图。而在帧 b 和帧 c 中，我们再处理顶部导航栏或底部交互区等内容。通过这种分帧策略，我们能够确保用户在第一时间看到最关键的内容，同时避免了因为一次性加载过多组件而导致的性能问题。

10、鸿蒙NEXT调优工具

传统的主观工具对于鸿蒙 OS 的性能分析仍然适用。例如，抖音和小红书都通过竞品分析来进行主观测评。这种能力主要是通过录屏来展示整个流程的耗时和时长，特别适合评估冷启动完成时延和转场过程的性能。通过录屏，我们可以逐帧查看用户从点击开始到结束的帧数和真实时长，以此来衡量整个过程的持续时间。

10.1 鸿蒙性能分析工具：IDE Profiler

除了主观工具，我们还可以使用 IDE 提供的性能分析工具，如 Profiler，来分析慢函数。由于 ArkTS 编程语言框架主要通过 RTS 和 NAPI（原生应用接口）进行关联，因此需要能够查看 ArkTS 和 NAPI 的整个堆栈层级。这与安卓有所不同，因为当 Java 通过 Java Native API 与原生代码交互时，堆栈并不那么容易查看。

在小红书的性能分析中，我们展示了一个整体线程分析的例子。在左侧，可以看到小红书的主线程（如 com 点开头的线程）、Daemon 线程、Worker 线程以及 FFRT 线程。FFRT 是一种运行函数流的线程，可以执行 TaskPool 上的函数。在下图右侧，我们可以看到在 RTS 环境下的分析结果，其中顶部显示了 NAPI 调用，底部则是一些 C++ 函数。整个调用栈和它们的执行时长是通过一种自上而下的视图来展示的。利用这种视图，我们可以精确地识别出哪些慢函数是造成界面卡顿的原因。

10.2 性能场景测试工具：DevEco Testing

DevEco Testing 是一个性能测试工具，它的功能非常全面，性能测试只是其中的一部分。除了性能测试，它还支持多种测试场景，包括 debug testing。在 debug testing 场景中，用户可以自定义业务场景，监测 CPU 的耗时和负载、GPU 的耗时和负载、设备发热情况以及功耗等问题。

使用 DevEco Testing 进行性能测试的过程如下：首先定义测试场景，然后捕获主帧数据。一旦开始捕获，就可以观测到 FPS（帧率）、GPU 负载以及整体功耗等数据。完成性能数据捕获后，工具会生成一份报告，为用户提供了一个完整的场景分析。不过，目前场景定义还缺乏脚本化能力，需要人工操作辅助。未来，我们期望能够实现场景定义的脚本化配置，类似于自动化测试。这样，就可以通过自动化工具，实现更高效的测试流程。

11、小结与展望

在对性能场景进行优化后，我们可以看到显著的收益。在实验室环境下的测试显示，冷启动时间可以降低 50%，响应时延可以低于 100 毫秒，完成时延则保持与双端持平或更优。在流畅性方面，在多场景和重载场景下均实现了 0 丢帧的成果。需要注意的是，这里的测试是在非重载模式下进行的，即没有同时运行多个资源密集型应用，如《王者荣耀》或《和平精英》等。在这种条件下，我们的核心场景，如冷启动、搜索和个人页等，都能够与双端完全对齐。

展望未来，有几个方向：

1）首先：我们希望能够在全场景下实现组件复用，以最大程度地实现 UI 复用。这样可以在多个业务之间的转场或 UI 创建过程中，将不必要的 UI 创建和消耗降到最低。

2）其次：我们正在考虑代码延迟加载的 lazy 机制。华为内部可能将其作为通用的解决方案，但在实施过程中我们发现了许多问题，例如全 lazy 加载可能会影响第三方 SDK，如支付宝等，因为它们可能进行了额外的二进制优化，导致加载失败或无法响应。因此，我们期望通过代码延迟加载来实现持续治理，但目前它可能还不适合全场景的 lazy import。

3）最后：我们关注防劣化问题，即在每个版本发布时，我们不希望性能指标出现劣化。我们希望能够在开发阶段就定义劣化指标和具体数据，以防止应用劣化。这部分可能需要借助 DevEco Testing 和主观测评的方式来实现。包括我们关注的指标，例如冷启动和流畅性等，未来可能会纳入防劣化场景。目前，我们的 CI 环节或 RC 环节，包括流水线的性能管控和代码 CR 机制，都能够规避这类问题。