<a id="Header1_HeaderTitle" class="headermaintitle" href="http://www.blogjava.net/jb2011/">Jack Jiang

微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

9、微信团队的其它精华文章

微信后台基于时间序的海量数据冷热分级架构设计实践

微信后台团队：微信后台异步消息队列的优化升级实践分享

微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案

一份微信后台技术架构的总结性笔记

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

微信团队分享：极致优化，iOS版微信编译速度3倍提升的实践总结

IM“扫一扫”功能很好做？看看微信“扫一扫识物”的完整技术实现

微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

微信团队分享：微信直播聊天室单房间1500万在线的消息架构演进之路

企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

IM全文检索技术专题(四)：微信iOS端的最新全文检索技术优化实践

微信团队分享：微信后台在海量并发请求下是如何做到不崩溃的

微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

企业微信针对百万级组织架构的客户端性能优化实践

揭秘企业微信是如何支持超大规模IM组织架构的——技术解读四维关系链

微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

大型IM工程重构实践：企业微信Android端的重构之路

IM技术干货：假如你来设计微信的群聊，你该怎么设计？

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

posted @ 2025-06-20 15:26 Jack Jiang 阅读(52) | 评论 (0) | 编辑收藏

微信读书十周年，后台架构的技术演进和实践总结

本文由腾讯技术团队罗国佳分享，原题“微信读书后台架构演进之路”，下文有修订和重新排版。

1、前言

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

2、整体架构设计

架构上分解为典型的接入层、逻辑层和存储层：

1）接入层：按业务划分为多个CGI服务，实现了资源隔离。在CGI层面还实现了如路由、频控、接入层缓存、长连接等。

具体的业务逻辑不再赘述，下面简单介绍下微信读书近几年在后台架构上的一些演进。

3、异构服务间调用：RPC框架

在这个阶段，我们开发了WRMesh框架，采用Sidecar+Business的方式解决这个问题。

Sidecar专注于处理网络层的逻辑，和Business业务层分开为两个进程，由WRMesh脚手架生成代码，上层业务无需感知。

因此：Business进程可以由任意语言任意框架开发，只要遵循Sidecar的通信协议，只需要薄薄的一层网络协议转换即可接入到Hikit的服务治理框架中。

如果要一刀切把所有后台服务迁移至P6N，将会面临几个问题：

1）框架代码需要重新适配，开发环境和现网环境都有巨大的改造成本。

3）存储模块的迁移成本和风险巨大，如果不迁移存储模块只迁移了逻辑模块，那势必又会存在2中的问题，这个过程很难收尾。

考虑到人力成本及投入性价比，我们最终采用了折衷的方案：

1）一方面：我们保留了依赖于企微的运维环境，保障绝大多数现成服务的稳定运行。

目前，微信读书已顺利接入如WQueue、FKVOL、SimOL、TFCC等众多微信的能力。

4、书籍数据中台的演进

4.1 技术背景

书籍是微信读书的内容根基，书籍数量的多少、书籍质量的好坏，很大程度上决定了用户是否选择微信读书作为阅读App。

以EPUB为例，从内容产出到上架到微信读书，大致经历以下阶段：

1）排版审校：这个阶段多为人工或者部分机器自动化介入。

4.2 建设数据中台

回到最初的目标，我们希望把更多的书籍管理能力开放出来，对上层屏蔽电子书底层的后台逻辑，让运营同学可以更专注于书籍的管理。

因此，我们构建了如下书籍数据中台：

后台服务拆分开StoreAPI和StoreSvr：

1）StoreAPI：提供书籍管理的接口，由运营同学搭建的内容平台与StoreAPI交互，完成书籍的管理工作；

2）StoreSvr：一方面接受StoreAPI的请求，更新书籍数据，另一方面为现网用户提供高可用的服务。

StoreAPI提供了如下接口能力：

1）书籍id分配、上下架；
2）书籍信息创建、修改；
3）书籍内容修改、连载更新、订阅推送；
4）运营策略管理。

但随着用户数据越来越多，书籍替换频率越来越频繁，修复不及时或者失败的问题逐渐暴露出来：

1）修复量大导致修复不及时。过去的修复服务虽然是多机部署，但处理单本书仍只是集中在一台机器上，单机性能有限；
2）修复任务缺乏落盘管理，修复服务一旦重启，任务丢失。

针对上面的问题：我们重新设计了修复服务，目标是最大限度缩短修复时间，并且让整个过程是可靠的。

目前，微信读书已通过内容平台完成了多家版权方自签，并在探索自出品等内容创作新形式。

5、账号系统的高可用性重构

为了彻底解决这个历史包袱，我们在2024下定决心对其进行重构。重构就意味着要抛弃现有MySQL这套臃肿的存储方案，把数据迁移到新的存储组件上。

这里涉及到的挑战点如下：

1）账号鉴权服务访问量巨大，迁移过程须尽量不增加系统负担，且必须是在不停机的情况下进行；
2）迁移过程中一旦有数据丢失或者错误，会导致用户资料受损，用户登录态丢失，App无法使用；
3）账号系统还涉及用户id分配和回收逻辑，在切换存储时如何保证数据的一致性，不重复分配号码。

同时，我们为整个迁移过程制定了周密的方案，把每一步进行了分解，且要求每个环节可灰度可回退，同时要做好数据的一致性检查。

在完成数据迁移后，我们还需要对AccountSvr进行重构，抛弃按号段的账号分配、路由、缓存逻辑，以全新的视角设计更简洁的架构。

6、内容召回系统的架构设计

基于微信读书构建RAG召回系统，核心挑战如下：

为此，我们针对微信读书不同的RAG使用场景，设计了如下召回架构：

我们把数据划分成两类：全局公开可搜以及用户个人可搜。

7、写在最后

虽然微信读书已经发展了十个年头，但我们的脚步从未停止。

在日常业务开发之余，我们也从未停止思考如何让系统能走得更远、更稳健，抓住每一个可能的优化点，随时做好准备，迎接下一个精彩的十年。

8、相关资料

[1] 腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面

[2] 快速理解高性能HTTP服务端的负载均衡技术原理

[3] 子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践

[4] 知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

[5] 新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践

[6] 阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史

[7] 阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路

[8] 达达O2O后台架构演进实践：从0到4000高并发请求背后的努力

[9] 优秀后端架构师必会知识：史上最全MySQL大表优化方案总结

[10] 小米技术分享：解密小米抢购系统千万高并发架构的演进和实践

[11] 一篇读懂分布式架构下的负载均衡技术：分类、原理、算法、常见方案等

[12] 通俗易懂：如何设计能支撑百万并发的数据库架构？

[13] 多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了

[14] 从新手到架构师，一篇就够：从100到1000万高并发的架构演进之路

[15] 美团技术分享：深度解密美团的分布式ID生成算法

微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

9、微信团队的其它精华文章

微信后台基于时间序的海量数据冷热分级架构设计实践

微信后台团队：微信后台异步消息队列的优化升级实践分享

微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案

一份微信后台技术架构的总结性笔记

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

微信团队分享：极致优化，iOS版微信编译速度3倍提升的实践总结

IM“扫一扫”功能很好做？看看微信“扫一扫识物”的完整技术实现

微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

微信团队分享：微信直播聊天室单房间1500万在线的消息架构演进之路

企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

IM全文检索技术专题(四)：微信iOS端的最新全文检索技术优化实践

微信团队分享：微信后台在海量并发请求下是如何做到不崩溃的

微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

企业微信针对百万级组织架构的客户端性能优化实践

揭秘企业微信是如何支持超大规模IM组织架构的——技术解读四维关系链

微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

大型IM工程重构实践：企业微信Android端的重构之路

IM技术干货：假如你来设计微信的群聊，你该怎么设计？

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

posted @ 2025-06-20 15:26 Jack Jiang 阅读(50) | 评论 (0) | 编辑收藏

微信读书十周年，后台架构的技术演进和实践总结

本文由腾讯技术团队罗国佳分享，原题“微信读书后台架构演进之路”，下文有修订和重新排版。

1、前言

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

2、整体架构设计

架构上分解为典型的接入层、逻辑层和存储层：

1）接入层：按业务划分为多个CGI服务，实现了资源隔离。在CGI层面还实现了如路由、频控、接入层缓存、长连接等。

具体的业务逻辑不再赘述，下面简单介绍下微信读书近几年在后台架构上的一些演进。

3、异构服务间调用：RPC框架

在这个阶段，我们开发了WRMesh框架，采用Sidecar+Business的方式解决这个问题。

Sidecar专注于处理网络层的逻辑，和Business业务层分开为两个进程，由WRMesh脚手架生成代码，上层业务无需感知。

因此：Business进程可以由任意语言任意框架开发，只要遵循Sidecar的通信协议，只需要薄薄的一层网络协议转换即可接入到Hikit的服务治理框架中。

如果要一刀切把所有后台服务迁移至P6N，将会面临几个问题：

1）框架代码需要重新适配，开发环境和现网环境都有巨大的改造成本。

3）存储模块的迁移成本和风险巨大，如果不迁移存储模块只迁移了逻辑模块，那势必又会存在2中的问题，这个过程很难收尾。

考虑到人力成本及投入性价比，我们最终采用了折衷的方案：

1）一方面：我们保留了依赖于企微的运维环境，保障绝大多数现成服务的稳定运行。

目前，微信读书已顺利接入如WQueue、FKVOL、SimOL、TFCC等众多微信的能力。

4、书籍数据中台的演进

4.1 技术背景

书籍是微信读书的内容根基，书籍数量的多少、书籍质量的好坏，很大程度上决定了用户是否选择微信读书作为阅读App。

以EPUB为例，从内容产出到上架到微信读书，大致经历以下阶段：

1）排版审校：这个阶段多为人工或者部分机器自动化介入。

4.2 建设数据中台

回到最初的目标，我们希望把更多的书籍管理能力开放出来，对上层屏蔽电子书底层的后台逻辑，让运营同学可以更专注于书籍的管理。

因此，我们构建了如下书籍数据中台：

后台服务拆分开StoreAPI和StoreSvr：

1）StoreAPI：提供书籍管理的接口，由运营同学搭建的内容平台与StoreAPI交互，完成书籍的管理工作；

2）StoreSvr：一方面接受StoreAPI的请求，更新书籍数据，另一方面为现网用户提供高可用的服务。

StoreAPI提供了如下接口能力：

1）书籍id分配、上下架；
2）书籍信息创建、修改；
3）书籍内容修改、连载更新、订阅推送；
4）运营策略管理。

但随着用户数据越来越多，书籍替换频率越来越频繁，修复不及时或者失败的问题逐渐暴露出来：

1）修复量大导致修复不及时。过去的修复服务虽然是多机部署，但处理单本书仍只是集中在一台机器上，单机性能有限；
2）修复任务缺乏落盘管理，修复服务一旦重启，任务丢失。

针对上面的问题：我们重新设计了修复服务，目标是最大限度缩短修复时间，并且让整个过程是可靠的。

目前，微信读书已通过内容平台完成了多家版权方自签，并在探索自出品等内容创作新形式。

5、账号系统的高可用性重构

为了彻底解决这个历史包袱，我们在2024下定决心对其进行重构。重构就意味着要抛弃现有MySQL这套臃肿的存储方案，把数据迁移到新的存储组件上。

这里涉及到的挑战点如下：

1）账号鉴权服务访问量巨大，迁移过程须尽量不增加系统负担，且必须是在不停机的情况下进行；
2）迁移过程中一旦有数据丢失或者错误，会导致用户资料受损，用户登录态丢失，App无法使用；
3）账号系统还涉及用户id分配和回收逻辑，在切换存储时如何保证数据的一致性，不重复分配号码。

同时，我们为整个迁移过程制定了周密的方案，把每一步进行了分解，且要求每个环节可灰度可回退，同时要做好数据的一致性检查。

在完成数据迁移后，我们还需要对AccountSvr进行重构，抛弃按号段的账号分配、路由、缓存逻辑，以全新的视角设计更简洁的架构。

6、内容召回系统的架构设计

基于微信读书构建RAG召回系统，核心挑战如下：

为此，我们针对微信读书不同的RAG使用场景，设计了如下召回架构：

我们把数据划分成两类：全局公开可搜以及用户个人可搜。

7、写在最后

虽然微信读书已经发展了十个年头，但我们的脚步从未停止。

在日常业务开发之余，我们也从未停止思考如何让系统能走得更远、更稳健，抓住每一个可能的优化点，随时做好准备，迎接下一个精彩的十年。

8、相关资料

[1] 腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面

[2] 快速理解高性能HTTP服务端的负载均衡技术原理

[3] 子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践

[4] 知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

[5] 新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践

[6] 阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史

[7] 阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路

[8] 达达O2O后台架构演进实践：从0到4000高并发请求背后的努力

[9] 优秀后端架构师必会知识：史上最全MySQL大表优化方案总结

[10] 小米技术分享：解密小米抢购系统千万高并发架构的演进和实践

[11] 一篇读懂分布式架构下的负载均衡技术：分类、原理、算法、常见方案等

[12] 通俗易懂：如何设计能支撑百万并发的数据库架构？

[13] 多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了

[14] 从新手到架构师，一篇就够：从100到1000万高并发的架构演进之路

[15] 美团技术分享：深度解密美团的分布式ID生成算法

微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

9、微信团队的其它精华文章

微信后台基于时间序的海量数据冷热分级架构设计实践

微信后台团队：微信后台异步消息队列的优化升级实践分享

微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案

一份微信后台技术架构的总结性笔记

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

微信团队分享：极致优化，iOS版微信编译速度3倍提升的实践总结

IM“扫一扫”功能很好做？看看微信“扫一扫识物”的完整技术实现

微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

微信团队分享：微信直播聊天室单房间1500万在线的消息架构演进之路

企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

IM全文检索技术专题(四)：微信iOS端的最新全文检索技术优化实践

微信团队分享：微信后台在海量并发请求下是如何做到不崩溃的

微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

企业微信针对百万级组织架构的客户端性能优化实践

揭秘企业微信是如何支持超大规模IM组织架构的——技术解读四维关系链

微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

大型IM工程重构实践：企业微信Android端的重构之路

IM技术干货：假如你来设计微信的群聊，你该怎么设计？

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

（本文已同步发布于：http://www.52im.net/thread-4839-1-1.html）

posted @ 2025-06-20 15:26 Jack Jiang 阅读(54) | 评论 (0) | 编辑收藏

Web网页端即时通讯源码/IM聊天源码RainbowChat-Web

1、基本介绍

RainbowChat-Web是一套基于MobileIMSDK-Web的网页端IM系统。不同于市面上某些开源练手或淘宝售卖的demo级代码，RainbowChat-Web的产品级代码演化自真正运营过的商业产品，其所依赖的通信层核心SDK已在数年内经过大量客户及其辐射的最终用户的使用和验证。RainbowChat-Web同时也是移动端IM应用RainbowChat的姊妹产品。

2、品质说明

❶ 源自真正运营的商业产品：RainbowChat-Web的技术源于真实运营的商业产品。

❷ 它不是个Demo：不同于市面上某些开源或淘宝售卖的demo级代码，RainbowChat-Web的产品级代码演化自真正运营过的商业产品，其所依赖的通信层核心SDK（即MobileIMSDK-Web）已在数年内经过大量客户及其辐射的最终用户的使用和验证。

❸ 简洁、精炼、优化、原生：RainbowChat-Web为了尽可能降低2次开发时的上手门槛、兼容性、可读性、可维护性的难度，坚持不依赖任何前端框架（这些框架通常是指AngularJS、VUE、EmberJS、React等），返璞归真，只使用原生JS+HTML+CSS（再无其它复杂性），极大降低开发者的上手难度、兼容成本，达到最简洁、最精炼、最灵活的目标（简洁、简单、回归本质的东西，才能拥最强的生命力）。

截止目前：RainbowChat-Web努力保证在各主流系统、主流浏览器、不同分辨率屏幕上的体验，包括但不限于：Chrome、Safari、FireFox、Edge、360浏览器、世界之窗浏览器等▼

3、运行演示

❶ 运行截图，详见：《RainbowChat-Web前端功能截图》
❷ 演示视频，详见：《RainbowChat-Web运行演示视频》

4、功能简介

1、支持文本消息、查看语音留言消息(由App产品发送)、图片消息、大文件消息、查看短视频消息(由App产品发送)、名片消息、位置消息、消息表情、快捷消息、消息撤回、消息转发等；
2、支持一对一陌生人聊天模式；
3、支持一对一正式好友聊天模式；
4、支持多对多群聊聊天模式；
5、完善的群组信息管理：建群、退群、解散、转让、邀请、踢人、群公告等；
6、完整的注册、登陆、密码找回等等功能闭环；
7、个人中心功能：改基本信息、改个性签名、改头像、改密码等；
8、支持查看个人相册、个人语音介绍；
9、完整的离线消息/指令拉取机制；
10、完整的历史消息/指令存取机制；
11、完整的好友关系管理：查找好友、发出请求、处理请求、删除好友、好友备注等；
12、以及其它未提及的功能和特性。

5、技术亮点

1）轻量易使用：纯原生JS编写，坚持不依赖任何前端框架（这些框架通常是指AngularJS、VUE、EmberJS、React等）；

2）模块化设计：所有UI模块、数据逻辑均由独立封装的JS对象管理，代码规范、低耦合，有效防止代码复杂性扩散；

3）浏览器跨域：所有AJAX接口均为JSONP实现，百分百支持跨域；

4）通信代码解偶：得益于高内聚的MobileIMSDK-Web工程，实现了IM功能逻辑与网络通信的解偶，利于持续升级、重用和维护（这是经验不足的IM产品做不到的）；

5）支持WebSocket：并非某些产品中还在使用的过时“长轮询”技术，真正的“即时通讯”；

6）网络兼容性好：核心层基于MobileIMSDK-Web技术，在不支持WebSocket的情况下仍可很好地工作；

7）断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；

8）轻松支持加密：一个参数即可开启SSL/TLS通信加密；

9）服务端慢io解偶：IM实例本身坚持不直接进行DB等慢io的读、写，保证IM实时消息高吞吐和性能；

10）服务端逻辑解偶：得益于MobileIMSDK-Web工程，实现了上层逻辑与网络通信核心的解偶，底层数据通信全部通过低偶合的回调通知来实现；

11）完善的log记录：服务端使用log4js日志框架，确保每一关键步骤都有日志输出，让您的运行调试更为便利；

12）聊天协议兼容：实现了与RainbowChat-APP产品完全兼容的协议模型；

13）消息收发互通：实现了与RainbowChat-APP产品的无缝消息互通。

6、支持的聊天消息类型

7、好友聊天

8、群聊聊天

9、发送“群名片”消息

10、发送“位置”消息

11、“消息撤回”

12、“消息转发”

12、“消息引用”

14、“@”功能

15、其它特性和细节

聊天区上方聊天对象信息显示：（查看视频）

消息送达状态图标显示：（查看视频）

posted @ 2025-06-13 16:15 Jack Jiang 阅读(54) | 评论 (0) | 编辑收藏

Web端实时通信技术SSE在携程机票业务中的实践应用

摘要: 本文由携程前端开发专家Chris Xia分享，关注新技术革新和研发效率提升。1、引言本文介绍了携程机票前端基于Server-Sent Events（SSE）实现服务端推送的企业级全链路通用技术解决方案。文章深入探讨了 SSE 技术在应用过程中包括方案对比、技术选型、链路层优化以及实际效果等多维度的技术细节，为类似使用场景提供普适性参考和借鉴。该方案设计目标是实现通用性，适用于各种网络架构和业务场景... 阅读全文

posted @ 2025-06-13 15:32 Jack Jiang 阅读(56) | 评论 (0) | 编辑收藏

长连接网关技术专题(十二)：大模型时代多模型AI网关的架构设计与实现

本文来自哔哩哔哩通用技术团队分享，下文进行了排版优化和修订。

1、引言

随着 AI 技术快速发展，业务对 AI 能力的渴求日益增长。当 AI 服务面对处理大规模请求和高并发流量时，AI 网关从中扮演着至关重要的角色。AI 服务通常涉及大量的计算任务和设备资源占用，此时需要一个 AI 网关负责协调这些请求来确保系统的稳定性与高效性。因此，与传统微服务架构类似，我们将相关 API 管理的功能（如流量控制、用户鉴权、配额计费、负载均衡、API 路由等）集中放置在 AI 网关层，可以降低系统整体复杂度并提升可维护性。

本文要分享的是B站在大模型时代基于多模型AI的网关架构设计和实践总结，希望能带给你启发。

* 相关阅读：《全民AI时代，大模型客户端和服务端的实时通信到底用什么协议？》

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4831-1-1.html）

2、系列文章

3、AI网关技术概览

AI 网关是一个用于统一接入和调度大语言模型（LLM）服务的系统，支持多供应商、多模型、负载均衡调度的管理。同时具备统一鉴权、Token 配额管理、安全审计与可观测能力，确保 API 调用的安全性和稳定性。负载均衡模块，能够根据提供商多线路、多模型和 API Key 进行灵活路由，并适用于多模型接入、多租户等复杂场景。

4、整体架构设计

AI 网关的整体架构和传统 API 网关及其类似，在数据面和控制面上有几乎相同的设计。

实际上 AI 网关就是衍生于之前微服务团队的 API Gateway，我们在 API Gateway 的基础上做了一些针对 AI 业务接口的特性优化，如无缓冲区的请求代理，支持域名、服务发现等混合调度，AI 超长响应时间请求的优雅退出等功能。

在此基础上我们使用于 API Gateway 相类似的数据面、控制面分离的架构，控制面会将变更后的网关配置准实时下发至数据面节点。数据面节点识别配置有更新后在运行时会动态切换代理引擎至新的代理逻辑下，并保证老的代理逻辑会处理完当下被分配的请求。

在数据面中，我们对请求过滤器有两种模式的抽象：请求过滤器和模型过滤器。请求过滤器作用于用户的原始请求，这类过滤器往往被设计用于处理鉴权、限流等逻辑。而模型过滤器作用于请求被转发至该模型时，常用于模型 API 的兼容逻辑。比如模型发展中目前对深度思考 <think> 的标签处理，推理引擎自定义参数的兼容修正等。

除此之外控制面也会提供 OpenAPI 供 AI 模型供给团队上架模型，新增 API Key 等日常运营能力。模型提供方可以在上架模型时支持为模型配置相应的 RPM、TPM 上限，并根据模型的推理引擎选择相应的兼容策略。也可以通过 OpenAPI 为单个 API Key 授权相应模型等功能。

5、鉴权认证

在鉴权机制中，采用目前主流 OpenAI SDK 兼容的 API Key 认证方案。

Authorization: Bearer <YOUR_API_KEY>

在 API Key 的认证基础上还提供细粒度的权限控制功能，允许为每个 API Key 配置可访问的模型范围，以及对不同模型的设置不同的配额。

另外支持灵活的 API Key 有效期配置，用户可根据需求设置 API Key 的过期时间或不过期。

6、配额管理

在配额管理体系里可以限制模型消费者的调用速率，在这里主要参考了 OpenAI 的配额策略： RPM（每分钟请求数）和 TPM（每分钟 Tokens 数）。

在这里可以按照为每个用户分配不同模型的 Token 配额，或指定单位时间的请求数限制，以确保 AI 服务的高效运行并防止超出预算。

同时我们还支持月维度的 Token 配额，业务按自然月进行预算申请，超过预算时请求将被限制。对于接入 AI 能力而言，每个业务都需要提前申请预算额度，避免带来难以负担的成本。

7、多模型访问

目前版本仅支持基于 OpenAI API 的协议转发。以目前推理引擎发展和在线 AI 云服务而言，兼容 OpenAI API 协议已经成为业界共识，在此基础上我们只需要实现根据用户需求的模型名，择优选择一个相应模型的上游 API 提供商（公司自建 IDC或公有云），并替换成相应服务商的 API Key 和 Upstream 域名就可以进行负载均衡。

对于公司 IDC 自建的模型服务而言，我们继续沿用基于 discovery 等服务发现技术来发现推理引擎节点，直接将请求包装调度至这些自建模型。

8、模型负载均衡

LLM API 的负载均衡和传统实时 API 的模式有很大的不同。

传统 API 开发中：一次请求往往被设计成会极大概率地命中一块结果缓存，且缓存 Key 的计算都比较简单，因此很多负载均衡都简单基于请求相应时间、连接数等等。

在 LLM 推理场景下：每个推理请求都会带来网关本身难以评估的计算时间和设备资源占用，此时基于 RPS、TTFB、连接数等负载均衡策略将不再适用。

在 AI 网关的默认负载均衡策略中：我们主要基于单模型服务节点处理 Token 的吞吐和时延能力，在黑盒模式下评估节点的饱和度。除此之外，推理引擎自身和显卡其实也暴露了许多和执行队列相关的指标，综合这些指标同样预计能获得比传统负载均衡更有效的体验。

另外：基于 Prefix Cache 的节点选择同样会是一个相当有效的调度策略，但 Prefix Cache 的计算能力往往需要外部服务来进行，因此 AI 网关同样支持接入外置的负载均衡算法，通过前置的 RPC 来让外置服务选择最合适的模型节点。

9、多租户隔离

业务主要通过域名 + API Key 进行访问大模型推理，可以通过域名进行管理对接的接口路由，进行配置转发到指定 Model Provider 服务。如果需要进行多业务隔离，只需要通过不同的域名访问并配置不同的转发目标。

10、可观测能力

从业务视角，主要分为 Gateway、 Domain、Consumer、Provider、UserModel、UpstreamModel 维度，进行查询和观察请求接口的可用率，以及 QPS、Latency、5xx、Quota 等指标。

11、支持的API协议

11.1 概述

在 AI 网关中，我们主要以 OpenAI 提供的 API 作为基础协议，让开发者基于 OpenAI SDK 实现各种业务场景对接。

目前支持的 API 协议有：

1）对话式模型交互（CHAT_COMPLETION）；
2）通用文本向量接口（EMBEDDING）；
3）提示词模板（CHAT_TEMPLATE）；
4）模型上下文协议（MODEL_CONTEXT_PROTOCOL）。

业务可以根据自己不同的场景进行选择对应的协议。

11.2 对话式模型交互（CHAT_COMPLETION）

对话式模型交互是最基础的协议，用于构建具有复杂逻辑的对话交互。同时 API 支持上下文感知的对话，使得模型能够理解和响应多轮交流，并在对话中保持合理的逻辑和语境一致性。

对话接口是 LLM 与现实世界沟通的重要渠道，大量 AI 需求实际上就是在与模型进行一轮或多轮对话实现的。

例如业务希望通过 LLM 排查线上故障的潜在原因，简单来说就是将应用的各项可观测指标、故障期间的日志记录或应用上下游的变更记录以对话形式告知 LLM，并让 LLM 输出一段便于程序理解的结果表达模式，让 LLM 从模型数据中计算出符合直觉潜在故障原因。

11.3 通用文本向量（EMBEDDING）

通用文本向量（EMBEDDING）接口的核心功能是将文本转化为高维向量，捕捉其语义特征。这在需要进行大规模信息检索、匹配和知识管理的场景中尤为关键。

11.4 提示词模板（CHAT_TEMPLATE）

提示词模板是一种结构化的对话生成方式，允许业务通过设置预定义的模板来生成系统化的回复。这种方式将语言模型的生成能力与模板化结构相结合，使业务能够以普通 API 的方式进行请求交互，并可以更集中化地控制生成内容的样式和格式。

同时我们也支持内嵌函数，以方便在提示词模板进行处理内容：

1）len(v any) string
2）jsonify(v any) string
3）make_json_object(v ...any) map[string]any
4）slice_to_index_map(v any, startBy int) map[int]any

以评论内容翻译的场景：

- path: /v1/reply-to-en
  protocol: HTTP
  timeout: 300s
  middlewares:
  - name: v1_chat_template
    options:
'@type': type.googleapis.com/infra.gateway.middleware.llm.v1.contrib.ChatTemplateConfig
      provider: bilibili
      model_name: index
      prompt_template: |
        你的任务：以下给定文本是一个B站视频的相关文本信息，可能为标题、简介、弹幕或评论，请你将给定的文本逐条翻译成英文。输入为一个json格式，key为序号，value为待翻译的弹幕，一共有{{ len .reply_list }}个文本。示例如下:
        输入: {"1": "xxx", "2": "xxx"}

        输出: {"1": "xxx", "2": "xxx"}

        注意，用{dyn:xxx}符号包裹的是图片引用，不需要翻译，直接保留。用[xxx]包裹的是表情符号，不需要翻译，直接保留。现在请根据上述要求完成如下片段的翻译，输出一共{{ len .reply_list }}个翻译后的结果，直接输出翻译后的英文，不要进行任何解释。

        输入: {{ jsonify (slice_to_index_map .reply_list 1) }}

        输出:

提示词模版接口实际上是基于对话接口的一种高效对接模式。众所周知，自 OpenAI 发布 ChatGPT 后，提示词工程（Prompt Engineering）本身被当作一种技术路线而提出。提示词工程主要关注提示词开发与优化，帮助用户将大语言模型用于各场景和研究领域。研究人员可利用提示工程来提升大语言模型处理复杂任务场景的能力，如问答和算术推理能力。

对于接入 LLM 的业务研发而言，他可能本身不具备很强的提示词工程能力；甚至提示词的优化本身也取决于模型的迭代更新。因此对于解决特定领域的业务场景，AI 工程师往往会基于最优模型写出最精准的提示词，通过 AI 网关的提示词模版接口发布。业务提交简单 JSON KV 对后，渲染出最有效的完整提示词，LLM 基于有效提示词输出最精确的结果。

11.5 模型上下文协议（MODEL_CONTEXT_PROTOCOL）

MCP (Model Context Protocol，模型上下文协议) 是由 Anthropic 在 2024 年底推出的一种开放协议，旨在让大型语言模型（LLM）能够以标准化的方式连接到外部数据源和工具。该协议抽象并标准化了 Resources、Prompts、Tools 等资源及其接入方式，允许 LLM Client 应用以一致的方式连接到各种数据源和工具，如文件、数据库、API 等。

配置转发到注册中心的 MCP 服务：

- path: /example-mcp/*
  protocol: HTTP
  timeout: 300s
  middlewares:
  - name: v1_mcp_server
    options:
      '@type': type.googleapis.com/infra.gateway.middleware.llm.v1.contrib.MCPServerConfig
      proxy:
        name: example-mcp
        upstreams:
        - url: 'discovery://infra.example.example-mcp'
- path: /example-mcp/*
  protocol: HTTP
  timeout: 300s
  middlewares:
  - name: v1_mcp_server
    options:
      '@type': type.googleapis.com/infra.gateway.middleware.llm.v1.contrib.MCPServerConfig
      proxy:
        name: example-mcp
        upstreams:
        - url: 'discovery://infra.example.example-mcp'

12、MCP市场与API接入

MCP 市场其实就是一个公司内部的资源共享和协作平台。简单来说，它可以看作是企业内的小型“App Store”，专门用来提供各种服务和资源的接入入口。可以让业务通过这个平台轻松获取、整合、使用这些资源，使业务对接更加地简单。

用户可以把自己的 MCP 服务快速发布到市场上，并且接入到 MCP Gateway 后即可使用。

当前的 MCP 协议中主要有两个端点：

1）/sse：是一个 Events 长连接通知协议，用于实时通知资源信息的变更；
2）/message：用于 JSONRPC 通信端点，能够以 JSONRPC 方式进行通信交互。

而我们在 MCP Gateway 中，我们在企业内部将通过统一的域名进行提供业务接入，并且进行管理每一个 MCP服务的接口，例如：https://mcp.example.com/logging-mcp。

同时在 MCP服务中，需要使用相同的根路径 /logging-mcp，因为在 MCP 协议中，会先连接到 /sse 端点，再返回对应的 /message 端点信息，所以请求路径需要保持跟网关一致。

13、本文小结

AI 网关通过统一接入、鉴权、配额管理和模型调度支持，为大模型提供了高效、安全、定制的连接能力。同时，支持了 OpenAI 协议、提示词模板和 MCP 市场等功能，进一步扩展了 AI 技术在企业中的应用场景，为业务接入和资源整合提供了极高的便利性。

[2] SSE技术详解：一种全新的HTML5服务器推送事件技术

[3] 网页端IM通信技术快速入门：短轮询、长轮询、SSE、WebSocket

[4] 搞懂现代Web端即时通讯技术一文就够：WebSocket、socket.io、SSE

[5] 全民AI时代，大模型客户端和服务端的实时通信到底用什么协议？

（本文已同步发布于：http://www.52im.net/thread-4831-1-1.html）

posted @ 2025-05-22 14:08 Jack Jiang 阅读(64) | 评论 (0) | 编辑收藏

小红书APP的全新鸿蒙NEXT端性能优化技术实践

本文来自QCon全球软件开发大会王劲鹏的技术分享，下文进行了排版优化和修订。

1、引言

性能和体验在 iOS / Android 双端场景下已经是一个较为成熟的话题，但随着鸿蒙 OS 的发展，端侧开发者需要更多的关注多端场景的差异性。

本次分享的主题是小红书在鸿蒙平台上的工程实践，主要聚焦于性能优化和探索。（* PPT讲稿原文下载：《小红书鸿蒙OS下的性能优化探索与实践(PPT)[附件下载]》）

先介绍一下自己的背景。之前一直从事大前端领域的工作，主要专注于跨端和容器化方案。也曾手写过一个跨端框架，名为 Doric，它可以对标 React Native、Vue Native 和 Flutter 等。Doric 框架在落地时表现良好，还支持了一些自研的 3D 引擎方案。除此之外，我还有播放器内核研发经验，以及大前端常规体系建设和 CI/CD 流水线的工程经验。未来，我将持续关注大前端的演进，尤其是鸿蒙这样的多端和跨端平台。

从 2023 年开始，鸿蒙的优势愈发明显，已经成为可与 iOS、安卓媲美的第三大移动操作系统。从一些抖音视频中也可以看出，鸿蒙在流畅性方面甚至在某些层面上超过了 iOS。

今天的分享内容分为四个部分：

1）介绍整个历程和背景；
2）介绍鸿蒙 OS 的相关能力和小红书在该平台上的优化实践；
3）通过鸿蒙 OS 提供的性能验证工具，展示小红书在鸿蒙平台上的性能优化验证方法、优化后的性能提升以及具体的收益和结果；
4）总结和展望。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4821-1-1.html）

2、内容分享和整理

分享者：王劲鹏，内容审校和编辑：Kitty。

王劲鹏：小红书鸿蒙工程师。目前主要负责小红书鸿蒙版的研发和工程建设，曾从事过大前端架构设计、研发效能等方向的工作，在终端架构演进、性能优化以及跨端容器和动态化等方面具备长期实践及深厚经验，持续关注大前端技术体系，鸿蒙以及多端的演进。

3、版本历程和开发背景

3.1 小红书迭代历程

从 2023 年年中开始，鸿蒙的“千帆计划”正式启动，并很快升级为“鸿飞计划”。小红书作为 7 家头部合作商之一，率先支持了鸿蒙，并于 2023 年 11 月中旬上线了一个基础版的 beta 版本 APP。这个版本主要包含笔记浏览和视频笔记浏览两大功能，以及一些简单的个人设置。当时，小红书的动作非常迅速，可以说是头部应用厂商中对华为支持最为积极的品牌之一。

在整个鸿飞计划中，我们规划了三个核心里程碑：除了 2023 年 11 月的 beta 版本外，还包括 2024 年 6 月的 HDC 版本和 2024 年 9 月的商用版本。HDC 版本主要是针对华为正式宣发鸿蒙 3（HarmonyOS Next）开发者测试的情况。在 HDC 版本中，我们上线了许多小红书特有的存量功能，包括视频拍摄、图文拍摄以及多设备协同等创新特性。而到了 2024 年 9 月的商用版本交付时，小红书的核心功能已经基本与主端对齐。考虑到鸿蒙的开发周期仅有一年，小红书的鸿蒙 APP 在这一年中要对齐开发了十年甚至十几年的安卓和 iOS 版本，难度和压力都非常巨大。

到 2024 年 9 月，除了对齐双端的所有功能外，我们还开发了许多其他功能，包括华为支持的创新特性，例如智能拖拽——用户可以将图片拖拽到中转站或小艺等场景。此外，商用版本还支持了用户呼声较高的 HDR 或 Moonlight Photo 拍摄能力。

3.2 纯血鸿蒙与安卓的区别

我从几个维度来对比一下纯血鸿蒙和安卓 OS 的主要区别。

内核架构纯血鸿蒙的本质是微内核，而安卓是基于 Linux 宏内核。微内核只提供基础的内存和文件管理能力，驱动和其他系统能力都在 OS 之外。这样做的好处是系统稳定性极高，即使应用崩溃，也不会导致整个系统崩溃（system crash）。而在 Linux 宏内核中，应用的不当行为可能会直接导致系统崩溃。

多设备适配鸿蒙目前支持多种设备类型：包括 Mate 60 Pro 这样的直板手机、Mate X5 或非凡大师 XT 这样的双折叠和三折叠手机、平板电脑、车机，甚至华为正在研发的鸿蒙 PC。鸿蒙真正实现了类似 iOS 的多端整合能力，通过一套代码实现多端部署。其工程体系和架构支持单 HAP（Harmony Ability Package）多 HSP（Harmony Service Package）模块，指令集适配了 ARM64 等多种架构，开发者只需根据设备尺寸适配 UI 展示即可。例如，在 2024 年 9 月的华为全场景设备发布会上，余承东展示了小红书在从直板机到双折叠、三折叠设备上的适配能力，完全实现了响应式编程，不同设备形态下有不同的浏览体验。

开发工具和编程模型鸿蒙的开发工具和编程模型与安卓差异较大。鸿蒙更类似于 Flutter 的嵌套型容器布局，而不是安卓那种面向对象的开发方式。在语言层面，鸿蒙完全封装了底层逻辑，采用类似前端 Flux 单向数据流模式，通过数据变更驱动 UI 刷新。这种模式类似于前端 Redux 或 MobX 框架中的 state 管理。

从 2024 年 10 月 8 日公测开始，鸿蒙的应用生态正在逐渐繁荣。不过，目前像微信这样的应用还处于抢先体验阶段。相比之下，安卓的生态已经相对成熟。鸿蒙的最终目标是打造全场景智能设备生态，涵盖所有终端设备，以及基于 OpenHarmony 内核开发的物联网终端。它还支持多种芯片体系，例如瑞芯微 RK3568 等。

3.3 小红书鸿蒙应用架构层级

小红书经过一年的迭代，其整体应用架构已经基本成熟。目前，整体代码量接近 200 万行，达到了一个较高的复杂度。在一般成熟的 APP 架构中，通常会包含一些基础底层能力，例如网络、磁盘存储、埋点体系、APM（应用性能管理）系统，以及一些通用组件和能力。对于鸿蒙平台，小红书还具备一些特殊的公共通用能力。

我们开发了一个“一多框架”，这是一个支持一套代码多端部署的具体框架体系。通过这个框架，我们实现了多设备的断点控制功能。用户可以根据设备的尺寸和类型进行适配，因为华为设备支持多端投屏。例如，用户可以在手机上浏览小红书，然后将内容投屏到车机上。比如用户购买了一辆问界汽车，可以在车内通过车机继续浏览手机上的小红书内容，这种场景在驾驶时尤其有用。

除了底层框架，对于上层业务，小红书还有一套自研的组件库方案，这套组件库承载了上层业务的多种功能，包括图文笔记、视频笔记浏览，以及一些 Hybrid 容器能力。小红书本质上在跨端开发中仍然使用了 React Native（RN）和类 Web 技术。RN 引擎由华为内部合作提供，采用了自研的 ohos 方案，用于解决 React Native 的 bundle 和 JS 加载以及渲染问题。此外，还包括产品定制层，这里涵盖了所有相关的设备适配内容。

3.4 性能优化与实践

目前，安卓和 iOS 在性能优化方面已经相当成熟，包括如何分析性能热点问题、有哪些工具以及最佳实践等。然而，对于鸿蒙来说，它是一个全新的系统。直到 2024 年年中，鸿蒙的稳定性和流畅性都还存在一些问题。这里重点讲述小红书在 2024 年与华为一起进行了哪些实践，以提升应用的性能和用户体验。

我们定义了一个性能指标场景。这个指标体系是小红书与华为共同探讨的结果，因为华为有一个性能工厂，它对每个应用的评级都有一个 S 标标准。小红书与华为一起确定了针对小红书场景需要观测的具体指标。性能优化的核心是慢函数指标，它主要包含两部分：过程时长和应用体验的流畅性。

过程时长主要包含以下三点：

1）冷启动时长：这是用户最关心的指标之一，即从点击应用图标到应用完成动画并展示第一帧的时间。对于多数应用，首页通常有缓存机制。例如，小红书会缓存用户上次刷新的笔记，淘宝会缓存用户上次浏览的商品内容；
2）场景完成时长：指完成某个特定场景所需的时间；
3）应用响应时长：指用户操作界面后，界面真正发生变化的时间，即响应时延。

流畅性方面，最基础的观测指标是平均 FPS（帧率），包括丢帧数、最大连续丢帧数、丢帧卡顿次数以及卡顿率。卡顿率可以通过量化计算得出：当一个场景中出现丢帧时，丢帧的时长与场景总时长的比值即为卡顿率，它是一个小于 1 的百分比数值。

3.5 OS 能力 & 优化实践

首先，针对 IO 场景，我们进行了相应的优化。

鸿蒙 OS 的系统能力主要分为以下三个方面：

1）并行化能力鸿蒙 OS 提供了两种并行化能力：Worker 和 TaskPool。Worker 类似于传统的线程模型，每个 Worker 都有自己的内存空间和执行单元，支持通过消息（message）进行通信。TaskPool 则类似于协程或线程池，能够动态管理线程数量，支持标记为 @concurrent 的函数直接在任务池中调度和运行。这两种机制都支持线程间隔离，内存不共享；
2）多线程通信和数据传输在多线程通信方面，鸿蒙 OS 支持序列化数据传输和基于消息（message）的通信机制。此外，还引入了事件发射器（Emitter）用于系统事件的发布和订阅。这种机制允许线程间通过消息传递来实现复杂的交互逻辑；
3）同步转异步机制鸿蒙 OS 支持基于 Promise 的异步编程模型，包括 async 和 await 语法，以及 then 和 catch 方法。这种机制能够有效提升应用的响应性和用户体验。

4、并行化能力

在并行化能力方面，鸿蒙 OS 提供了两套基础实现方式。开发者可以通过 RTS（运行时系统）实现并行化，也可以通过底层库（如 C++ 标准库中的）实现。不过，如果完全依赖底层库，可能会导致开发效率下降。为了满足业务需求，鸿蒙 OS 在年初引入了 Worker 和 TaskPool 能力。Worker 类似于传统的线程模型，每个 Worker 都有独立的内存空间和执行单元，支持通过消息进行通信。消息可以包含可序列化的数据，也可以通过指针直接迁移数据。TaskPool 则类似于线程池，能够动态管理线程数量，支持标记为 @concurrent 的函数直接在任务池中调度和运行。与安卓平台的线程池不同，鸿蒙 OS 的 TaskPool 会根据硬件条件和任务负载动态调整线程数量。这种机制避免了安卓平台中因线程池数量过多而导致的系统资源消耗问题。

接下来我们对比鸿蒙 OS 的 Worker 并行化能力和安卓端的相关特性。从多个维度来看，Worker 本质上不推荐手动创建，而是通过系统配置 build-provider.json 绑定 ETS 文件来实现创建。这一点与安卓端并无明显差异，安卓端可以通过 THREAD 等方式启动线程。

在鸿蒙 OS 5.0 以下版本（如 4.2 版本）中，主要运行的仍然是安卓系统。这种情况下，安卓线程数量存在上限，这对应用开发者来说是一个挑战。如果 SDK 集成过多，线程数可能超标，进而导致应用被系统强制终止，或出现业务场景异常崩溃等稳定性问题。

数据传输方面：鸿蒙 OS 为了优化 Worker 的性能和负载，对 Worker 的数量和单个 Worker 的传输上限进行了限制。鸿蒙 Worker 的单个传输上限类似于安卓中的 Binder 机制，也存在类似的传输限制。不过，安卓线程通常没有严格限制，因为线程本质上是一个内存拷贝过程，除非开发者通过指针等方式自定义线程间数据传输。

在传输格式上：鸿蒙 OS 支持通过 Sendable 接口进行数据传输。Sendable 是一种注解方式定义的数据结构，具有传染性，即如果一个类被标记为 Sendable，其关联属性也必须是 Sendable 类型。鸿蒙 OS 支持基础数据类型（如 number、string）和集合类型作为 Sendable 传输的内容。对于跨模块调用，鸿蒙 OS 不允许 Worker 跨 HAP 或跨 HSP 调用。相比之下，安卓应用通常运行在一个或多个 Dex 文件中，允许跨 Dex 或跨模块的线程间调用。

TaskPool 类似于双端的协程概念，是一种轻量级线程，仅存储函数。不过，TaskPool 与协程有所不同，它独立于任务维度，且任务执行时长有限制（超过 3 分钟会被系统自动回收）。安卓平台可以通过 ASM 插桩技术对线程的创建和执行进行监控和优化，但轻量级线程或协程的实现通常依赖于线程池或协程机制。

TaskPool 中的任务默认支持数据转移（transfer），不支持拷贝。此外，TaskGroup 不支持 SDK 初始化包的加载。某些同学习惯在异步线程中触发 SDK 的行为，在鸿蒙 OS 上可能会因 TaskPool 生命周期结束而导致变量被释放。

关于并行化数据传输的 Sendable 概念：Sendable 通过系统提供的 SharedHeap（共享堆）实现传输。共享堆与本地堆（local Heap）的区别在于，共享堆支持 Sendable 化数据的传输，而本地堆则需要序列化。共享堆的管理和控制耗费了华为专家大量时间和精力，其中还涉及复杂的异步锁（async lock）机制。在 RTS 并发实例期间（包括 Worker、TaskPool 等），数据可以通过 Sendable 传递，但 Worker 需要使用单独的 API。TaskPool 则完全支持 Sendable 的直接传输。这种异步锁机制允许在 TaskPool 或 Worker 中锁定其他任务中的某些函数，实现线程间的同步，类似于安卓中的 synchronized 或其他锁机制。

5、小红书典型并行化场景

小红书在一些典型化场景中已经实现了并行化处理。例如，网络请求是一个典型的耗时操作，因为请求过程中涉及验签和安全能力的处理，这些操作如果在主线程中同步完成，可能会导致应用掉帧。当用户滑动时，掉帧现象会非常明显，这通常是由于大量计算引起的。为了解决这一问题，我们采用了 Worker 化的方式，将这些操作移到 Worker 线程中，从而避免主线程的卡顿。

在进行埋点时，可能会涉及数据库的 IO 操作，这些操作也不建议在主线程中执行。通过将这些操作放到 Worker 线程中，可以有效避免对主线程的影响。

针对双列布局中的图片和资源预加载，我们采用华为自研的 RCP 网络解决方案（类似于 HTTP），通过 Worker 线程在远端进行下载，并在完成后将结果返回到主线程。此外，TaskPool 的应用场景也非常广泛，例如文件上传、多媒体操作以及启动任务的编排等。TaskPool 的优势在于轻量化，避免了线程上下文切换带来的不必要耗时。

关于冷启动和首刷场景的优化。这部分主要包括两个方面：模块的懒加载和动态组件的复用池。懒加载是应用开发中常见的优化手段，类似于安卓端的 class order 机制。当应用不需要某个类时，可以延迟加载该类，直到真正需要使用时才加载。这种方式可以显著提高冷启动阶段的代码加载效率，从而大幅降低冷启动时长。

动态组件和组件复用池则是为了解决 UI 组件重复创建的问题。在应用中，可能会有多种相同类型的 UI 组件（例如小红书中的笔记组件）。为了避免重复创建带来的开销，我们希望在运行时尽量复用已有的组件，而不是频繁地创建和销毁。

6、类前端视角下的模块懒加载

我们通过特定的分析工具对懒加载进行了深入分析。如图所示，我们能够识别出启动过程中加载的各种模块，包括 RNOH（React Native on Harmony）、Web engine（网页引擎）、Red Player（播放器）等组件。这些模块的加载过程涉及到多个.so 文件，即共享对象文件。

通过自上而下的分析方法，我们可以清晰地看到每个模块加载的具体耗时。进一步分析这些.so 文件与 RTS（运行时系统）的关联，以及它们所引入的 Napi 的 TS 文件。我们进行了懒加载潜在对象的分析，发现许多 RTS 实际上并不需要的类文件已经被加载。这是因为开发者在编写代码时，可能并未充分考虑到导入一个类或方法对应用启动延迟的影响。

为了优化这一过程，我们的目标是减少字节码中需要加载的类文件数量，从而加快应用的冷启动速度。华为提供的编译器能够将 RTS 编译成 Ark bytecode（方舟字节码），这是一种高效的字节码格式。通过减少需要加载的类文件数量，我们可以显著提高应用的启动速度。

华为还提供了一种懒加载的导入方式，只有在真正需要使用某个类时，它才会被加载。这种懒加载机制有助于减少应用启动时的资源消耗。这引发了一个问题：为什么华为不默认采用全懒加载方式，即只有在使用时才加载类文件呢？我已经将这个问题反馈给华为，并且系统侧可能会考虑在未来的版本中默认采用懒加载方式，同时仍然允许用户手动选择非懒加载的方式进行类文件的加载。

7、动态组件

在小红书的首页场景中，笔记卡组件在多个场景中被复用。为了避免重复创建 UI 导致的性能消耗，我们采用了动态组件的概念。动态组件的核心原理是利用占位符来延迟组件的创建，这与 Android 开发中使用 Stub 模式的概念相似。在这种模式下，可以使用一个代理对象（stub）来代表尚未初始化的组件，从而延迟组件的创建过程。当真正需要渲染组件时，再将渲染内容填充进去，从而避免每次调用构建函数（如 build）时的耗时。

占位逻辑通过系统的 API 实现，涉及到 NodeContainer 和 NodeController 的绑定关系。Container 和 Controller 一一映射，由 NodeCore 进行管理。Container 仅管理当前展现的内存部分，使用完毕后需要将其放回池中进行回收和再利用。以冷启动首刷为例，在启动阶段可以先获取磁盘上的笔记内容，然后在 BuilderNode 中预先创建多个 Image 组件。这样，在等待网络或推荐接口响应时，Image 组件已经创建完毕，从而在首页刷新时可以立即使用这些组件，这对于提高首刷非常有益。

对于组件复用池，当动态组件不再使用时，需要将其返回到组件池中。对于自定义组件，通过 NoteContainer 占位方式，由 NodeController 进行管理。在需要创建子组件时，先在 NodePool 中查找，如果找不到，则创建新组件；如果找到，则尝试复用。流程图展示了从 Container 装载 NodeItem 开始，通过 NodePool 查找，如果找到则进行条件判断和复用。

组件的新建和复用过程中，如果找到对应的 NodeItem，则调用 build 方法并更新自定义组件的状态，完成复用。如果有对应的 NodeItem，可以直接通过 update 函数更新内部状态并刷新 UI。但要注意，update 方法可能会因状态变量过于复杂而导致更新延迟，出现图像残影。因此，需要拆分 state，使其足够小，以确保状态变更到通知 UI 的时间缩短，消除残影。

我们的策略是优先在 NodePool（节点池）中查找可用的 NodeItem（节点项）。如果 NodePool 中存在可用的 NodeItem，我们就直接使用它，并通过 getNode 方法进行 item 绑定，随后更新其状态以实现复用。如果 NodePool 中没有找到对应的 NodeItem，那么我们将通过 makeNode 方法调用 build 函数来创建新的节点项。

完成组件的复用后，我们需要将这些组件返回到缓存池中，以便在未来可以再次使用。这个过程涉及到 NodeContainer（节点容器）和 NodeController（节点控制器）的销毁，并将 NodeItem 重新放回 NodePool 中。为了更有效地管理缓存，业务层可以利用 LRU（最近最少使用）算法，或者鸿蒙系统提供的 LRUCache 和 LiUHashMap 等数据结构，来自定义缓存的大小，从而优化组件的复用和缓存策略。

8、滑动类场景

在小红书应用中，滑动类场景非常普遍，包括推荐页的子频道、个人页中的收藏点赞以及用户自己发布的笔记，还有搜索结果页中的搜索结果和用户商品等，这些都是双列滑动场景。这些双列滑动场景占据了小红书用户体验的 90% 到 95%，因此，滑动体验的流畅性对于用户的整体体验至关重要。

为了提升滑动场景的流畅性，小红书采用了 RCP 框架来优化网络资源的获取。RCP 是华为提供的一个系统组件能力，主要解决网络资源获取效率问题。通过 RCP，开发者可以在需要时发起网络请求，并自定义资源的写入地址，如文件或 ArrayBuffer。RCP 负责高效地将资源写入指定位置，而在不需要时，可以取消 RCP 请求，从而优化资源管理。

RCP 的核心能力在于能够取消请求，并对弱网场景进行了优化，其建联过程优于 HTTP 1.1 或 2.0。基于 RCP，小红书还应用了华为俄研所提供的 Prefetch 方案。Prefetch 方案在瀑布流组件的可见区变更时，通过 worker 线程（如 prefetched worker）启动资源获取，当不可见时关闭，从而优化快速滑动场景，减少不必要的带宽消耗。

在快速滑动过程中，有些 item 可能短暂消失，对于双端场景，网络请求可能已经发出且在途，无法取消，导致带宽浪费。Prefetch 和 RCP 结合的方式可以优化这种快滑场景，防止真正想要看的内容出现白块。Prefetched worker 线程管理多个 RCP 请求，每个请求都有完整的生命周期。当通过 RCP 请求获取到所需资源时，会通知主线程，主线程根据地址加载资源到 Image 组件或占位符 RQI 组件中。

在小红书的开发过程中，我们遇到了一些性能热点问题，这些问题大多是通过 Code Linter（代码检查工具）检测出来的。由于开发节奏快，开发者在编写代码时可能难以关注到性能问题，因此需要 CI（持续集成）检查工具来辅助检查。

常见的性能热点包括：

1）在列表场景中频繁使用的 LadyForEach 组件，需要指定 key 以实现列表复用。如果开发者忘记指定 key，Code Linter 会报错提示；

2）在 onClick 或 onVisible 等函数中编写空 callback（回调函数）。当这些空 callback 积累到一定数量（如几百个或上千个）时，可能会严重拖慢应用性能。Code Linter 可以扫描出这类问题；

3）未使用 TaskPool 处理网络资源。例如，Image Bitmap 直接传递 URL 进行同步加载，当网络阻塞时会导致 UI 线程卡顿；

4）复杂的 ETS 组件在列表场景下未实现重用。未设置重用的 ETS 组件在列表滚动时需要重新构建，非常耗时。组件嵌套层级过深也会导致性能问题。在安卓端，布局检查器建议容器嵌套不超过四层；

5）使用 JSON.stringify 进行对象序列化。JSON.stringify 有一定耗时，尤其在处理 100KB 左右的数据时，可能需要 10 毫秒左右。Code Linter 会提示这部分性能问题，但是否需要转异步线程需要开发者自行判断；

6）调用 Image 的 syncLoad（同步加载）。在某些场景下，如转场动画，需要同步加载 image 以保证连贯性。但如果 image 是非磁盘资源（如网络资源），会导致卡帧。Code Linter 可以扫描出这类问题；

7）关于编译器的优化。ETS 组件应避免嵌套过深。如果嵌套过深，可以将每层函数通过系统的 builder param 或 builder 函数转换。使用 @builder 注解标识的函数会在编译期间与 ETS 代码整合，从而提高编译器优化效果。

Code Linter 支持全量扫描和基于 Git DIFF 的增量扫描，但目前华为的 Code Linter 还不能与 Git Prehook 关联，导致无法在流水线上自动检查。虽然 CI 检查阶段已有 Code Linter，但本地代码提交阶段仍需手动运行脚本，无法实现自动检查。我们正在催促华为解决这一问题。

9、UI 重载场景分帧方案

在处理 UI 重载场景时，我们采用了一种称为分帧方案的方法。分帧这个术语的含义是，当应用在一帧内无法完成所有绘制工作，或者在多帧内都无法完成时，会导致屏幕卡顿现象。尽管用户可以看到画面，但却无法进行滑动或操作。在这种情况下，分帧方案就显得尤为合适。虽然分帧方案可能看起来不是最优雅的解决办法，但它确实能够有效地解决性能问题，使应用性能达到预期标准。分帧方案虽然看似是一种应急措施，但它能够帮助应用性能达标。

分帧方案的流程大致如下：假设我们有数据 a、b、c 需要渲染，未采用分帧方案前，数据 a、b、c 会同时到达并触发状态变更，进而驱动整个 UI 进行刷新。这会导致在一帧内需要绘制大量 UI 组件，从而影响应用性能。为了解决这个问题，我们采用分帧方案，将数据 a、b、c 拆分开，分别在不同的帧中进行渲染。例如，数据 a 在第一帧中渲染完成后，通过调用宏观指令让其进入下一阶段，然后在下一帧中更新数据 b，依此类推。

在小红书的图文笔记场景中，分帧方案得到了应用。当用户在首页的双列场景中点击一篇笔记进入笔记详情页时，这个过程涉及到许多组件的加载。我们可以将这些组件拆分成不同的帧，例如帧 a、帧 b 和帧 c。对于用户而言，他们通常希望在第一时间看到整个大屏的画面，因此我们会优先在帧 a 中展示大图。而在帧 b 和帧 c 中，我们再处理顶部导航栏或底部交互区等内容。通过这种分帧策略，我们能够确保用户在第一时间看到最关键的内容，同时避免了因为一次性加载过多组件而导致的性能问题。

10、鸿蒙NEXT调优工具

传统的主观工具对于鸿蒙 OS 的性能分析仍然适用。例如，抖音和小红书都通过竞品分析来进行主观测评。这种能力主要是通过录屏来展示整个流程的耗时和时长，特别适合评估冷启动完成时延和转场过程的性能。通过录屏，我们可以逐帧查看用户从点击开始到结束的帧数和真实时长，以此来衡量整个过程的持续时间。

10.1 鸿蒙性能分析工具：IDE Profiler

除了主观工具，我们还可以使用 IDE 提供的性能分析工具，如 Profiler，来分析慢函数。由于 ArkTS 编程语言框架主要通过 RTS 和 NAPI（原生应用接口）进行关联，因此需要能够查看 ArkTS 和 NAPI 的整个堆栈层级。这与安卓有所不同，因为当 Java 通过 Java Native API 与原生代码交互时，堆栈并不那么容易查看。

在小红书的性能分析中，我们展示了一个整体线程分析的例子。在左侧，可以看到小红书的主线程（如 com 点开头的线程）、Daemon 线程、Worker 线程以及 FFRT 线程。FFRT 是一种运行函数流的线程，可以执行 TaskPool 上的函数。在下图右侧，我们可以看到在 RTS 环境下的分析结果，其中顶部显示了 NAPI 调用，底部则是一些 C++ 函数。整个调用栈和它们的执行时长是通过一种自上而下的视图来展示的。利用这种视图，我们可以精确地识别出哪些慢函数是造成界面卡顿的原因。

10.2 性能场景测试工具：DevEco Testing

DevEco Testing 是一个性能测试工具，它的功能非常全面，性能测试只是其中的一部分。除了性能测试，它还支持多种测试场景，包括 debug testing。在 debug testing 场景中，用户可以自定义业务场景，监测 CPU 的耗时和负载、GPU 的耗时和负载、设备发热情况以及功耗等问题。

使用 DevEco Testing 进行性能测试的过程如下：首先定义测试场景，然后捕获主帧数据。一旦开始捕获，就可以观测到 FPS（帧率）、GPU 负载以及整体功耗等数据。完成性能数据捕获后，工具会生成一份报告，为用户提供了一个完整的场景分析。不过，目前场景定义还缺乏脚本化能力，需要人工操作辅助。未来，我们期望能够实现场景定义的脚本化配置，类似于自动化测试。这样，就可以通过自动化工具，实现更高效的测试流程。

11、小结与展望

在对性能场景进行优化后，我们可以看到显著的收益。在实验室环境下的测试显示，冷启动时间可以降低 50%，响应时延可以低于 100 毫秒，完成时延则保持与双端持平或更优。在流畅性方面，在多场景和重载场景下均实现了 0 丢帧的成果。需要注意的是，这里的测试是在非重载模式下进行的，即没有同时运行多个资源密集型应用，如《王者荣耀》或《和平精英》等。在这种条件下，我们的核心场景，如冷启动、搜索和个人页等，都能够与双端完全对齐。

展望未来，有几个方向：

1）首先：我们希望能够在全场景下实现组件复用，以最大程度地实现 UI 复用。这样可以在多个业务之间的转场或 UI 创建过程中，将不必要的 UI 创建和消耗降到最低。

2）其次：我们正在考虑代码延迟加载的 lazy 机制。华为内部可能将其作为通用的解决方案，但在实施过程中我们发现了许多问题，例如全 lazy 加载可能会影响第三方 SDK，如支付宝等，因为它们可能进行了额外的二进制优化，导致加载失败或无法响应。因此，我们期望通过代码延迟加载来实现持续治理，但目前它可能还不适合全场景的 lazy import。

3）最后：我们关注防劣化问题，即在每个版本发布时，我们不希望性能指标出现劣化。我们希望能够在开发阶段就定义劣化指标和具体数据，以防止应用劣化。这部分可能需要借助 DevEco Testing 和主观测评的方式来实现。包括我们关注的指标，例如冷启动和流畅性等，未来可能会纳入防劣化场景。目前，我们的 CI 环节或 RC 环节，包括流水线的性能管控和代码 CR 机制，都能够规避这类问题。

12、相关资料

[1] 鸿蒙NEXT官方开发指南

[2] 一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

[3] 鸿蒙NEXT如何保证应用安全：详解鸿蒙NEXT数字签名和证书机制

[4] 开源IM聊天程序HarmonyChat：基于鸿蒙NEXT的WebSocket协议

[5] 微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！

[6] 即时通讯框架MobileIMSDK的鸿蒙NEXT端详细介绍

[7] 即时通讯框架MobileIMSDK的鸿蒙NEXT端开发者手册

[8] 拥抱国产化：转转APP的鸿蒙NEXT端开发尝鲜之旅

[9] 微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

[10] 微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

[11] IM跨平台技术学习(九)：全面解密新QQ桌面版的Electron内存优化实践

[12] 企业微信针对百万级组织架构的客户端性能优化实践

[13] 揭秘企业微信是如何支持超大规模IM组织架构的——技术解读四维关系链

[14] 微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

[15] 微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

[16] 大型IM工程重构实践：企业微信Android端的重构之路

[17] IM技术干货：假如你来设计微信的群聊，你该怎么设计？

[18] 微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

[19] 总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化

[20] 首次公开，最新手机QQ客户端架构的技术演进实践

[21] 大型IM稳定性监测实践：手Q客户端性能防劣化系统的建设之路

（本文已同步发布于：http://www.52im.net/thread-4821-1-1.html）

posted @ 2025-05-19 11:24 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

全平台开源即时通讯IM聊天框架MobileIMSDK的服务端开发指南，支持鸿蒙NEXT

摘要: 全平台开源即时通讯IM聊天框架MobileIMSDK的服务端开发指南，支持鸿蒙NEXT 阅读全文

posted @ 2025-05-15 12:27 Jack Jiang 阅读(67) | 评论 (0) | 编辑收藏

全平台开源即时通讯IM框架MobileIMSDK：7端+TCP/UDP/WebSocket协议，鸿蒙NEXT端已发布，5.7K Stars

一、基本介绍

MobileIMSDK是一套全平台原创开源IM通信层框架：

超轻量级、高度提炼，lib包50KB以内；
精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
客户端支持iOS、Android、标准Java、H5、微信小程序、Uniap、鸿蒙Next(Demo完整源码)；
服务端基于Netty，性能卓越、易于扩展 new；
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

二、源码仓库同步更新

GitHub.com：

代码托管： https://github.com/JackJiang2011/MobileIMSDK
技术社区：点击查看更多资料

码云gitee：

代码托管： http://git.oschina.net/jackjiang/MobileIMSDK
技术社区：点击查看更多资料

三、设计目标

让开发者专注于应用逻辑的开发，底层复杂的即时通讯算法交由SDK开发人员，从而解偶即时通讯应用开发的复杂性。

四、框架组成

整套MobileIMSDK框架由以下7部分组成：

Android客户端SDK：用于开发Android版即时通讯客户端，支持Android 4.0及以上版本，查看API文档；
iOS客户端SDK：用于开发iOS版即时通讯客户端，支持iOS 12.0及以上版本，查看API文档；
Java客户端SDK：用于开发跨平台的PC端即时通讯客户端，支持标准Java 1.6及以上版本，查看API文档；
H5客户端SDK：查看精编注释版；
微信小程序端SDK：查看精编注释版；
Uniapp端SDK：查看精编注释版；
鸿蒙Next端SDK：SDK暂无开源版（查看精编注释版），Demo完整工程源码；
服务端SDK：用于开发即时通讯服务端，支持Java 1.7及以上版本，查看API文档；

整套MobileIMSDK框架的架构组成：

MobileIMSDK一直在持续开发和升级中，鸿蒙Next客户端是MobileIMSDK工程的最新成果。

五、技术特征

久经考验：历经10年，从Andriod 2.3、iOS 5.0 时代持续升级至今（绝不烂尾）；
超轻量级：高度提炼，lib包50KB以内；
多种协议：可能是全网唯一开源可同时支持UDP、TCP、WebSocket三种协议的同类框架；
多种网络：精心优化的TCP、UDP、WebSocket协议实现，可应用于卫星网、移动网、嵌入式物联网等场景；
多端覆盖：客户端支持iOS、Android、标准Java、H5、微信小程序、Uniapp、鸿蒙Next；
高效费比：独有的UDP协议实现，无连接特性，同等条件下可实现更高的网络负载和吞吐能力；
消息走向：支持即时通讯技术中消息的所有可能走向，共3种（即C2C、C2S、S2C）；
粘包半包：优雅解决各端的TCP经典粘包和半包问题，底层封装，应用层完全无感知；
QoS机制：完善的消息送达保证机制（自动重传、消息去重、状态反馈等），不漏过每一条消息；
健壮可靠：实践表明，非常适于在高延迟、跨洲际、不同网络制式环境中稳定、可靠地运行；
断网恢复：拥有网络状况自动检测、断网自动治愈的能力；
原创算法：核心算法和实现均为原创，保证了持续改进和提升的空间；
多种模式：预设多种实时灵敏度模式，可根据不同场景控制即时性、流量和客户端电量消耗；
数据压缩：自有协议实现，未来可自主定制数据压缩，灵活控制客户端的流量、服务端网络吞吐；
高度封装：高度封装的API接口，保证了调用的简易性，也使得可应用于更多的应用场景；
Web支持：可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
扩展性好：服务端基于Netty，继承了Netty的优秀高可扩展性；
性能优异：服务端继承了Netty高性能、高吞吐特性，适用于高性能服务端场景。

六、演示程序

Android客户端 Demo：点此安装和使用；
iOS客户端 Demo：点此安装和使用；
Java客户端 Demo：点此安装和使用；
H5客户端 Demo：点此查看介绍；
微信小程序端 Demo：点此查看介绍；
Uniapp端 Demo：点此查看介绍；
鸿蒙Next端 Demo：点此查看介绍 new；
服务端 Demo：点此安装和使用。

七、应用案例

RainbowChat是一款基于MobileIMSDK的产品级聊天APP，更多详情：点击下载体验或查看运行截图。

① 基于MobileIMSDK的产品级聊天APP：

▶ 详细介绍、下载体验或查看运行截图。

② MobileIMSDK在高网络延迟下的案例：

▶ 某款基于MobileIMSDK的商业商品，曾运营于跨洲际的复杂网络环境下，端到端通信延迟在洲际网络繁忙时可高达600ms以上（与服务端的单向延迟约为300ms左右，而通常大家访问国内主流门户的延迟约为20~50ms），某段时期的非敏感运营数据点此查看。

八、打包下载（all in one）

① 最新发布版（国外地址）：Github打包下载
② 最新发布版（国内地址）：码云gitee打包下载（访问速度快！）

说明：最新发布版打包内容中，已包含完整的demo源码、sdk源码、api文档、编译后的分发包等。

九、典型应用场景

场景1：聊天APP

应用说明：可用于开发类似于微信、QQ等聊天工具。

消息走向：需使用C2C、C2S、S2C全部类型。

特别说明：MobileIMSDK并未定义聊天应用的应用层逻辑和协议，开发者可自行定义并实现之。

场景2：消息推送

应用说明：可用于需要向客户端实时推送信息的各种类型APP。

消息走向：仅需使用S2C 1种消息走向，属MobileIMSDK的最简单应用场景。

场景3：企业OA

应用说明：可用于实现企业OA的指令、公文、申请等各种消息实时推送，极大提升用户体验，并可延伸至移动设备。

消息走向：仅需使用S2C 1种消息走向，属MobileIMSDK的最简单应用场景。

场景4：企业OA的增强型

应用说明：可用于实现企业OA中各种系统级、用户级消息的实时互动，充分利用即时通讯技术提升传统OA的价值。

消息走向：可使用C2C、C2S、S2C全部类型，这与聊天APP在很多方面已无差别，但企业OA有自已的用户关系管理模型和逻辑，较之全功能聊天APP要简单的多。

十、开发指南

Android客户端开发指南：点此查看；
iOS客户端开发指南：点此查看；
Java客户端开发指南：点此查看；
H5客户端开发指南：点此查看；
微信小程序端开发指南：点此查看；
Uniapp端开发指南：点此查看；
鸿蒙Next端开发指南：点此查看；
Server端开发指南：点此查看。

附录1：Demo截图

1、在鸿蒙Next端运行效果：

>> 编译和运行：查看鸿蒙Next端Demo完整源码。

2、Android端、iOS端运行效果

>> 安装和使用：进入Android版Demo帮助页、进入iOS版Demo帮助页。

3、H5端运行效果

4、微信小程序端运行效果

5、Uniapp端运行效果

6、Windows 运行效果

>> 安装和使用：进入Java版Demo帮助页。

7、Mac OS X 运行效果

>> 安装和使用：进入Java版Demo帮助页。

8、MobileIMSDK-Web版客户端Demo运行效果：

8.1）MobileIMSDK-Web在手机端浏览器运行效果：（如何获取MobileIMSDK-Web版：点此进入）

8.2）MobileIMSDK-Web在PC端浏览器运行效果：（如何获取MobileIMSDK-Web版：点此进入）

附录2：基于MobileIMSDK的全功能IM【案例】

>> 关于RainbowChat的更多资料请见：RainbowChat前端APP功能截图网页（* 推荐 - 真机实拍视频：Andriod端、iOS端）。

附录3：基于MobileIMSDK-Web的网页端IM系统【案例】

下图为RainbowChat-Web的主界面（更多截图点此进入、更多演示视频点此进入）：

下图为RainbowChat-Web的主界面[聊天窗全屏时] （更多截图点此进入、更多演示视频点此进入）：

下图为RainbowChat-Web的主界面[独立UI效果] （更多截图点此进入、更多演示视频点此进入）：

（以上内容同步发布于：http://www.52im.net/thread-52-1-1.html ）

posted @ 2025-04-29 15:29 Jack Jiang 阅读(102) | 评论 (0) | 编辑收藏

拥抱国产化：转转APP的鸿蒙NEXT端开发尝鲜之旅

本文由转转技术团队赵卫兵分享，原题“鸿蒙新篇章：转转 APP 的 HarmonyOS Next 开发之旅”，下文进行了排版优化和内容修订。

1、引言

2023 年在华为开发者大会（HDC.Together）上，除了面向消费者的 HarmonyOS 4 之外，华为还推出了面向开发者的 HarmonyOS Next 开发者预览。

而在去年的 6 月份华为开发者大会上，对外开启了 HarmonyOS Next Beta 版，并在当年内正式推出面向消费者的商用版本。

HarmonyOS Next，是鸿蒙生态的一个重要拐点。去年的时候，转转和华为已经达成合作，作为鸿蒙先锋的一员，加入到鸿蒙应用的开发之中来。

客户端从 2023 年 11 月份开始，人力开始逐渐的往这个方向投入，于 2024 年 2 月份正式开始进入业务开发，在 6 月 4 号，对外正式发布了基于 HarmonyOS Next 系统的转转 App 首个版本。

从早期的学习到最终第一个版本上线，我们经历了以下几个阶段：

1）前期的熟悉和学习过程；
2）鸿蒙客户端基建开发过程；
3）首个版本需求范围确定和排期；
4）业务开发；
5）测试；
6）bug 修复/性能调优；
7）上线。

本文将要分享的是转转APP在开发全新鸿蒙NEXT端所遇到的一些问题，对比了鸿蒙开发和 Android、iOS 的不同，总结了这次开发过程中的一些经验等等。希望能带给你启发。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4820-1-1.html）

2、关于作者

赵卫兵：目前负责转转集团 iOS 和鸿蒙系统 App 基础架构和相关基础建设。崇尚开源和分享精神，Sharing is everything ~

转转团队分享的其它几篇技术文章有兴趣也可读一读：

3、初识鸿蒙NEXT

3.1 分布式技术

HarmonyOS Next 具备强大的分布式技术，能够实现跨设备协同工作。用户可以无缝地在不同的设备间切换和使用应用，无需感知设备的差异。HDC 大会中如 WPS Office、高德等 APP，使用了应用接续特性，在不同设备中进行流转，令人印象深刻。这点在 iOS 和 Android 中并不完全具备。

3.2 高性能低时延

HarmonyOS Next采用轻量级的微内核设计。

iOS 使用的内核基于 XNU（X is Not Unix）内核，XNU 是一个混合内核，结合了微内核（Mach 内核）的内存管理、任务调度、进程间通信等特性和宏内核（BSD 内核）的文件系统、网络堆栈、用户进程管理等特性。

Android 内核基于修改过的 Linux 宏内核，增加了 Binder IPC、电源管理、安全性等模块和机制，以更好的支持移动设备。

鸿蒙的微内核设计，官方称相比宏内核，具备更高的性能和更低的时延，从而在多任务处理、设备响应和处理能力上具有明显优势。

3.3 自适应UI框架

通过 ArkUI和ArkTS，HarmonyOS Next能够适应各种尺寸和形状的屏幕设备，提供一致友好的用户体验。这个特性在跨设备协同时尤其重要。

3.4 多终端、多OS支持

HarmonyOS Next 不仅仅是一个手机操作系统，还能运行在平板、智能穿戴设备、智能家居设备等多种终端上，统一生态系统。对比苹果的iOS，MacOS，TVOS，WatchOS，确实有些不同。但对于应用开发者而言，其实就是API的能力集合问题，这一点，鸿蒙使用 SysCap 系统能力集合达到了殊途同归的效果。

3.5 更优秀的安全性

在应用安全层面，目前在应用的生态中有以下一些问题：

1）诱导用户下载安装恶意应用；
2）窃取用户数据；
3）强制推送广告；
4）利用漏洞攻击其他应用程序；
5）盗版软件。

这方面，由于Android 的开放性以及侧载安装的支持，问题表现的尤为明显，而 iOS 是一个可以学习的老师。

针对上面的问题，HarmonyOS Next 又是如何应对的呢？

1）做好应用质量的监管，控制应用分发渠道，避免恶意应用分发到用户设备上；
2）提供安全的数据授权机制，避免用户过度授权造成安全威胁；
3）给应用程序开放的系统功能做到不被恶意利用；
4）帮助应用程序最小程度的受到漏洞影响；
5）为应用程序提供有效的核心数字产权保护手段，避免出现盗版软件问题。

具体可以看下图：

（图片来自《鸿蒙生态应用安全技术白皮书 V1.0》）

4、和Android、iOS的开发有何不同？

鸿蒙开发上，和 Android、iOS 还是有不少相似和不同的地方，我挑选感受比较深刻的几个点说下。

4.1 开发语言和工具链

鸿蒙开发使用的是ArkTS 语言，ArkTS基于 TypeScript 做了一些扩展，继承了 TypeScript 的所有特性，是 TypeScript 的超集。

下面是官方的一些介绍：

ArkTS的一大特性是它专注于低运行时开销。ArkTS对TypeScript的动态类型特性施加了更严格的限制，以减少运行时开销，提高执行效率。通过取消动态类型特性，ArkTS代码能更有效地被运行前编译和优化，从而实现更快的应用启动和更低的功耗。
与JavaScript的互通性是ArkTS语言设计中的关键考虑因素。鉴于许多移动应用开发者希望重用其TypeScript和JavaScript代码和库，ArkTS提供了与JavaScript的无缝互通，使开发者可以很容易地将JavaScript代码集成到他们的应用中。这意味着开发者可以利用现有的代码和库进行ArkTS开发。

在开发工具上：使用的 IDE 是 DevEco Studio，基于 IntelliJ IDEA Community 开源版本打造，为开发者提供工程模板创建、开发、编译、调试、发布等功能。华为在这个 IDE 上针对鸿蒙开发易用性上做了大量的工作，包含但不限于编译器，代码实时预览、ArkUI Inspector、Profile 性能分析工具等等。

在包管理上：有点类似前端的 npm 包管理机制，不过在这块，是叫 ohpm，整体上非常相似，但是细节上有一些不同，譬如 package.json 的文件命名、lock 文件的内容信息、独立的开源中心仓等等。仓库这块也提供了私仓部署的方式，采用套件工具中的 ohpm-repo就可以部署到企业内部服务器上。

在调试上：和 Android 的 ADB 类似，鸿蒙这块提供了一个 hdc 的工具，提供了类似查询设备列表、网络、文件、应用安装卸载、shell、日志获取等常用功能。

4.2 开发体验

鸿蒙开发是用 ArkUI，类似 Flutter，SwiftUI 这样的声明式 UI，ArkUI 组件的命名和状态管理和 SwiftUI 比较类似，上手比较容易。

4.3 开发资料和交流

Android 从 2008 年谷歌布，iOS 从 2007 年苹果发布，距离到现在已经有了 16～17 年之久，在这期间，互联网上积累了无数的开发资料和经验分享，也有着大量的开源项目和社区。

而有关 HarmonyOS Next 方面的资料，目前更多的是官方开发指南和开源范例（集中在 gitee 上）。

社区方面，主要是华为开发者论坛，受限于开发者版本的迅速迭代，一些帖子讨论的内容已经过时且不再适用。

而在博客、github 开源上，目前看到的其实并不多，更多的分享还是比较基础，深度有价值的还不多。

目前在这个阶段，更多的是企业和华为合作的情况下，内部使用 Issue 工单系统进行沟通交流。交流主要围绕着需求、Bug 反馈、指南疑问来展开。

譬如：

1）指南资料中提供的能力，不满足诉求，交流是否有更好的解决方案；
2）API 、IDE、工具链表现不符合预期，反馈 bug；
3）系统能力类比 Android、iOS 缺失的特性，交流是否有替代的解决方案。

截止到本篇文章写的时候，转转华为工单交流的总数已达到 270+个。反馈的 bug 和缺失的能力，在后面的开发者预览版本中都被修复或支持了。

印象比较深刻的一件事是：开发和测试期间我们发现了停留在登录页面不动，过个10 分钟左右，系统就会卡死重启，我们一度以为是 App 哪里有 bug。我们通过 hdc hilog 抓取系统输出的日志，发现大约过了 10 分钟左右，log 就会死循环打印，很明显系统底层发生了一些异常。已经晚上快 1 点了，我们兴奋的找到和我们对接这个问题的华为工程师张老师，将视频和日志发送给他，张老师按照复现的路径，也成功复现出来，并且抓取到日志。后面的几天，经过华为伙伴的努力，终于定位到问题所在，是文件句柄 FD 存在泄露的情况，并在下一个开发者版本中推送修复了。

为华为工程师的敬业和效率竖一个大拇指，华为之所以强大，从这件事的跟进和解决效率上，就能理解到为什么。

5、踩坑后总结的几个经验

5.1 类比学习

投入鸿蒙开发的客户端同学，有来自 Android 开发的，也有来自 iOS 开发的，或多或少对另外一端的系统了解的不是很全面。

在学习的过程中，我们发现鸿蒙的一些特性和 API 设计，有些和 iOS 比较像，而有些和 Android 有些像。我们内部经常讨论交流和理解 HarmonyOS Next 的应用层设计问题。在方案选择上，HarmonyOS Next 中都有借鉴和取舍。

这个阶段：我们需要重点理解鸿蒙特有的一些设计概念和思想。譬如 Stage 模型，Stage模型是从 API 9 开始新增的模型，是目前主推且会长期演进的鸿蒙应用模型。在该模型中，由于提供了 AbilityStage、WindowStage 等类作为应用组件和 Window 窗口的“舞台”，这种方式在 Android、iOS 上是不是有类似的概念呢？

如果我们如下类比 Android、iOS。

AbilityStage 和 WindowStage：

1）在 iOS 中，与 UIViewController 和 UIWindow 类似。UIViewController 管理视图层次和界面行为，而 UIWindow 是应用程序的窗口，可以显示内容；
2）在 Android 中，可以类比于 Activity 和 Window。Activity 是应用的单个屏幕，负责界面的创建和管理，而 Window 是 Activity 的顶层视图容器。

UIAbility 和 ExtensionAbility：

1）UIAbility 可以和 iOS 的 UIViewController 以及 Android 的 Activity 相对应，因为它们都是用于管理和显示用户界面的基本单元。
2）ExtensionAbility 可以类比于 iOS 的 App Extension 和 Android 的 Service。App Extension 提供了将功能扩展到系统范围内的能力，而 Service 在 Android 中则是运行在后台的组件，执行长时间运行的操作。

虽然细节有所不同，但大方向上这样对比和类比，会帮助我们快速理解鸿蒙相关开发概念。

5.2 项目管理和风险方案应对

首个版本的开发，几乎涉及到了公司所有的业务部门，我们通过启动会拉齐背景信息，前期让大家梳理到新增一个鸿蒙终端对业务的影响范围，以及解决方案。

1）PlanB 方案：

一些三方 SDK 如微信、支付宝等在前期都是没有的，我们首个版本需要做好 PlanB 方案。涉及到的包括登录、支付、分享等业务，都需要针对这些进行调整。

2）有限的测试机：

因为业务部门参与进来的很多，但工程样机十分有限。服务端和前端同学代码调整完毕后如何测试呢？这个是我们不得不考虑的一件事情。

新增一个鸿蒙终端，服务端调整后端代码，在测试和沙箱测试时，除了回归不要影响 Android 和 iOS 之外，还要能保证针对鸿蒙的兼容调整是有效的。鉴于鸿蒙测试机器十分有限，我们给 Server 同学提供了 Android 测试包，将 Android 测试包的终端 mock 成鸿蒙终端来供服务端测试接口，这样子测试下来十分高效。

针对前端同学：不能再向刚才那样做了，毕竟是用 Android 的 WebView。即便我们 WebView 的 UserAgent mock 成 Android 系统，使得通信和交互仍然走类似 Android 的策略，而这样并不能代表真实的鸿蒙 WebView 环境，因为在 Next 系统中整个 Native 和 Webview 的通信 Bridge 是全新的一套方案，且鸿蒙的 API 实现接口也都需要走鸿蒙侧来测试。针对这个情况，我们非常谨慎小心的将各个业务部门的参与进来的时间错开，尽力保证在有限测试机的情况下，每个业务轮转参与进来的时候都是有机器的。

5.3 多和华为伙伴进行沟通

这部分的经验，具有一定的时效性。后期商用版本发布之后，可能这样的沟通渠道、频次很难再有了。

为什么要多和华为伙伴时刻保持密切的沟通？有几个印象深刻的例子。

1）第一个例子：路由

鸿蒙关于页面跳转提供了两套解决方案，一套是页面路由 router，一套是组件导航 Navigation。前期我们在基建开发期间，采用的页面路由 router 方案，@zz/router 组件代码已经开发完毕了，但是到了开发 WebView 的 Hybrid 接口时，才意识到一个严重的问题，就是 router 提供的能力，并不能满足我们复杂的页面栈管理，譬如在页面栈中多个 WebView，我们需要关闭指定的 WebView 页面，router 提供的 API 能力是无法做到的。和华为沟通后才知道，官方是推荐 Navigation 来实现，且未来 router 方案不再演进。我们提出的复杂页面栈管理的能力，彼时 Navigation 支持的还不完整，但是伙伴告诉我们，他们会在 Navigation 上满足我们的需求。关闭页面栈中指定 index 或者 name 的页面，相信其他开发者也都会遇到，应该是一个普遍的需求。

基于这种情况，我们不得不迅速调整我们的路由组件，基于 Navigation 重新设计了一套路由方案，还好项目业务还没有开始大量开发，要改动的地方也不是很多，如果沟通再晚点，恐怕调整起来代价会相对更高点。此时的沟通，让我们少走了弯路，避免在 router 上走投无路死磕方案。

2）第二个例子：企业分发

企业分发通常用于企业内部测试、企业内部 App 等。Dev 证书和 iOS 的 Dev 证书类似，Provisioning Profile（p7b 文件）会有 100 台设备的限制。考虑到将来，转转也想依赖企业分发能力，可以在测试中采用企业签名打包来进行测试。虽说在当前阶段不是硬性和必要的，但是我们还有一个转转质检 App，这个 App 我们不能通过 AGC 后台上架华为市场，因为在质检中心，如果不走内部分发安装，那么我们将会面临着外网下载，会给质检中心的带宽带来很大的负载以及成本。

我们密切关注者企业分发能力的就绪时间，在今年的 5 月份，AGC 后台企业分发能力提供之后，立即进行了全流程处理，包括申请企业开发者、申请证书以及测试走通下载整个过程。这种情况下，通过及时交流，我们可以第一时间进行测试实践，有效降低或者避免了未来方案上的一些风险。

3）第三个例子：安全控件与系统 Picker

相信广大开发者今年刚开始介入 HarmonyOS Next 开发时，对于使用到的一些权限，如读取剪贴板，读取或者保存图片到相册等等这些 ACL（Access Control List）访问控制列表权限，都是通过在开发者后台勾选这些权限从而实现在应用中弹窗许可访问。但是在今年 6 月份的沟通中，我们获知后面要让开发者全部适配到安全控件方案。这些安全控件都是系统提供的选择器，使用之后，每次需要用户明确操作才行。

目前在 Android 和 iOS 中，如果想要在应用中上传一张照片，就需要同意该应用获得图库的访问权限，而带来的弊端就是，这个应用今后可随意访问你图库中的所有图片。相比之前的授权弹窗许可一次之后，可能造成的权限滥用，安全控件提升了用户对敏感权限的操作感知，算是 HarmonyOS Next 在保障用户隐私安全方面的一个亮点和优势。

这其中的核心理念便是从权限管控到数据管控。在 Android 和 iOS 原本的权限管控方案中，比如一旦给了通讯录权限，那么相当于把通讯录的钥匙给予了应用开发者，如果开发者违规使用，在用户不知情的读取整个通讯录，其实是不符合用户的隐私要求。而数据管控便是不会再把通讯录的钥匙给开发者，而是你要什么样的通讯录数据，那么你只能通过通讯录安全选择控件中来选择想要读取的通讯录，不再让应用随意获取整个通讯录数据。

关于安全控件我们进行了多次沟通，了解了安全控件在华为侧推进的节奏以及我们整改的期限时间等，另外我们也提出个别场景，安全控件还不足以满足诉求，譬如用户保存图片到相册，还没有对应的安全控件能力。这方面的沟通，会让我们及时的对 App 的隐私合规性做出优化调整，避免后面因为隐私权限问题而影响上架。

及时沟通对于了解 Bug 的解决情况，功能交付时间、华为伙伴的要求等都是很有必要的，因为这些都会影响到开发测试到上线的一个节奏。

6、鸿蒙NEXT上的WebView混合页面开发

6.1 概述

回到我们大前端来，得提一下大家关注的 WebView。在 HarmonyOS Next 中仍然沿用之前统一的 WebView 架构。

在 V1 版本中，需要做的核心工作包括：

1）实现 WebView Core 层；
2）JSBridge 层，新增实现 HarmonyOS Next 的 Bridge 通信；
3）平移安全层能力；
4）实现 Hybrid API 接口，也就是 Ability 层的能力。

需要特别提一下的是：HarmonyOS Next 使用的 Web 浏览器基于 ArkWeb（方舟Web内核），该内核基于 Chrome 114 版本定制，对于各种 CSS、HTML、JS 属性在各大浏览器中的兼容性情况可以使用 https://caniuse.com/#home 这个网站进行查询。

6.2 前期如何确定影响范围和制定方案

Ability 层的接口：转转的 WebView 历经多年的演进，Native 与 WebView 的交互 API 是有一定历史包袱的。我们不希望鸿蒙这次继续背着包袱前行，所以我们计划趁着这次前端业务兼容鸿蒙的机会，进行一波优化，丢弃一些已经计划不再使用的能力或者接口。比如老的半屏 WebView 方案，导航栏按钮功能设置方案、非统跳的页面跳转接口等。

但一个方案的确定要充分考虑客户端实现的难易程度以及前端大量业务侧统一修改的难度代价，需要做到尽可能的合理平衡。为了确定这点，我们根据线上最近一个月中URL 中接口调用的埋点日志，结合 URL 查询所属业务、开发测试负责人的内部接口，整理了一张巨大的二维矩阵表，通过在线表格的过滤、筛选等功能，可以非常直观的看到所有还在使用中的接口的业务调用分布情况，为我们评估方案改造工作量提供了重要的参考。

一个 Hybrid API 在鸿蒙上支持情况，分为下面几种情况。

a）直接支持，前端无需修改：提供和 Android、iOS 一样的接口能力：

1）功能对等：能力实现和 Andriod、iOS 一样；
2）简化：比如浏览大图、奢侈品鉴定，暂时使用简版选图方案。

b）推荐使用新方案：

1）譬如导航栏相关按钮的能力、新半屏能力；
2）如 enterChat 等等功能，使用统跳接口来实现跳转。

c）不支持：

1）业务下线：业务不再需要，下线处理；
2）版本初期不考虑该功能；
3）某端特定功能：为了解决某个问题，某端专门增加的一个 api 供使用；
4）系统能力不支持：HarmonyOS Next 没有该项能力。

最终根据这些原则，我们确定下来 V1 版本中 WebView API 的需求范围、涉及业务方、改动方案。现在回想起来，当时我们做的这一步是非常有必要的，前期这些如果没有梳理清楚，后面就非常容易造成沟通混乱以及影响开发进度。

6.3 关于性能

转转前端的页面主要是 Web 形态，Hybrid 场景占据多数。在过去的几年中，我们围绕 Hybrid 形态，摸索出了一系列 Web 页面的优化方案。从基础的离线包，到复杂的预渲染、预请求等都有涉及。最终实现了 Hybrid 页面与 Native 页面在电商场景下，相差无几的体验。

目前鸿蒙在这块优化上，还都没来得及跟进这些优化手段。这个也是后面要继续建设的一个方向，最终要拉齐到和Android、iOS 一样的性能优化体验。

7、后续开发展望

首个版本上线，只是一个起点。

在业务上，我们将不断的继续追平 Android、iOS 中那些重要的模块和功能；

在开发工具体验和支持上，也逐渐补足缺失的能力，比如丰富的Native、WebView小工具能力，进一步提升客户端和前端在 HarmonyOS Next 下的开发体验。

在性能体验上，持续的关注和跟进性能问题，优化 WebView 以及 Native 的使用体验，提升 App 的流畅度和响应速度。

在创新上，我们将持续探索，将更多的 HarmonyOS Next 下的创新场景，如元服务、意图推荐等等融入到转转 App 中，提升用户的购物使用体验。

要做的事情很多，我们会在后续迭代中逐步完善起来这些能力，敬请期待。

8、相关资料

[1] 鸿蒙NEXT官方开发指南

[2] 一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

[3] 鸿蒙NEXT如何保证应用安全：详解鸿蒙NEXT数字签名和证书机制

[4] 开源IM聊天程序HarmonyChat：基于鸿蒙NEXT的WebSocket协议

[5] 微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！

[6] 即时通讯框架MobileIMSDK的鸿蒙NEXT端详细介绍

[7] 即时通讯框架MobileIMSDK的鸿蒙NEXT端开发者手册

[8] 转转平台IM系统架构设计与实践(一)：整体架构设计

[9] 转转平台IM系统架构设计与实践(二)：详细设计与实现

[10] Web端IM聊天消息该不该用浏览器本地存储？一文即懂

[11] 手把手教你使用网络编程抓包神器Wireshark

（本文已同步发布于：http://www.52im.net/thread-4820-1-1.html）

posted @ 2025-04-23 10:50 Jack Jiang 阅读(77) | 评论 (0) | 编辑收藏

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

摘要: 本文由企业微信客户端团队黄玮分享，原题“在流沙上筑城：企微鸿蒙开发演进”，下文进行了排版优化和内容修订。1、引言当企业微信团队在2024年启动鸿蒙Next版开发时，我们面对的是双重难题：1）在WXG小团队模式下，如何快速将数百万行级企业应用移植到全新操作系统？2）在鸿蒙API 还是Preview的初期，如何保持业务代码的稳定，在API快速更新的浪潮中岿然不动？DataLis... 阅读全文

posted @ 2025-04-15 11:22 Jack Jiang 阅读(98) | 评论 (0) | 编辑收藏

鸿蒙NEXT如何保证应用安全：详解鸿蒙NEXT数字签名和证书机制

摘要: 本文由美团技术团队张晨分享，原题“鸿蒙应用签名实操及机制探究”，下文进行了排版优化和内容修订。1、引言华为鸿蒙单框架操作系统HarmonyOS NEXT已于2024年10月23日正式发布Release版。HarmonyOS NEXT仅支持鸿蒙原生应用，不再兼容安卓。本文对鸿蒙NEXT公开资料进行了深入分析和解读，梳理了鸿蒙单框架应用的签名机制，拆解每一步的实操过程和背后的实... 阅读全文

posted @ 2025-04-09 11:51 Jack Jiang 阅读(90) | 评论 (0) | 编辑收藏

全民AI时代，大模型客户端和服务端的实时通信到底用什么协议？

摘要: 本文由阿里云望宸分享，原题“大模型推理主战场：什么才是通信协议标配？”，下文进行了排版优化和内容修订。1、引言DeepSeek 加速了模型平权，随之而来的是大模型推理需求的激增，大模型性能提升的主战场从训练转移到了推理。推理并发的提升，将催生计算、存储、网络、中间件、数据库等领域新的工程化需求。本文将分享 SSE 和 WebSocket 这两个AI大模型应用的标配网络通信协... 阅读全文

posted @ 2025-03-27 15:14 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

零基础IM开发入门(五)：什么是IM系统的端到端加密？

本文由夏冰软件cc分享，下文进行了排版和内容优化。

1、引言

本文接上篇《什么是IM系统的消息时序一致性？》，本篇将通俗易懂地讲解IM系统中的端到端加密原理，为了降低阅读门槛，相关的技术概念会提及但不深入展开。

IM即时通讯系统的技术本质是“即时消息技术”，是互联网实时互动场景的底层架构，包括聊天、直播、在线客服等业务领域在内，所有需要实时互动、高实时性的场景，都需要用到IM技术。而为了让即时通讯更安全，高安全场景下的IM系统通常会使用端到端加密技术进行通讯加密。下面我们就来了解一下端到端加密技术在IM系统中的应用。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4792-1-1.html ）

2、系列文章

《零基础IM开发入门(一)：什么是IM系统？》
《零基础IM开发入门(二)：什么是IM系统的实时性？》
《零基础IM开发入门(三)：什么是IM系统的可靠性？》
《零基础IM开发入门(四)：什么是IM系统的消息时序一致性？》
《零基础IM开发入门(五)：什么是IM系统的端到端加密？（* 本文）》
《零基础IM开发入门(六)：什么是IM系统的的心跳机制？ (稍后发布)》
《零基础IM开发入门(七)：如何理解并实现IM系统消息未读数？ (稍后发布)》
《零基础IM开发入门(八)：如何理解并实现IM系统的多端消息漫游？ (稍后发布)》

3、网络通讯数据加密的3个层次

3.1 概述

一般的数据加密可以在通信的3个层次来实现：链路加密、节点加密和端到端加密。

3.2 链路加密

对于在两个网络节点间的某一次通信链路，链路加密能为网上传输的数据提供安全保证。对于链路加密(又称在线加密)，所有消息在被传输之前进行加密，在每一个节点对接收到的消息进行解密，然后先使用下一个链路的密钥对消息进行加密，再进行传输。

在到达目的地之前，一条消息可能要经过许多通信链路的传输。由于在每一个中间传输节点消息均被解密后重新进行加密，因此，包括路由信息在内的链路上的所有数据均以密文形式出现，这样，链路加密就掩盖了被传输消息的源点与终点。由于填充技术的使用以及填充字符在不需要传输数据的情况下就可以进行加密，这使得消息的频率和长度特性得以掩盖，从而可以防止对通信业务进行分析。

相关文章推荐阅读：《IM聊天系统安全手段之通信连接层加密技术》。

3.3 节点加密

尽管节点加密能给网络数据提供较高的安全性，但它在操作方式上与链路加密是类似的：两者均在通信链路上为传输的消息提供安全性，都在中间节点先对消息进行解密，然后进行加密。因为要对所有传输的数据进行加密，所以加密过程对用户是透明的。然而，与链路加密不同，节点加密不允许消息在网络节点以明文形式存在，它先把收到的消息进行解密，然后采用另一个不同的密钥进行加密，这一过程是在节点上的一个安全模块中进行。

节点加密要求报头和路由信息以明文形式传输，以便中间节点能得到如何处理消息的信息，因此这种方法对于防止攻击者分析通信业务是脆弱的。

3.4 端到端加密

端到端加密允许数据在从源点到终点的传输过程中始终以密文形式存在。采用端到端加密(又称脱线加密或包加密)，消息在被传输时到达终点之前不进行解密，因为消息在整个传輸过程中均受到保护，所以即使有节点被损坏也不会使消息泄露。

端到端加密系统的价格便宜些，并且与链路加密和节点加密相比更可靠，更容易设计、实现和维护。端到端加密还避免了其它加密系统所固有的同步问题，因为每个报文包均是独立被加密的，所以一个报文包所发生的传输错误不会影响后续的报文包。端到端加密系统通常不允许对消息的目的地址进行加密，这是囚为每一个消息所经过的节点都要用此地址来确定如何传输消息。由于这种加密方法不能掩盖被传输消息的源点与终点，因此它对于防止攻击者分析通信业务是脆弱的。

没有使用端到端加密时的通信原理图（各个环节都存在泄密的可能）：

使用端到端加密后的通信原理图（除了发送者和接收者，其它环境都是密文状态）：

4、IM系统中的端到端加密原理

在IM系统中，当用户A发送消息给用户B时，IM系统会生成一对公钥和私钥，并将公钥发送给用户B。用户A使用用户B的公钥对消息进行加密，然后将加密后的消息发送给用户B。

在用户B接收到消息后，使用自己的私钥对消息进行解密，从而获取明文内容。由于私钥只有用户B拥有，因此除了用户B之外，任何人都无法解密消息。

没有使用端到端加密时的聊天消息存在诸多风险：

使用了端到端加密后的聊天就安全多了：

5、IM系统使用端到端加密的好处

数据安全性：在IM系统中，端到端加密可以确保消息在传输过程中始终保持加密状态，防止黑客和第三方窃取用户的通信内容。

隐私保护：由于消息内容只有通信双方能够解密和阅读，即使是IM系统应用自身也无法获取明文内容。这意味着用户的隐私得到了最大程度的保护。

抗窃听：IM系统使用端到端加密技术，使得窃听者无法获取通信内容，从而有效防止了窃听行为的发生。

6、IM系统使用端到端加密的意义

由于在数据传输到服务器之后，任何有权访问此服务器的人，包括员工、供应商及其他有关人员（甚至是黑客），都有可能读取到用户的数据。

所以，使用端到端加密技术主要有以下意义：

1）保护个人隐私：在信息时代，个人隐私面临着越来越大的威胁。在IM系统中使用端到端加密可以有效保护了用户的通信内容，确保个人隐私不被侵犯。

2）防止数据泄露：许多用户在社交软件中分享了大量的个人信息和敏感数据。而IM系统中的端到端加密就可以确保这些数据在传输过程中不会被窃取，从而避免了数据泄露的风险。

3）抵御网络攻击：黑客和网络犯罪分子经常利用网络漏洞和弱点来攻击用户的通信。IM系统中的端到端加密可以有效防止这些攻击，保护用户的通信安全。

4）维护社交关系：人们越来越依赖社交应用来保持联系和交流。IM系统使用端到端加密可以使得用户能够放心地分享私密信息，维护社交关系的同时保护了个人隐私。

7、IM系统使用端到端加密的不足

通讯效率低：由于端对端加密需要对通讯数据进行加密和解密，因此可能会导致通信效率较低。

需双向支持：端对端加密需要发送方和接收方都需要支持该技术，否则就将无法实现端对端加密通信。

安全性问题：虽然端对端加密可以防止中间人攻击，但如果黑客能够获得了私钥或公钥，那么他们也能够轻易地获取到通信数据。

8、延伸阅读

本文内容主要是面向即时通讯技术的初学者以及产品经理，所以相关的技术概念都没有深入探讨，感光趣的可以继续深入阅读我整理的以下几篇资料。

9、参考资料

[1] 网络编程懒人入门(三)：快速理解TCP协议一篇就够

[2] 即时通讯初学者必知必会的20个网络编程和通信安全知识点

[3] 为什么要用HTTPS？深入浅出，探密短连接的安全性

[4] 理论联系实际：一套典型的IM通信协议设计详解（含安全层设计）

[5] 微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[6] 移动端安全通信的利器——端到端加密（E2EE）技术详解

[7] 常用加解密算法与通讯安全讲解

[8] 通俗易懂：一篇掌握即时通讯的消息传输安全原理

[9] 基于Netty的IM聊天加密技术学习：一文理清常见的加密概念、术语等

[10] 手把手教你为基于Netty的IM生成自签名SSL/TLS证书

[11] 微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

[12] 即时通讯初学者必知必会的20个网络编程和通信安全知识点

（本文已同步发布于：http://www.52im.net/thread-4792-1-1.html）

posted @ 2025-03-20 11:11 Jack Jiang 阅读(63) | 评论 (0) | 编辑收藏

支持百万人超大群聊的Web端IM架构设计与实践

摘要: 本文由vivo互联网服务器团队Cai Linfeng分享，来自公众号“ vivo互联网技术”，原题“百万级群聊的设计实践”，下文进行了排版优化和内容修订。1、引言现在IM群聊产品多种多样，有国民级的微信、QQ，企业级的钉钉、飞书，还有许多公司内部的IM工具，这些都是以客户端为主要载体。而且群聊人数通常都是有限制，微信正常群人数上限是500，QQ200... 阅读全文

posted @ 2025-03-13 13:36 Jack Jiang 阅读(79) | 评论 (0) | 编辑收藏

视频直播技术干货(十三)：B站实时视频直播技术实践和音视频知识入门

本文由B端技术中心资深开发工程师马家忆分享，原题“B站在实时音视频技术领域的探索与实践”，下文进行了排版和内容优化。

1、引言

直播行业从传统的娱乐直播发展到教育直播、电商直播等形式，产生了很多新的玩法。传统的直播是一位主播展示才艺，观众通过弹幕、送礼物等方式进行互动。随着网络质量不断地提高，用户也对直播平台产生的新的要求，实时互动直播的场景就出现了，观众可以同时观看多位主播之间互动的画面，让直播间的气氛更好。B站直播的连麦PK、视频连线业务就提供了这个能力。主播看到的是对方主播实时的流（延迟400ms以内），而观众看到的是“准实时”的流（延迟2~5s左右）。

本文讲述搭建这样一套最新流行的实时视频直播系统需要了解的背景知识以及系统的整体架构，希望对大家有帮助。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4785-1-1.html）

2、系列文章

本文是系列文章中的第 13 篇，本系列总目录如下：

《视频直播技术干货(一)：揭秘百万级粉丝互动的Facebook实时视频直播》

《视频直播技术干货(二)：P2P技术如何将实时视频直播带宽降低75%？》

《视频直播技术干货(三)：实时直播答题系统的实现思路与技术难点分享》

《视频直播技术干货(四)：首次披露快手是如何做到百万观众同场看直播仍能秒开且不卡顿的？》

《视频直播技术干货(五)：七牛云使用QUIC协议实现实时视频直播0卡顿》

《视频直播技术干货(六)：新浪微博实时直播答题的百万高并发架构实践》

《视频直播技术干货(七)：实时视频直播首屏耗时400ms内的优化实践》

《视频直播技术干货(八)：淘宝高清、低延时的实时视频直播技术解密》

《视频直播技术干货(九)：千万级直播系统后端架构设计的方方面面》

《视频直播技术干货(十)：一文读懂主流视频直播系统的推拉流架构、传输协议等》

《视频直播技术干货(十一)：超低延时视频直播技术的演进之路》

《视频直播技术干货(十二)：从入门到放弃，快速学习Android端直播技术》

《视频直播技术干货(十三)：B站实时视频直播技术实践和音视频知识入门》（* 本文）

3、关于作者

马家忆：B端技术中心资深开发工程师。

4、实时音视频关键技术概述

从0到1搭建一套实时音视频系统并支撑现有的业务，如果没有接触过这方面的东西会感觉无从下手。

我们可以看到，1996年IETF就推出了RTP协议用于实时音视频传输，2011年Google推出了WebRTC用于网页端实时音视频通话（见《了不起的WebRTC：生态日趋完善，或将实时音视频技术白菜化》）。

从这些现有的协议和项目中，我们可以发现实时音视频技术的关键点，评估自身现有的基础组件支持情况并结合业务场景寻找适合自己的解决方案。

5、关键技术1：传输协议

RTP协议（Real-time Transport Protocol）定义了在互联网上传输实时音视频数据的标准格式，属于应用层协议。RFC 3550描述RTP协议的传输层主要使用UDP，RFC 4571描述了RTP协议的TCP传输方式。

在我们的实时音视频场景中应当优先选择UDP，理由如下：

1）TCP保证数据流的可靠性和顺序性。TCP的超时重传策略为了保证通用和公平，相对比较保守，重传超时时间（RTO）可能会变的很大。假如中途丢失一个包，后续的包即使先到达也要缓存起来等待重传完成以后才能送到应用层。在网络状况不佳的情况下，使用TCP传输会产生较大的延迟；

2）UDP允许数据包丢失、乱序和重复。即使数据丢失也不会阻塞接收缓冲区等待重传，这就为实时性提供了保障。在上层的RTP协议中，协议头部包含了时间戳和序列号，可以对数据包进行重排和丢弃，解决了乱序和重复的问题。如果接收端监测到丢包，并且丢失的包是必要的且无法恢复，则发送NACK消息通知发送端重传（下一节会详细探讨这个话题）。

UDP虽然在低延迟领域上有压倒性的优势，但是用户侧有可能存在防火墙拦截所有的UDP包。考虑到在网络环境足够好的情况下使用TCP也能达到不错的效果，因此我们做了一个降级策略，优先使用UDP，当且仅当UDP不通的时候使用TCP。

6、关键技术2：丢包补偿

前面讲到我们的传输层协议优先选择UDP，那么就需要引入一些机制解决丢包问题。

前向纠错FEC（Forward Error Correction）指的是发送端发送原始数据的同时附加部分冗余的信息，如果接收端检测到原始数据丢失则尝试使用冗余的信息进行恢复。发送端发送n个数据包，同时根据原始数据生成k个冗余的数据包，将n+k个数据包发送出去，接收端只要收到至少n个数据包就可以得到全部的原始数据。

FEC算法的关键在于异或。异或(Exclusive OR)是一个数学运算符，数学符号为“⊕”，两边数值转换成二进制按位运算，相同时为0，不同时为1。

以一阶冗余算法为例，n个数据包生成1个冗余包，发送n+1个数据包。我们发送三个数值分别为a、b、c，生成冗余数据x=a ⊕b ⊕ c一起发送。假如数值b在传输中丢失了，计算a ⊕c ⊕ x即可得到b。

在实际应用中，FEC没有这么简单，WebRTC实现了UlpFEC和FlexFEC，UlpFEC可以针对数据包的重要程度实施不同程度的保护以充分利用带宽，FlexFEC还支持对列做冗余，同时WebRTC默认的音频编码器Opus本身就支持FEC。

前向纠错适合少量随机丢包的场景，可以无视网络延迟时间，但是增加了带宽消耗。

后向纠错包括ARQ（Automatic Repeat Request）和PLC（Packet Loss Concealment）。ARQ指的是接收端检测到数据丢失的时候发送NACK报文请求发送端重传，适合突发大量丢包的场景，没有额外的带宽消耗，但是时效性取决于RTT，如果存在很多接收端还要考虑避免NACK风暴造成雪崩。PLC用于音频，当数据缺失时使用模型根据前后数据预测丢失的数据。

总之，前向纠错和后向纠错各有优缺点，需要搭配使用。

7、关键技术3：流量控制

流量控制指的是根据网络状况的波动估算可用带宽，根据带宽的变化自动调节音视频码率和发送速率。当网络质量变差的时候迅速降低数据量以确保实时性，网络较好时则慢慢提升数据量带来更清晰的画面。在WebRTC中提供了优秀的Google Congestion Control算法，包括基于延迟的评估和基于丢包率的评估，取两种评估方式的最小值作为目标带宽通知编码器和数据发送模块。

基于延迟的评估算法包括Transport-CC和Goog-REMB，目前最新版的WebRTC默认使用的是Transport-CC。Transport-CC在发送端进行带宽评估，接收端通过TransportFeedback RTCP包向发送端反馈每个RTP包的到达时间，发送端在一个时间窗口内计算每个RTP包到达时间与发送时间之差，通过Trendline滤波器处理后预测网络状况。假设我们当前处于Hold状态，如果检测到网络状态为OverUse，此时应该减小数据量，变更为Decrease状态；如果检测到网络状态为Normal，此时可以尝试增加数据量，变更为Increase状态。

基于丢包的评估算法是当网络突发大量丢包时的兜底策略：

1）如果丢包率在2%以下的时候说明网络质量好，目标带宽增加8%；
2）如果丢包率在在2%~10%说明当前发送数据的带宽和网络质量相匹配可以保持不变；
3）如果丢包率大于10%说明网络质量差，目标带宽减小到(1-丢包率*0.5)* 当前带宽。

8、关键技术4：数据缓冲

如果我们只考虑实时性，那么收到数据就立刻解码并渲染必然是最好的选择，但是网络并不稳定，延迟、乱序、丢包、重复包都有可能发生。如果采用上面的策略，音频可能因为网络的抖动变的断断续续，视频可能因为丢包导致缺少参考帧从而出现黑屏或花屏，所以有必要引入一个缓冲区，增加一点可以接受的延迟来保证用户体验。

在WebRTC中，视频包会被放入JitterBuffer模块进行处理，JitterBuffer会进行视频包的排序、组装成完整的帧、确保参考帧有效，然后把数据送到解码器。同时，根据网络状况自适应地调节缓冲区的长度。音频包会被放入NetEQ中，它维护了音频的缓冲区，同时负责将音频同步到视频。我们做播放器一般都是以音频的时间为基准同步视频，但是WebRTC刚好相反，它是以视频为基准的。当音频数据堆积的时候加速音频播放，音频数据不足的时候降低速度把音频拉长。

9、关键技术5：回声消除

在语音通话的场景中，麦克风采集到的声音发送给远端，远端的扬声器播放出来以后又被远端的麦克风采集到这个声音并传送回来，这样讲话的人会感觉到有回声，影响体验。

WebRTC提供了回声消除算法AEC，时延估计（Delay Estimation）模块找到扬声器信号和麦克风信号的时延，线性自适应滤波器（Linear Adaptive Filter）参考扬声器信号估算回声信号并将其剪去，最后通过非线性处理（Nonlinear Processing）模块消除残留的回声。

10、关键技术6：最优路径

实时音视频对网络的要求非常高，如果通话双方距离很远，那么通话质量是很难保证的。城市A的设备给城市D的设备发送数据，直接发送未必是最优的选择，从城市B和城市C中转一下有可能更快。

理想的解决方案是在全球部署加速节点，用户就近接入。根据加速节点之间的实时网络质量探测数据，找到一条最优传输路径，避开网络的拥堵。

11、开源音视频框架WebRTC简述

刚才介绍了实时音视频系统实现过程中所需的关键技术，多次提到了WebRTC。显然，对于绝大多数团队来说，这些内容如果全部自主研发几乎是不可能的事情，而我们站在WebRTC的基础上去设计自己的系统是较为明智的选择。

WebRTC的代码非常复杂，想要把它搞清楚是一件非常困难的任务，我第一次看到WebRTC的代码根本就不知道从哪里下手。

幸运的是，WebRTC官方提供了架构图，可以先帮助我们对它进行一个宏观的了解。

WebRTC整体架构大概可以分为接口层、会话层、引擎层和设备I/O层：

1）接口层包括Web API和WebRTC C++ API，Web API给Web开发者提供了JavaScript接口，这样Web端就具备了接入WebRTC的能力；WebRTC C++ API面向的是浏览器开发者，让浏览器开发商具备集成WebRTC的能力。当然，WebRTC C++ API也可以用于Native客户端接入；

2）会话层主要包含信令相关的逻辑，比如媒体协商，P2P连接管理等；

3）引擎层是WebRTC最核心的功能，包括音频引擎、视频引擎和传输模块。音频引擎包含音频编解码器（Opus）、NetEQ和著名的3A（回声消除、自动增益、降噪）算法；视频引擎包括视频编解码器（VP8、VP9、H264）、JitterBufer和图像增强（降噪）算法；传输模块包含SRTP、多路复用和P2P模块；

4）设备I/O层主要和硬件交互，包括音视频采集和渲染，以及网络I/O。

上面一节描述的实时音视频关键技术中，WebRTC实现了除“最优路径”之外的全部内容。WebRTC几乎每个模块都是可以按需替换的，便于我们增加定制的内容。我们可以根据实际需求决定如何使用WebRTC，Native客户端可以通PeerConnection接口接入，服务端拿到RTP/RTCP包以后完全可以直接调用引擎层处理拿到最终的YUV和PCM数据，甚至只把WebRTC内部模块抠出来用在自己的系统上也是没问题的。

更多相关资料可阅读：

12、B站视频直播系统架构

我们回到B站的连麦PK业务场景，两位主播进行互动PK，同时大量观众在直播间观看PK的过程。

显然，两位主播通话要求低延迟，必须使用实时音视频系统交互；而观众观看直播的延迟要求相对没那么严格，可以采取传统直播的模式，通过RTMP或者SRT推流到CDN，用户从CDN拉流。

然后我们要思考两个问题。

12.1 问题1：主播之间的音视频通话是采用P2P还是服务器中转？

首先对P2P和服务器中转两种方案做个对比：

对于P2P方案来说，只需要部署STUN和TURN服务器，如果成功建立P2P连接那么后续媒体数据传输就不需要经过服务器，所以具有成本优势。然而，P2P的缺点也很明显，如果打洞失败还是需要TURN服务器中转，且建立连接的过程耗时较高，用户之间距离较远的情况下网络质量不可控，而且现有的第三方网络加速服务基本上都不支持P2P。

我们这里选择服务器中转的方案，因为实时音视频本身对网络的要求比较高，不会设置过高的码率，所以网络传输的数据量是可控的，成本能够接受。而且我们的实时音视频数据要对接AI审核，还要实现服务器混流，这是P2P方案做不到的。

12.2 问题2：推送给观众的流到CDN，这个工作放在主播客户端还是服务器？

两位主播PK对应的是两路流，观众只从CDN拉一路流，所以必须有个地方做混流。这里的混流指的是把两位主播的视频进行拼接、音频进行混合，然后打包成一路流。主播客户端能收到对方的流，可以和自己的流做混流；在前面提到的服务器中转方案中，服务器有双方的流，同样也可以完成混流。

我们先对比一下两种方案的优劣：

服务器进行混流需要先解码再编码，这需要消耗大量计算资源，所以成本很高；主播客户端进行混流需要额外增加一路流的编码和上传，对设备性能和上行带宽来说也是很大的挑战。

主播客户端需要等待服务器把对方的流发送过来才能混流，所以从延迟的角度来看服务器混流稍微占据优势，不过这个延迟相比CDN的延迟可以忽略不计。如果后期对通话质量要求变高，主播的设备性能和上行带宽跟不上，我们可以很容易增加服务器来扩展计算资源和带宽，所以在可扩展性方面服务器混流胜出。

另外，当主播从正常直播切换到连麦PK状态的时候，采用服务器混流必须先把直播的流停掉再由服务器接管，中间的时间差可能会产生卡顿或黑屏影响观众体验，而主播客户端混流可以做到无缝切换。

所以，这两种方案各有优缺点，我们采取折衷的办法：如果主播的设备负载较低且上行带宽比较充足，优先采用主播客户端混流的方式，否则降级为服务器混流。

12.3 开始架构设计

上面两个问题分析清楚了，就可以开始设计了。

这是我们的系统整体架构：

rtc-service主要提供信令、频道管理、主播管理、公有云上媒体服务器集群的健康检查和节点分配、同步主播状态到业务服务器、记录通话流水。

rtc-job是对rtc-service的补充，定期检查当前在线主播的状态，发现主播异常下线时触发兜底逻辑。

rtc-router负责收发主播的音视频数据。主播可以收到同一个频道内其他人的音视频流。如果需要服务器混流，则访问注册中心并采用Google的有界负载一致性哈希算法（Consistent Hashing with Bounded Loads）选取rtc-mixer节点，并往对应节点推送主播的音视频流。

rtc-mixer负责混流，根据需求拼接画面和混音，然后推送到CDN，观众通过CDN拉流。

主播的客户端并没有直接向rtc-router发送数据，而是通过第三方的四层加速网络转发。我们前面提到了“最优路径”的概念，第三方的四层加速服务可以让用户接入最近的加速节点，然后寻找最优路径把数据转发到我们的公有云节点。客户端只能看到第三方的加速节点IP，看不到我们公有云媒体服务器的IP，这在一定程度上可以防止服务器遭到攻击；其次，我们可以在保证异地多活的前提下让公有云集群相对比较集中，节省成本。

服务的可用性和容错性也是一个很重要的问题，假如在主播PK即将胜利的时刻服务出现故障，弹出"PK异常终止请重新再来"，这很令人绝望。我们不仅要保证服务可用，还要尽最大可能保证服务出现故障时减小对用户的影响，让流程能够走下去。接下来讨论系统中每个风险模块为了实现这个目标所采取的措施：

四层加速网络故障。这个属于第三方厂商提供的服务，每个厂商提供的接入方式大同小异，基本上就是附加的header有差别，所以同时对接多家厂商对客户端来说是很容易做到的。客户端进行连通性检查，只要存在至少一家厂商的服务可用，就不会影响业务。

公有云上的rtc-router和rtc-mixer故障。在公有云上部署服务，尽量要多厂商、多区域部署，防止单机房整体宕机。我们同样准备了多个集群，每个集群都部署了多台rtc-router、rtc-mixer和ZooKeeper，单个集群可以独立工作，如果单个集群不可用或者负载达到上限则会被熔断。核心机房的rtc-service会对公有云上的集群进行健康检查，如果rtc-router宕机，rtc-service会通过信令通道通知客户端切换到同集群中其他服务器，当同集群没有可用机器时则切换集群。如果rtc-mixer宕机，rtc-router会通过ZooKeeper重新选择一台接管混流任务。

核心机房的rtc-service和rtc-job故障。这部分内容和B站大部分核心服务部署在同样的集群，复用了B站比较成熟的高可用架构。这部分内容可以参考其他文章，这里不再赘述。

13、本文小结

如果我们把实时音视频技术比作一座富丽堂皇的城池，这篇文章只能带领大家来到城门口。我们也不会停止探索的脚步。希望大家读到这里能够有所收获，如有疏漏，欢迎批评指正。

14、参考资料

[1] 实时语音通讯的回音及回音消除概述

[2] 实时语音通讯的回音消除技术详解

[3] 实时语音通讯丢包补偿技术详解

[4] 零基础，史上最通俗视频编码技术入门

[5] IM实时音视频聊天时的回声消除技术详解

[6] 学习RFC3550：RTP/RTCP实时传输协议基础知识

[7] 基于RTMP数据传输协议的实时流媒体技术研究（论文全文）

[8] 爱奇艺技术分享：轻松诙谐，讲解视频编解码技术的过去、现在和将来

[9] 零基础入门：实时音视频技术基础知识全面盘点

[10] 实时音视频面视必备：快速掌握11个视频技术相关的基础概念

[11] 零基础入门：基于开源WebRTC，从0到1实现实时音视频聊天功能

[12] 实时音视频入门学习：开源工程WebRTC的技术原理和使用浅析

[13] 零基础快速入门WebRTC：基本概念、关键技术、与WebSocket的区别等

[14] 移动端实时音视频直播技术详解（五）：推流和传输

[15] 移动端实时音视频直播技术详解（六）：延迟优化

[16] 实时视频直播客户端技术盘点：Native、html5、WebRTC、微信小程序

[17] 浅谈开发实时视频直播平台的技术要点

[18] 视频直播技术干货：一文读懂主流视频直播系统的推拉流架构、传输协议等

（本文已同步发布于：http://www.52im.net/thread-4785-1-1.html）

posted @ 2025-03-06 11:46 Jack Jiang 阅读(49) | 评论 (0) | 编辑收藏

即时通讯初学者必知必会的20个网络编程和通信安全知识点

摘要: 本文引用自公众号“计算科学与信息化”，原题“运维必知的20个网络安全知识点!”，下文进行了排版和内容优化。1、引言即时通讯IM应用开发的初学者很容易迷失在网络编程的复杂性以及通信安全的各种概念里，本文不涉及深度理论知识，尽量通过一句话或几句话让你快速了解20个相关的网络编程和通信安全知识点，希望能助你愉快地开始即时通讯应用开发。技术交流：- 移动端I... 阅读全文

posted @ 2025-02-27 13:04 Jack Jiang 阅读(85) | 评论 (0) | 编辑收藏

探讨组合加密算法在IM中的应用

1、前言

本文深入分析了即时通信(IM)系统中所面临的各种安全问题，综合利用对称加密算法（DES算法）、公开密钥算法（RSA算法）和Hash算法(MD5)的优点，探讨组合加密算法在即时通信中的应用。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-217-1-1.html ）

2、IM安全系列文章

本文是IM通讯安全知识系列文章中的第2篇，总目录如下：

《即时通讯安全篇（一）：正确地理解和使用Android端加密算法》

《即时通讯安全篇（二）：探讨组合加密算法在IM中的应用》（本文）

《即时通讯安全篇（三）：常用加解密算法与通讯安全讲解》

《即时通讯安全篇（四）：实例分析Android中密钥硬编码的风险》

《即时通讯安全篇（五）：对称加密技术在Android上的应用实践》

《即时通讯安全篇（六）：非对称加密技术的原理与应用实践》

《即时通讯安全篇（七）：用JWT技术解决IM系统Socket长连接的身份认证痛点》

《即时通讯安全篇（八）：如果这样来理解HTTPS原理，一篇就够了》

《即时通讯安全篇（九）：你知道，HTTPS用的是对称加密还是非对称加密？》

《即时通讯安全篇（十）：为什么要用HTTPS？深入浅出，探密短连接的安全性》

《即时通讯安全篇（十一）：IM聊天系统安全手段之通信连接层加密技术》

《即时通讯安全篇（十二）：IM聊天系统安全手段之传输内容端到端加密技术》

《即时通讯安全篇（十三）：信创必学，一文读懂什么是国密算法》

《即时通讯安全篇（十四）：网络端口的安全防护技术实践》

《即时通讯安全篇（十五）：详解硬编码密码的泄漏风险及其扫描原理和工具》

3、即时通信应用所面临的安全问题

即时通信系统大都采用C/S、B/S、P2P等技术来实现即时通信的功能，软件编制没有统一的标准，使得IM系统本身存有多种安全漏洞，加上用户缺乏安全意识，导致在使用即时通信系统时出现各种安全问题。

3.1 信息窃取问题

目前的IM系统在交换信息或传输文件时仅仅采用了弱加密甚至不加密的方式，攻击者利用此缺陷监听、窃取重要数据，这种泄密可能性给企业或个人造成不可估量的损失，尤其是对一些特殊行业，如金融和证券等行业，将会构成巨大的商业安全威胁，这种攻击的类型是对信息机密性的攻击。

3.2 信息篡改问题

信息篡改又称中间人攻击，是攻击者试图在IM系统信息交互过程中，通过监听、窃取正常的信息流，对信息进行修改后再发往信息接收方。只要信息存在，就可能出现这种攻击，它还可能攻击传输中的信息，这种攻击的类型是对信息完整性的攻击。

3.3 信息伪造问题

在现有的IM系统中，接收方一般只根据发送方的ID或发送过来的简单信息进行确认，这样就给攻击者提供了机会。攻击者通过令人误导的昵称或者迷惑性的语言，骗取对方的信任，从而套取信息、诈骗或达到其他不良目的。这种攻击的类型是对信息真实性的攻击。

3.4 其他问题

由于IM系统的文件传输采取了P2P模式，它可以将文件作为附件通过点对点方式传送，而绕过网络周边安全防御设备。由于点对点隧道直接传至桌面计算机，因此受感染的文件借即时通信系统就能绕过防病毒网关的扫描，各种病毒如蠕虫、特洛伊木马等可以借此轻松地进入网络，很多被病毒感染的文件则可能利用即时通信系统进行传播。

攻击者也可以用缓冲区溢出、拒绝服务等攻击方式，通过IM系统的安全漏洞对整个网络系统进行攻击或传播病毒。

4、主流的加密算法介绍

4.1 对称加密：DES算法

DES即数据加密标准，这种加密算法是由IBM研究提出来的，是一种分组密码，它用于对64比特的数据进行加密和解密。DES算法所用的密钥也是64比特，但由于其中包含了8个比特的奇偶校验位，因而实际的密钥长度是56比特。DES算法多次组合替代算法和换位算法，利用分散和错乱的相互作用，把明文编制成密码强度很高的密文。DES算法的加密和解密的流程是完全相同的，区别仅仅是加密与解密使用子密钥序列的顺序正好相反n1。DES算法属于对称加密算法，即加密和解密共享同一个密钥，主要用于解决数据机密性问题。

4.2 公开密钥算法：RSA算法

RSA算法作为惟一被广泛接受并实现的通用公共密钥加密方法，是众多阐述非对称密码体制的算法中最具代表性的，几乎成了公开密钥密码学的同义词。它是麻省理工大学的Rivest，Shamir和Adleman（RSA算法即为三人名字的缩写）于1977年研制并于1978年首次发表的一种算法。该算法的数学基础是数论的欧拉定理，它的安全性依赖于大数的因子分解的困难性，该算法至今仍没有发现严重的安全漏洞。RSA使用两个密钥，一个是公钥(PubHc Key)，另一个是私钥(Private Key)加密时把明文分戍块，块的大小可变，但不超过密钥的长度。RSA把明文块转化为与密钥长度相同的密文。其算法如下：

首先选择两个相异大质数p、q，计算n=pq，取小于n的数e与（p-l）(q-l)互质。根据给定的e，再选择d满足ed除以z的模余数是1（即满足ed mod (p-l)(q-l)=1），根据欧几里得算法(a=bn+c，则a与b的最大公因子就等于b与c的最大公因子)，这样的d-定可以找到。这样数对(n，e)为公钥，数对(n，d)为私钥在编码时，假设资料为A，将其分戍等长数据N块，每块为nKn。计算C=llle mod n，则c就是编码后的资料。至于解码，取III=Cd mod n。黑客攻击时怨得到e，这样就必须对n进行因式分解，选择足够大的质数p、q便能阻止分解因式。
对于p、q的选择，一般来说是足够大的素数，对于大数，并没有一个确定的界限，因为随着计算机技术的发展，破解能力正在逐步增强（根据摩尔定理计算能力18个月就翻一番）。RSA实验室的建议是，安全性要求相对较低时，p和q的乘积达到768位；安全性要求相对较高时，乘积达到1024位以上。

RSA算法还可以用于“数字签名”，即用私钥进行加密，公钥来解密。

4.3 Hash算法：MD5算法

MD5算法并不是加密算法，但却能形成信息的数字“指纹”，主要用途是确保数据没有被篡改或变化过，以保证数据的完整性。MD5算法有三个特性：

1）能处理任意大小的信息，并生成固定长度128位的信息摘要；
2）具有不可预见性，信息摘要的大小与原始信息的大小没有任何联系，原信息的每一个微小变化都会对信息摘要产生很大的影响；
3）具有不可逆性，没有办法通过信息摘要直接恢复原信息。

5、应用探讨：组合加密算法实现即时通信系统的认证模型

本文综合利用以上算法的优点，在IM系统中建立以下消息发送模型，以解决IM系统所面临的信息窃取、篡改、伪造等安全问题。模型中用户A和B为IM系统的客户端，用户A和B之间彼此拥有对方的公钥或数字证书，A向B发送消息，其全过程如图1所示。

对于IM系统中蠕虫病毒感染安全问题的处理，通过以下模型进行处理，如图2所示。

6、应用探讨：组合加密算法实现即时通信系统的通信模型

按照以上加密认证模型，建立如图3所示的安全即时通信系统的实现模型，该模型包含两个层次的认证，一是服务器与客户机之间的双向认证，二是客户机与客户机之间的双向认证，即在两端连接发送数据之前，必须协商并交换密钥信息。服务器作为自签署证书的CA认证中心，认证的所采用的密码技术极为公开密密钥技术。

模型中的公开密钥技术充当了加密共享密钥和数字签名的作用，以解决服务器与客户机、客户机与客户机之间的身份鉴别和客户机之间进行数据通信的密钥传输问题。在Java密码术体系结构中，密钥生成和操作可以使用keytool程序来执行。

7、应用探讨：组合加密算法应用模型的安全性及效率分析

在以上模型中，利用对称加密算法处理消息、文件的加密，以解决信息、文件传送的机密性问题，具有加密速度快的特点；用公开密钥算法的加密技术解决了对称密钥在网络中明文传输问题；用Hash算法计算出摘要，再通过公开密钥算法的数字签名技术对摘要进行签名，既提高了效率，又保证了信息文件传输的鉴别和不可否认性；在文件处理过程中，通过病毒扫面和组合加密双重处理，减少了网络中文件传输病毒蠕虫感染的几率。

1、引言

密码是对服务、系统和数据的访问权限进行授权的数字身份凭证，常见的密码有API密钥、非对称私钥、访问Token等。硬编码密码（Hardcoded Secret），或称嵌入式密码（Embedded Secret），是指将密码以明文方式直接写入代码中。这种处理方式极大地提高了攻击者命中密码的概率，使服务或系统暴露在风险中，容易造成严重损失。

针对此问题，本文详细讨论了硬编码密码的成因、危害及治理方法，同时本文从安全人员的角度出发，对现有的硬编码密码检测工具的算法进行了深入调研，并提出了我们的自动化检测工具。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4781-1-1.html ）

2、系列文章

本文是IM通讯安全知识系列文章中的第15篇，此系列总目录如下：

3、为什么会用硬编码密码

随着互联网组织转向云架构、SaaS 平台和微服务，密码等数字身份验证凭证的数量和多样性正在快速增长。与此同时，企业也不断推动更短的发布周期，开发人员面临巨大时间压力的同时，需要处理的密码量比以往任何时候都多。许多开发人员采取捷径，选择使用硬编码的方式处理密码。

在企业的代码仓库中普遍存在大量的硬编码密码问题。据GitGuardian统计，在公共Git存储库上每天会泄露数以千计的密码，其中仅2020年就有超过200万个密码被上传至Git存储库中，而2021年该组织发现的密码数量超过600万，同比增长近2倍，而私人存储库的密码泄露事件存在可能性比公共库高4倍。

根据统计，硬编码密码包括API密钥、访问Token、非对称私钥、认证ID、安全证书、口令、特权用户账户等类型。

硬编码密码所涉及的平台十分广泛，包括如下领域：

1）开发工具，如Django、Rapid API；
2）数据存储，如MySQL、Mongo；
3）金融服务，如PayPal、Amazon MWS；
4）消息通讯系统，如Gmail、Telegram；
5）云提供商，如AWS、Azure、Google；私钥；
6）社交媒体，如Twitter、Facebook；
7）版本控制平台，如Github、Gitlab 等等。

除了程序代码中，这些硬编码还容易出现在基础设施配置文件、监控日志、运行日志、堆栈调试track记录、git历史中。所有类别的硬编码密码都使企业暴露在攻击之下。

4、硬编码密码的典型危害

硬编码密码主要对安全和研发两方面具有危害。

1）削弱系统安全性：

攻击者常通过公共代码库或反编译分析获得硬编码密码字符串，利用密码访问敏感数据或获取敏感操作权限。攻击者还可以进一步扩大攻击范围，进行数据勒索、帐户操纵、帐户创建、通过用户数据进行利用等，使得企业和用户都遭受严重损失。在以下案例中，攻击均是从密码的泄露开始的：2014年，Uber数据库被未经授权访问，导致数千名Uber司机私人信息的数据被泄露；2016年，Uber又因外部的未授权访问导致5700万用户的个人信息被泄露；2018年，Github和Twitter在内部日志系统中以明文方式存储密码，分别涉及2700万和3.3亿用户数据泄露；2020年，用户在Github仓库中发现了星巴克的API密钥，涉及重大信息泄露；2021年，黑客组织 Sakura Samurai 在一次重大数据泄露事件中获得了访问联合国 (UN) 员工私人数据和系统的权限……由硬编码密码导致的安全事故层出不穷，也不断有相关CVE和CWE被披露。

硬编码密码对特定设备、固件、服务、应用程序本身，对其连接的IT生态系统其他部分，甚至使用服务的第三方都存在风险，使其同样暴露在风险中。

2）不易于程序维护：

硬编码密码的修复较为困难，密码一旦被利用无法轻易被修正。对于正在线上运行的服务或系统，修复硬编码密码问题需要停服重新发布。大型企业的服务流量较大，服务间还存在依赖，则需要灰度发布，修复流程更长，其间可能持续受到攻击者威胁。

密码的蔓延也使维护变得困难。与传统凭证不同，密码旨在分发给开发人员、应用程序和基础设施系统，这将不可避免地使开发中使用的密码数量增加，一个密码可能出现在代码中多处位置，这进一步增加了修复的难度。

此外，开源的代码造成密码泄露，即使在源码中删除硬编码密码，也会残留在git历史里。

5、怎样避免硬编码密码

企业代码中的硬编码密码问题日益严重，只有通过安全人员和研发人员的共同协作才能解决。源代码中的密码泄露很难彻底避免，但与其他漏洞一样，它完全由内生因素决定：开发人员需要访问更多的资源，以更快的速度构建和部署。这意味着只要有足够的纪律和教育，再加上正确的工具，就有可能大幅改善这种情况。

从开发人员角度：需要注意尽量避免将密码以明文形式写入代码中。代码中需要对密码进行校验时，对入站身份验证可使用强单向散列函数进行密码模糊化，并将这些散列结果存储在具有适当访问控制的配置文件或数据库中；对出站身份验证，可将密码存储在代码之外的一个经过严格保护的、加密的配置文件或数据库中，该配置文件或数据库不会被所有外部人员访问，包括同一系统上的其他本地用户；大型企业可以使用KMS服务进行一站式密码管理。

从安全人员角度：应尽量做到风险左移，尽早发现密码泄露，帮助开发人员降低修复成本。可通过代码检测扫描，将硬编码密码检测集成到开发工作流程中，提前发现硬编码密码问题。

6、硬编码密码的典型检测方法

由于硬编码密码有如此的危险性，学术界和工业界都有许多组织针对此问题研发了代码扫描工具。我们对开源工具和学术文章进行了一系列调研，总结了目前的硬编码密码扫描工具常用的检测算法，并对其优缺点进行了讨论。

6.1 正则表达式匹配

正则表达式通常被用来检索符合某种模式的字符串。对于检测具有固定结构或特征的密码，正则表达式可能很有效。

常用于密码检测的正则表达式可分为：

1）针对各种特定平台密码的表达式；
2）不针对任何平台的通用表达式。

1）针对各种特定平台密码的表达式：

许多平台的API密钥、访问Token、认证ID等具有平台独有的特征，例如亚马逊AWS密钥均以“AKIA”字符串开头；常用于非对称加密的私钥如RSA、EC、PGP及通用私钥等，常由ssh-keygen、openssl等工具生成，多数情况下私钥以单独的PEM等文件格式存储，其内容也具有一定特征，例如RSA私钥文件由"-----BEGIN RSA PRIVATE KEY-----"字符串作为开头。对于这类密码，可以通过匹配具有其特征的正则表达式进行检测。

下表列举了部分常用平台密码的类型以及正则表达式。本文仅以此表举例，实际上特定平台的密码种类十分丰富，此处不便一一列举。

2）不针对特定平台的通用的表达式：

由于特定平台表达式和平台的一一对应性质，其覆盖范围有限，此时需要用覆盖范围较广的通用表达式来补充。许多平台的密码具有一些通用的特征，例如密码字符串以api_key、access_token等关键字为开头。

此外，根据开发人员的编程命名习惯规范，也可以根据变量名中的关键字进行匹配，例如变量名中含有Secret、Token等关键字的字符串很可能是密码。

优点：

1）配置简单；
2）自定义扩展方便。

缺点：

1）正则表达式覆盖范围不够广则容易漏报；
2）使用一组不准确的正则表达式容易出现大量误报；
3）即使是正确的正则表达式也有一定程度的误报，例如“AKIAXXXEXAMPLEKEYXXX”虽然符合亚马逊AWS的正则表达式，但并不是有效的密码；
4）通用表达式中使用变量名关键字匹配的检测方法容易被对抗。

6.2 熵字符串编码检测

在信息论概念中，熵是对不确定性的量度，越随机的数据的熵越高。大多数API密钥、访问Token等密码字符串具有高度熵的特性，因此可以通过搜索高熵字符串来检测密码。这种算法被以TruffleHog为代表的工具所采用。现有的工具一般采用香农熵算法来计算字符串熵值，对字符串A的香农熵值计算公式如下图所示，其中pi表示第i个字符出现的频率。

1）优点：

1）能够检测出无明显特征的密码，对于正则表达式未覆盖到的范围有补充效果；
2）可用于对正则表达式检测结果的验证，如上文提到的正则表达式误报字符串“AKIAXXXEXAMPLEKEYXXX”，其熵值较低，可通过验证筛除。

2）缺点：

1）字符串被判定为密码的熵阈值难以确定，阈值过高容易漏报，阈值过低又容易误报。即使是学术论文中的阈值也全凭实验经验确定，缺乏坚实的理论支撑；
2）一些高熵值的SHA、MD5等字符串容易被误报为密码。对于这一问题，可通过过滤SHA、MD5值出现较密集的文件扩展名来降低误报，例如.lock, .inc文件；
3）容易将具有明显升降序的字符串误报为密码。香农熵只对出现频率进行计算，不考虑字符顺序，具有明显升降序的字符串同样会表现出较高熵值，例如Hex编码的“123456789abcdef”和“d9b41a72f683ce5”两字符串香农熵相等，但前者一般不会是一个有效的密码。对于这一问题，需要通过一些启发式处理方式降低升降序字符串的熵值，或通过后期过滤筛除。

7、美团的硬编码密码检测工具研发实践

为了保障美团整体研发环境安全，同时节约安全人员的审计成本，我们研发了针对硬编码密码的代码扫描工具。我们认为在众多字符串中寻找密码如同在沙里淘金，因此将工具命名为Gold-digger。

7.1 工具设计

为服务于全公司研发环境，Gold-digger工具有如下需求：

1）编程语言无关：公司各业务使用的编程语言不同，Gold-digger需要无障碍地应用于所有编程语言代码中；
2）模块化，方便扩展迭代：为了根据测试反馈结果不断提高效果，Gold-digger需要长期不断迭代；
3）能够集成到软件开发生命周期中：Gold-digger侧重预防，需要工具集成在CI/CD管道中，从源头遏制密码泄露风险；
4）高精确率召回率：Gold-digger的设计初衷之一是节约人力成本，为降低审计、维护和运营压力，必需尽可能准确、全面地检测密码。

基于上述需求，Gold-digger的架构主要分为四个模块：核心引擎、转换器、检测器、过滤器。

Gold-digger工作流程如下图，箭头表示数据流向。核心引擎依次读取代码仓库中文件，经过预验证和输入处理后将代码以行为单位传输给检测器，其中部分特殊格式由转换器处理后再传输给检测器；检测器在代码中检测密码候选值；过滤器对密码候选值进行后过滤，将过滤后的密码传回核心引擎；最后核心引擎将代码仓库中所有密码进行收集后，将密码相关信息输出为可读性较强的JSON文件报告。

1）核心引擎：

该模块为Gold-digger赋能，负责调度其他模块，也是负责输入输出处理、数据收集存储等。输入处理部分负责读取代码文件，先调用过滤器对文件后缀进行全局预验证，再通过引号标识匹配或调用转换器识别代码中的字符串及其赋值变量；然后核心引擎调用调用检测器和过滤器进行密码收集，将检测到的密码数据以文件为单位存入不同集合，能够方便地对集合进行合并、删减等操作；输出处理部分将仓库中所有密码关键信息，如密码值、文件位置、检测算法等，输出为JSON格式。

2）转换器：

该模块是专为部分特殊格式文件进行格式转换的处理器。尽管核心引擎能处理大部分代码格式，但无法处理.yaml、.ini、.properties等不使用引号作为字符串特征标识的格式。为保证语言无关性，我们使用转换器处理上述特殊格式，将其转换为用引号标识字符串的代码。这种解析方式无需为不同语言分析抽象语法树，能够有效节省算力。

3）检测器：

该模块是Gold-digger的密码检测算法模块。我们在综合调研同类型检测工具后，汲取了各方优点，采用了正则表达式匹配和熵字符串检测两类算法。Gold-digger的检测器包含数十种特定平台正则表达式、通用正则表达式以及Hex编码、Base64编码的熵字符串检测算法。检测器中每种算法以插件方式各自独立，方便扩展、启用或禁用，同时Gold-digger也允许用户自定义检测算法插件。代码将遍历所有检测算法，任一算法命中便记录为密码候选值。

4）过滤器：

该模块为Gold-digger的验证、过滤模块。预验证部分在检测器运行前对文件格式进行验证，筛除压缩文件、多媒体文件等非文本类型；后过滤部分在检测器运行后对所有密码候选值进行启发式过滤，并将过滤后的密码传回核心引擎。后过滤过程中每项密码候选值将遍历所有过滤规则，所有规则都未能筛除的候选值会被记录在密码集合中（检测器和过滤器的主要处理流程如下图所示）。过滤规则主要为开发测试人员凭经验总结的启发式规则，例如：过滤升降序字符串、过滤高度重复字符串、过滤uuid、过滤间接引用赋值等。

5）CI/CD集成：

Gold-digger的最终目标是消除代码中的密码泄露问题，因此检测到密码并不是最后一步，修复才是最后一步。我们把Gold-digger集成到公司研发环境CI/CD管道中，方便开发人员根据密码报告及时修复漏洞，从源头遏制风险。当开发人员向公共存储库提交代码后，Gold-digger会进行on-push扫描，对包含密码的提交进行拦截和告警。此外，我们还允许开发人员在本地使用Gold-digger，进行pre-commit或pre-push检查，整体风险左移。

7.2 数据对比

我们使用Gold-digger与最先进的开源工具进行了对比。

我们对内部服务代码进行了分析，将人工安全审计发现的密码作为测试基准，使用工具对代码进行测试并统计结果。下表结果显示，我们的工具准确率和召回率高于其他所有开源工具，误报率和漏报率低于其他所有开源工具。

分析显示，Gold-digger检测的密码中大部分是通过通用正则表达式和熵字符串检测获得的。这是由于内部代码中包含的密码大多无明显前缀后缀特征，特定平台表达式检测不到。正因如此，大部分工具尽管定义了大量的特定平台的正则表达式但漏报率仍很高，例如trufflehog定义了700多种特定平台正则表达式，但通用正则表达式种类较少，故对特定平台表达式未覆盖到部分的检测能力较弱。Gold-digger可以利用通用正则表达式和熵字符串检测进行弥补，有效降低漏报。

密码检测的一大难点是避免来自非密码字符串的误报。Gold-digger通过多种启发式规则的过滤得到了较低的误报率。其他工具大量误报的主要原因则是正则表达式的匹配范围太宽泛又缺乏有效过滤手段，例如Gitleaks通过通用正则表达式识别到大量密码候选值，但其中既有真正的密码，又有appkey name、间接引用等，但未进行筛除。

8、本文小结

随着互联网组织架构的高速发展和软件发布周期的不断缩短，硬编码密码问题在企业代码仓库中日益严重，其危害已通过多起严重安全事故显示出来。硬编码密码的大规模治理必需由安全人员和研发人员共同合作。

美团为保障研发安全，设计了具有编程语言无关、模块化架构、集成在CI/CD管道等特点的硬编码密码的扫描工具Gold-digger。该工具的效果优于目前所有开源工具，能够有效帮助开发人员尽早发现并修复密码泄露，从源头保障研发安全。

[2] 传输层安全协议SSL/TLS的Java平台实现简介和Demo演示

[3] 理论联系实际：一套典型的IM通信协议设计详解（含安全层设计）

[4] 微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[5] 来自阿里OpenIM：打造安全可靠即时通讯服务的技术实践分享

[6] 简述实时音视频聊天中端到端加密（E2EE）的工作原理

[7] 移动端安全通信的利器——端到端加密（E2EE）技术详解

[8] Web端即时通讯安全：跨站点WebSocket劫持漏洞详解(含示例代码)

[9] 通俗易懂：一篇掌握即时通讯的消息传输安全原理

[10] IM开发基础知识补课(四)：正确理解HTTP短连接中的Cookie、Session和Token

[11] 快速读懂量子通信、量子加密技术

[12] 一分钟理解 HTTPS 到底解决了什么问题

[13] 一篇读懂HTTPS：加密原理、安全逻辑、数字证书等

[14] 基于Netty的IM聊天加密技术学习：一文理清常见的加密概念、术语等

[15] 手把手教你为基于Netty的IM生成自签名SSL/TLS证书

[16] 微信技术分享：揭秘微信后台安全特征数据仓库的架构设计

（本文已同步发布于：http://www.52im.net/thread-4781-1-1.html）

posted @ 2025-02-20 11:31 Jack Jiang 阅读(61) | 评论 (0) | 编辑收藏

转转平台IM系统架构设计与实践(二)：详细设计与实现

本文由转转梁会彬、杜云杰分享，原题“转转IM的实践与思考”，下文进行了排版和内容优化。

1、引言

接上篇《整体架构设计》，笔者将以转转IM架构为起点，介绍IM相关组件以及组件间的关系；以IM登陆和发消息的数据流转为跑道，介绍IM静态数据结构、登陆和发消息时的动态数据变化；以IM常见问题为风景，介绍保证IM实时性、可靠性、一致性的一般方案；以高可用、高并发为终点，介绍保证IM系统稳定及性能的小技巧。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4773-1-1.html ）

2、系列文章

本文是系列文章中的第2篇，本系列文章的大纲如下：

3、本文作者

梁会彬：转转架构部资深Java工程师，主要负责服务治理平台、Docker云平台、IM、分布式ID生成器、短域名服务等，有丰富的线上实战经验。

4、 IM架构回顾

应用层：使用IM服务的上游业务方，包括app（ios和android）、小程序/PC/m页、push、业务方等。

接入层：

1）tcp entry：使用TCP协议，主要用于长连接保持、会话管理、协议解析；
2）http entry：使用http协议，采用long pull技术，主要用于长连接保持、会话管理、协议解析；
3）mq：接收电商推广等系统消息。推送量具有脉冲特点，使用mq削峰填谷；
4）rpc-server：业务查询用户聊天数据、发送实时系统消息等。

逻辑层：

1）logic：核心逻辑服务，负责登陆信息管理、在线消息管理、离线消息管理、在线推送管理等；
2）ext-logic：扩展逻辑服务，负责子母账号推送、登陆信息统计、系统消息管理等。

数据层：

1）MySQL：联系人数据、消息数据、系统消息数据等；
2）Redis：登陆信息等。

5、IM消息收发

5.1场景说明

数据流中以用户A和用户B的对话为例，其中用户A的uid为1，用户B的uid为2。

下图为用户聊天场景图：

下图为用户聊天IM系统的数据流转图：

5.2数据结构

登陆信息存储在Redis中，联系人和消息数据放在TiDB中。

1）登陆信息：

key：uid
value：{entryIp:"127.0.0.1",entryPort:5000,loginTime:23443233}

2）联系人：

说明：

1）recent_msg_content：最近一条对话消息的内容，用于联系人列表中展示最近的消息内容；
2）recent_read_time：最近一次读取该会话消息的时间，用于控制已读状态，小于该时间的所有消息，都为已读状态。

3）消息：

说明：

1）client_msg_id：客户端生成的id，客户端幂等设计，防重复；
2）direction：消息方向（0代表较大uid向较小uid发送消息，1则反之）。

数据流=数据+流。上面部分讲数据，即联系人和消息表，从静态的角度介绍了IM的数据结构；下面部分讲流（IM中最重要的两个流程），即登陆和发消息，从动态的角度来阐述IM系统中数据的流转。

5.3主要流程

5.3.1 ）登陆：

1）问题：entry地址发现：app直接访问vip，由vip转发到entry。

2）流程（下面的数字为图中数字的说明）：

1）建连：app通过vip发起与entry连接；
2）转发：entry转发登陆信息到logic，获取用户uid并管理该用户的连接；
3）入库：logic记录用户登陆信息到redis。

3）数据：

Redis中数据如下：

key：1
value：{entryIp:"127.0.0.1",entryPort:5000,loginTime:23443233}

5.3.2 ）发消息（下面的数字为图二中数字的说明）：

1）流程处理：

1）发送：通过用户与entry的长连接发送文字"hello world"；
2）转发：entry转发文字信息"hello world"到logic；
3）入库：logic存入数据库，即更新联系人表和消息表，其中联系人表更新recent_msg_content字段，消息表增加一条新消息记录；
4）推送：从Redis中获取用户B登陆entry，如果未登录，走离线逻辑（发送push、推送微信、短信唤起）；
5）送达：用户B收到消息；
6）确认：发送ack到entry；
7）完成：logic收到ack，取消定时器；如果没有收到ack，logic会定时重发（用户在线时）。

2）数据：

联系人数据如下：

消息表数据如下：

5.3.3）关于数据的几个问题：

1）消息和联系人是如何分库分表的？使用TiDB，无需分库分表（现在的表设计支持根据uid_a分表，也就是无缝支持以MySQL为存储）。

2）联系人表一条消息为什么记录了两条数据？业务逻辑上，考量支持已读、删除联系人；索引性能上，考虑用户查询联系人时，sql条件为where uid_a=？，联系人表索引为uid_a，如果存单条数据，无法有效利用索引。

3）消息表一条消息记录一条数据，用户B与用户A的消息怎么查询？该表索引为<big_uid, small_uid>联合索引，无论是用户A查询与用户B的聊天信息，还是用户B查询用户A的聊天信息，其sql统统为where big_uid =max(uid_a,uid_b) and small_uid =min(uid_a,uid_b)，然后根据direction字段展示聊天方向，这样就可以用一条消息，无需和联系人表一样存储两份数据，满足两种查询，节省一半的消息存储。

6、IM常见问题

6.1消息的实时性

1）是什么：

用户A给用户B发送消息"hello world"，用户B怎么第一时间感知到？这里说的实时性，就是指用户如何实时获取发送的消息。

2）io模型带来的启示：

1）poll、select、epoll；
2）poll/select相比epoll最大的劣势在于轮询，轮询就需要轮询间隔，间隔小会浪费cpu，间隔大会不实时。epoll具有don't call me i will call you的特点，保证实时性；
3）IM也面临着轮询还是通知的问题，也就是pull和push的问题。

3）怎么办：

1）向epoll致敬：epoll_create、epoll_ctl、epoll_wait（此三者是epoll系统调用api）；
2）整个IM系统和epoll模型类似，app和entry保持长连接（epoll_create）；entry session管理（即长连接管理epoll_ctl）；logic等待用户A发送给用户B消息，获取用户B所登陆entry，触发推送消息（epoll_wait）；综述，entry扮演着（epoll_create，epoll_ctl），logic扮演着（epoll_wait）这样IM系统就解决了消息实时性问题。

6.2消息的可靠性

1）是什么：

1）用户A给用户B发送消息"hello world"，用户B在线，怎么保证用户B确实收到了消息。这里说的可靠性，就是指用户如何可靠发送的消息。

2）tcp模型带来的启示：

1）失败重传、ack确认。

3）怎么办：

1）失败重传：图二中（1、发送2、转发3、入库）失败，告知客户端失败，由客户端重传；
2）ack确认：图二中（4、推送5、送达6、确认7、完成）失败，即ack处理失败，启动重新通知逻辑。

6.3消息的一致性

1）是什么：

1）现象：本来用户A给用户B发送了一个"hello world"，而用户B确收到了两个"hello world"；
2）原因：由于可靠性逻辑中的重传逻辑，可能造成客户端认为失败了，但是服务端却成功了；推送ack返回错误，造成重推。

2）身份证带来的启示。

3）怎么办：

1）client_msg_id：客户端发送消息时生成客户端id，对于单个客户端，该id具有唯一性，像身份证一样；
2）客户端去重：如果客户端发现相同client_msg_id的消息，则仅仅展示一条数据。

7、IM高可用、高并发

1）扩缩容：

依托公司rpc服务注册发现能力，借助docker快速扩容，核心处理逻辑logic服务实现秒级扩容。扩容依据为各种监控指标，包括机器性能指标、 entry/logic qps指标、jvm指标、sql监控等综合考量。

2）熔断：

当大流量进入时，如果核心服务依赖的服务（比如母子账号服务）出现不可用的情况。这时，我们是直接使IM服务不可用吗？是不是有更好的选择？答案是肯定的，我们可以牺牲母子账号功能，也就是熔断不重要的依赖服务，做到柔性可用。

3）限流：

如果遇到瞬时高流量，仅仅扩容有可能适得其反。如果db处理能力达到极限，扩容就不是明智的选择，扩容反而会导致db连接增多，增加db的压力，导致服务崩溃。这时退一步采用限流，应用“fast fail”策略，让部分流量快速失败，减小服务压力，达到部分可用的效果。

4）总结：

IM作为电商应用中的一个重要节点，其重要性不言而喻，对其怎么重视都不为过。我们使用监控工具定义IM的核心metrics，根据指标进行扩缩容，这样做到了高可用；

高可用是万能的吗？IM依赖了很多服务，比如用户，母子账号，风控等服务，如果这些服务出现不可用的情况呢？这个时候就要学习一下古人的智慧，壮士断腕，牺牲小我，换取大我了，也就是柔性可用；

仅仅这样还是不够的，如果遇到突发流量，db（不可瞬时扩大处理能力）等处理能力达到极限时这个时候就要牺牲部分请求了，也就要做到部分可用。从“高可用”到“柔性可用”再到“部分可用”，面对不同case，IM要做到游刃有余。

其实，这种思想又何止IM呢，任何重要的服务都要面对这些问题吧，推而广之，面对自己负责的服务，怎么精细小心都不为过。

8、本文小结

诚然，这篇文章给大家对IM系统简单的认识，阐述了IM的一般架构、主要业务逻辑、常见问题和解决方案以及服务治理相关应用，IM还有很多业务逻辑和技术挑战。

在业务上，如未读数、群聊、多端登陆、母子账号等；在技术上，entry长连接100k问题优化、时间轮计时器实现、海量数据拆分与存储选型等。

路漫漫其修远兮，吾将上下而求索。

9、参考资料

[1] 零基础IM开发入门(二)：什么是IM系统的实时性？

[2] 零基础IM开发入门(三)：什么是IM系统的可靠性？

[3] 零基础IM开发入门(四)：什么是IM系统的消息时序一致性？

[4] IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递

[5] IM消息送达保证机制实现(二)：保证离线消息的可靠投递

[6] 如何保证IM实时消息的“时序性”与“一致性”？

[7] 阿里IM技术分享(四)：闲鱼亿级IM消息系统的可靠投递优化实践

[8] 阿里IM技术分享(五)：闲鱼亿级IM消息系统的及时性优化实践

[9] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等

[10] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制

[11] 一套海量在线用户的移动端IM架构设计实践分享(含详细图文)

[12] 一套原创分布式即时通讯(IM)系统理论架构方案

[13] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[14] 蘑菇街即时通讯/IM服务器开发之架构选择

[15] 现代IM系统中聊天消息的同步和存储方案探讨

[16] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[17] 马蜂窝旅游网的IM系统架构演进之路

[18] 一套分布式IM即时通讯系统的技术选型和架构设计

[19] 微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

[20] 携程技术分享：亿级流量的办公IM及开放平台技术实践

（本文已同步发布于：http://www.52im.net/thread-4773-1-1.html）

posted @ 2025-02-13 12:33 Jack Jiang 阅读(103) | 评论 (0) | 编辑收藏

一文读懂什么是Nginx？它能否实现IM的负载均衡？

摘要: 本文引用了“蔷薇Nina”的“Nginx 相关介绍(Nginx是什么?能干嘛?)”一文部分内容，下文有修订和改动。1、引言Nginx（及其衍生产品）是目前被大量使用的服务端反向代理和负载均衡方案，从某种意义上来讲，Nginx几乎是低成本、高负载Web服务端代名词。如此深入人心的Nginx，很多人也想当然的认为，在IM或消息推送等场景下是否也能使用Ng... 阅读全文

posted @ 2025-02-06 13:54 Jack Jiang 阅读(106) | 评论 (0) | 编辑收藏

开发往事：微信千年不变的那张闪屏图片的由来

1、前言

一个孤独的小人，面对巨大的地球站在那里，这就是微信的启动画面，许多人对此非常熟悉。而知道画面里是非洲，就不是那么容易了。这是因为图片里的地球为云团笼罩，只露出一部分地貌特征，需要对世界地图比较熟悉的有心人才能发现这一点。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-204-1-1.html ）

2、图片解读

不过，因为有了我，一切都变得很简单了：

非洲大陆东北角上，那狭长的红海，和东南角上的马达加斯加岛，我都用红圈标注了出来。通过对比，这是一望而知的事情。两张图的区别在于，地图是在赤道上空看地球，而照片要偏南半球很多，以至于欧洲被挤到了图片之外，相反是南极洲在图片下方占据了大量面积。

问题在于，各个国家习惯性地把自己国家置于地图的中心。例如下面英国出版的世界地图，和你平常看到的世界地图绝对不一样：

中国不在地图的中心，是不是这样？那么，为什么微信的启动画面上的地球是正对非洲，而不是中国呢？

因为它不是地图，而是一张照片，一张真实的照片，用哈苏照相机在4万5千公里外拍摄的地球照片。这张照片的官方编号是：AS17-148-22727，民间给它的名字叫“蓝色弹珠”（The Blue Marble）。

3、“蓝色弹珠”（The Blue Marble）

要谈一下这张照片，必须说到美国的“阿波罗登月计划”。从1961年5月到1972年12月的十一年时间里，美国持续进行了一系列载人登月太空飞行。其中，有6次成功登上月球。而大家最为熟悉的失败案例是阿波罗13号登月计划，它被拍成了一部非常精彩的电影。

蓝色弹珠这张照片拍摄于1972年12月7日，当时宇航员在阿波罗17号飞船上，三名宇航员中的某一位用一台80毫米镜头的哈苏照相机，拍下了完整的地球照片。这张照片非常难得，因为阿波罗17号飞船执行的是最后一次阿波罗登月计划，从此以后，人类已经很久没有飞船抵达这个距离对地球进行拍照。我们看到的大量地球的照片，都是合成照，而不是太空实拍。

站在宇航员的角度，于4万5千公里之外看过去，地球就像是一颗很小的蓝色弹珠，这就是这张照片名字的由来。

4、最文艺的解读

微信的启动画面就是用了这张“蓝色弹珠”，人类最近一次在太空中远眺母星的景象。作为一种人际沟通工具，没有第二张图能更好地表达出人类内心的孤独，以及地球家园的美好。所以，整个画面有一种孤清中的淡淡暖意，给人的感觉是文艺到死。等你知道了背后的故事，又会觉得闷骚到死。

5、另外一种解读

我这里有另外一个不同的答案：

— 为什么不是正对着中国?

— 因为他在等待着那人转过来。

— 转过来之后呢?

— I WANT YOU!

6、更多QQ、微信的技术故事

《技术往事：微信估值已超5千亿，雷军曾有机会收编张小龙及其Foxmail》

《QQ和微信凶猛成长的背后：腾讯网络基础架构的这些年》

《闲话即时通讯：腾讯的成长史本质就是一部QQ成长史》

《2017微信数据报告：日活跃用户达9亿、日发消息380亿条》

《腾讯开发微信花了多少钱？技术难度真这么大？难在哪？》

《技术往事：创业初期的腾讯——16年前的冬天，谁动了马化腾的代码》

《技术往事：史上最全QQ图标变迁过程，追寻IM巨人的演进历史》

《开发往事：深度讲述2010到2015，微信一路风雨的背后》

《开发往事：微信千年不变的那张闪屏图片的由来》

《开发往事：记录微信3.0版背后的故事（距微信1.0发布9个月时）》

《一个微信实习生自述：我眼中的微信开发团队》

《首次揭秘：QQ实时视频聊天背后的神秘组织》

《为什么说即时通讯社交APP创业就是一个坑？》

《QQ现状深度剖析：你还认为QQ已经被微信打败了吗？》

《QQ的成功，远没有你想象的那么顺利和轻松》

《QQ和微信止步不前，意味着即时通讯社交应用创业的第2春已来？》

《还原真实的腾讯：从最不被看好，到即时通讯巨头的草根创业史》

《QQ设计团队分享：新版 QQ 8.0 语音消息改版背后的功能设计思路》

《微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！》

posted @ 2025-02-05 11:47 Jack Jiang 阅读(150) | 评论 (0) | 编辑收藏

社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践

本文为CSDN的《程序员》杂志原创文章，下文有修订和改动”。

1、引言

南方企业一直有过年找老板“逗利是”的习俗，每年春节后开工的第一天，腾讯大厦都会排上长长的队伍，集体上楼找老板们领红包。按照广东习俗，已经结婚的同事也要给未婚同事发红包，这一天腾讯员工就在春茗和寻找红包中度过。

由此孵化了一个内部项目，通过微信来收发红包，把这个公司全员娱乐活动与最活跃的IM平台微信结合起来。最初这个项目并没有预期对外，但是入口不小心开放后，成为了现象级产品。2014年开始爆发性增长，每年的发放量都是上一年的若干倍。根据腾讯公布的数据，到2016年春节，已经是每秒十万次支付，每天近十亿订单的系统。

微信红包本质是小额资金在用户帐户流转，有发、抢、拆三大步骤。在这个过程中对事务有高要求，所以订单最终要基于传统的RDBMS，这方面是它的强项，最终订单的存储使用互联网行业最通用的MySQL数据库。支持事务、成熟稳定，我们的团队在MySQL上有长期技术积累。但是传统数据库的扩展性有局限，需要通过架构解决。

补充说明：本文对应的演讲PPT详见《微信红包数据架构演变(PPT) [附件下载]》。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-2568-1-1.html）

二、分享者

莫晓东：微信支付高级DBA，拥有丰富的数据架构和运维实战经验，擅长大规模MySQL数据库集群的架构、优化和高可用。2010年起在腾讯从事DBA工作，目前专注于微信社交支付的存储层运维和架构优化。

三、系列文章

❶ 系列文章目录：

《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》

《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》

《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》

《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》

《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》

《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》（* 本文）

《社交软件红包技术解密(七)：支付宝红包的海量高并发技术实践》

《社交软件红包技术解密(八)：全面解密微博红包技术方案》

《社交软件红包技术解密(九)：谈谈手Q春节红包的设计、容灾、运维、架构等》

《社交软件红包技术解密(十)：手Q客户端针对2020年春节红包的技术实践》

《社交软件红包技术解密(十一)：最全解密微信红包随机算法(含演示代码)》

《社交软件红包技术解密(十二)：解密抖音春节红包背后的技术设计与实践》

《社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元》

❷ 其它相关文章：

《QQ 18年：解密8亿月活的QQ后台服务接口隔离技术》

《月活8.89亿的超级IM微信是如何进行Android端兼容测试的》

《开源libco库：单机千万连接、支撑微信8亿用户的后台框架基石 [源码下载]》

《微信技术总监谈架构：微信之道——大道至简(演讲全文)》

《微信技术总监谈架构：微信之道——大道至简(PPT讲稿) [附件下载]》

《如何解读《微信技术总监谈架构：微信之道——大道至简》》

《微信海量用户背后的后台系统存储架构(视频+PPT) [附件下载]》

《微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案》

《微信朋友圈海量技术之道PPT [附件下载]》

《架构之道：3个程序员成就微信朋友圈日均10亿发布量[有视频]》

《快速裂变：见证微信强大后台架构从0到1的演进历程（一）》

《快速裂变：见证微信强大后台架构从0到1的演进历程（二）》

《微信“红包照片”背后的技术难题》

《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》

《微信技术分享：微信的海量IM聊天消息序列号生成实践（容灾方案篇）》

4、前端流量控制

发十亿红包，难在哪里？

1）大量用户在同一时间发抢红包，瞬间产生每秒数万次的请求，除夕可能成百千万次；
2）这个量级的请求如果不加以疏导处理直接到达后台，必定会导致后端服务过载甚至崩溃。

主要思路是缩短关键业务流程，分离可以通过异步、缓存等方式解决的问题，减轻系统压力，加快响应速度，在存储层前面建上一座大坝。

CGI无状态：

接入层无状态，逻辑层也无状态，可以方便地水平扩展。但依赖MySQL事务保证交易完整，保证红包系统的精简，减少瓶颈的存在。

资源静态化：

利用腾讯强大的基础资源优化部署，尽量把动态内容转为静态资源。静态资源和CGI分离，静态资源通过CDN就近接入，减少用户和CGI的交互，减少内网、访问延时和数据请求。

业务流程异步化：

微信红包的发、抢、拆背后都有多个内部环境，关键流程精简，非关键流程和后续业务逻辑进入异步队列进行处理，减少了用户的等待时间，也极大降低了峰值雪崩的概率。繁多的非关键链路也不会影响到主流程。

过载保护：

前端保护后端，能在前端处理，就不传递到后端：

1）前端需要按后端能力做削峰限流；
2）客户端、接入层、逻辑层逐层控制流量；
3）前端更容易容错处理，全力保护存储层。

微信的过载保护在客户端已提前预埋了策略，在连接失败或超时情况下会有相应提示，减少用户重复请求次数。接入层针对频繁发出请求的客户端限制响应速度，并对系统负载划分出若干等级，达到不同阈值时引导客户端使用不同限速速率；在异常情况出现时，异步限流降速减轻服务器端压力防止过载。

多级读缓存：

发一个群红包，抢红包的请求量远大于发红包，如果已经领过完全可以拒绝。逻辑层增加缓存，类似可以缓存的请求都缓存起来，进一步减少存储层流量。

订单写缓存：

订单系统有很多请求不会真正完成全流量，创建这些废单不但浪费存储资源，还会挤占逻辑层和数据层的处理能力，影响其他交易。订单在完成支付前可以先落在缓存中，完成支付后再持久化。

5、存储层的高可用设计

在数百倍千倍的业务增长下，存储层很难简单无限扩容，一方面设备成倍增加的成本巨大，另一方面存储层瓶颈堆积不一定能解决问题。

读写分离：

写请求需要在主机上，实时读也需要走主机。有大量对延时不那么敏感，又影响性能的查询，完全可以放到从机。读写分离策略是MySQL分布式的入门，简洁地提高了系统容量。

水平切分：

数据的水平切分，实质就是分库分表；选取一张数据表按照主要纬度把数据拆分开。实现存储层的平行扩展。有效降低了单台数据库机器的负载，也减小了服务不可用的可能性。单台数据库宕机只会导致部分数据不能访问。主要需要考虑路由规则的选定，方便扩缩容以及数据的均衡分布。

垂直切分：

数据表除了水平切分，行内数据可以按属性进一步分开。核心表只保留最关键的字段，保证数据文件短小紧凑。以红包为例，昵称和祝福语这类较长的信息，不属于核心数据，完全可以切分到别的机器上，进一步提升核心数据库的容量。不同数据适合的存储类型也不一样，这类重复率高的长字符串更适合NoSQL存储，对存储空间和性能都是节约极大。

空间换时间：

按不同维度组织表，比如按订单属性和用户属性进行组织；适应不同的请求场景，避免复杂的查询。不同维度的表可以通过对账对齐，非核心表可以适当冗余，减少多次请求。

锁的优化：

多人争抢红包通过数据库事物来保证，必然存在竞争MySQL行锁。核心事物必须尽量精简，避免死锁。同一个订单的所有请求，尽量在逻辑层进程预排队后通过一个连接发送请求到数据库。

冷热分离：

核心数据库存放高频数据，其他数据可以定时移到成本低的冷数据库中。这样可以为核心数据库使用最好的SSD设备，快速设备容量较小较贵，不可能在全量数据上使用。同时可以保证数据表的容量不会一直积累，大表也会导致性能下降。

6、异地多活

当系统足够大时，就必须开始考虑异地部署的问题，让数据尽可能离用户更近。而且进一步的高可用不能局限在同一地域，必须跨数据中心跨城多活才能抵御系统性风险。因为跨城的几十毫秒延时，微信红包的异地活动设计为多数据中心相互独立。非灾难灰度不会将其他数据中心的数据导入到线上。

就近接入：

以微信红包系统的异步部署为例，第一个好处是用户就近接入，减少跨城的穿越流量。根据发送者的地域标志数据落地到不同数据中心，在不同地域实现业务闭环。

数据分离：

当前的网络技术限制，使用光纤也无法保证跨城数据的同步延时问题。所以微信红包的跨城数据中心并不进行数据实时同步。不同区域各自承载业务流量，地域上实现平衡，各地的订单数据各自独立存储。

异地容灾：

如果出现地域性故障，我们需要有机制去保证服务可用性。有了异步部署，假如深圳出现系统性故障，那么我们可以直接把请求接入上海。各数据中心独立部署，如果某地系统达到最大容量，可以进行跨地域分流。

7、有损服务和柔性降级

我们遇到最多的问题就是海量请求，通过分布式系统来实现海量请求，根据CAP理论不能同时保证一致性和高可用，必须有取舍。我们首先保证可用性，同时实现最终一致性。有以下原则。

有损服务：

要追求高可用性，可以牺牲部分数据一致性和完整性从而保证核心功能。在资源一定的前提下，满足用户的核心需求。微信红包的核心点是抢、拆红包，系统必须尽最大可能保证核心步骤流畅，但在瓶颈时立即降级防止引起系统雪崩。但是要保证数据能最终对齐，金融属性的系统数据安全硬要求。

柔性可用：

柔性可用是在有损服务价值观支持下的方法，结合具体场景提供不同级别的用户体验，保证尽可能成功返回关键数据。把握用户在每一个场景中的核心需求，设计不同层次满足核心诉求的办法。系统首先要实现容灾和自动切换；其次逻辑资源应该隔离；服务过载时必须自动快速拒绝。

8、结束语

本文简单介绍了微信红包的存储层服务设计准则，在业务从起步到小跑再到腾飞的过程中，背后的海量服务能力将对其最终成败有着越来越深远的影响。在互联网爆发性增长中，海量服务能力决定项目成败，必须在项目初期就做好海量服务的准备。

附录1：有关微信、QQ的文章汇总

《微信朋友圈千亿访问量背后的技术挑战和实践总结》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》

《微信团队分享：微信移动端的全文检索多音字问题解决方案》

《腾讯技术分享：Android版手机QQ的缓存监控与优化实践》

《微信团队分享：iOS版微信的高性能通用key-value组件技术实践》

《微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？》

《腾讯技术分享：Android手Q的线程死锁监控系统技术实践》

《微信团队原创分享：iOS版微信的内存监控系统技术实践》

《让互联网更快：新一代QUIC协议在腾讯的技术实践分享》

《iOS后台唤醒实战：微信收款到账语音提醒技术总结》

《腾讯技术分享：社交网络图片的带宽压缩技术演进之路》

《微信团队分享：视频图像的超分辨率技术原理和应用场景》

《微信团队分享：微信每日亿次实时音视频聊天背后的技术解密》

《QQ音乐团队分享：Android中的图片压缩技术详解（上篇）》

《QQ音乐团队分享：Android中的图片压缩技术详解（下篇）》

《腾讯团队分享：手机QQ中的人脸识别酷炫动画效果实现详解》

《腾讯团队分享：一次手Q聊天界面中图片显示bug的追踪过程分享》

《微信团队分享：微信Android版小视频编码填过的那些坑》

《微信手机端的本地数据全文检索优化之路》

《企业微信客户端中组织架构数据的同步更新方案优化实战》

《微信团队披露：微信界面卡死超级bug“15。。。。”的来龙去脉》

《QQ 18年：解密8亿月活的QQ后台服务接口隔离技术》

《月活8.89亿的超级IM微信是如何进行Android端兼容测试的》

《以手机QQ为例探讨移动端IM中的“轻应用”》

《一篇文章get微信开源移动端数据库组件WCDB的一切！》

《微信客户端团队负责人技术访谈：如何着手客户端性能监控和优化》

《微信后台基于时间序的海量数据冷热分级架构设计实践》

《微信团队原创分享：Android版微信的臃肿之困与模块化实践之路》

《微信后台团队：微信后台异步消息队列的优化升级实践分享》

《微信团队原创分享：微信客户端SQLite数据库损坏修复实践》

《腾讯原创分享(一)：如何大幅提升移动网络下手机QQ的图片传输速度和成功率》

《腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗（下篇）》

《腾讯原创分享(三)：如何大幅压缩移动网络下APP的流量消耗（上篇）》

《微信Mars：微信内部正在使用的网络层封装库，即将开源》

《如约而至：微信自用的移动端IM网络层跨平台组件库Mars已正式开源》

（本文已同步发布于：http://www.52im.net/thread-2568-1-1.html）

posted @ 2025-01-24 16:28 Jack Jiang 阅读(73) | 评论 (0) | 编辑收藏

QQ设计团队分享：手Q语音消息改版背后的功能设计思路

本文来自腾讯ISUX设计团队，下文有修订和改动。

1、引言

2019年4月16日QQ语音消息新特性突然登上微博热搜，QQ铁粉瞬间集结。是什么让129万人为QQ花式彩虹屁？为何微信却被吃瓜群众疯狂艾特？现在，让我为你揭秘QQ语音消息改版的设计旅程。

关于腾讯ISUX团队：

腾讯社交用户体验设计，简称ISUX (Internet Social User Experience)，成立于2011年1月11日，是腾讯集团核心、全球最具规模的UX设计团队，专业成员包括用户研究、交互设计、视觉设计、品牌设计、视频动画设计、UI开发、产品设计与市场研究等，至今ISUX分布于中国深圳总部、北京、上海、成都及韩国首尔。ISUX主要负责腾讯社交通讯与娱乐类产品服务的用户体验设计与研究，包括主要服务平台如QQ、QQ空间、QQ音乐、腾讯云、腾讯企点、QQ物联、腾讯课堂、兴趣部落、花样直播、全民K歌、全民影帝、企鹅FM、企鹅MV、天天P图、微云和来电等。

即时通讯网整理另一篇来自ISUX团队的文章，也可以一读：《感悟分享：在腾讯的八年，我的成长之路和职业思考》。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-2568-1-1.html）

2、回归沟通：语音消息能否更方便

QQ已经陪伴了大家20年，但是我们仍然在持续思考怎样让用户的沟通更加高效。语音作为人与人之间最自然的交流方式，也不断引起我们对现有体验的反思。

是否语音消息只能采取这种经典的气泡体验？

现有的这些点击播放的语音气泡真的满足了所有用户需求吗？emm…

总结一下：发送语音一时爽，接收语音想撞墙。

针对这些用户声音，业内已有一些解决方案。但是其目标用户量和场景远没有QQ这样丰富。在此次改版中，我们回归QQ本身，探索在QQ语音消息场景中存在的那些痛点。

面对这些痛点，此次改版将需求聚焦在：

1）长语音被打断可以重听；
2）识别有效的语音片段；
3）重点语音片段反复收听。

对于QQ 8.0此次对语音消息功能的改进目标：

1）功能层面上，我们将通过提供语音的暂停和进度拖拽能力，并可视化音量，以满足语音接收者的使用效率需求；
2）在体验层面上，语音作为用户的高频沟通操作，其设计必须满足QQ8.0中精致这一设计原则，给用户带来极致体验。

3、美好体验，从第一眼开始

3.1 易学性：让功能更加直觉化

“这么简单的操作，用户试一次就知道怎么用了吧！”

QQ拥有广泛的用户群，所有功能都要尽量降低用户的学习成本。更何况由于没有其他国民级APP的相似特性可以类比，对用户来说语音进度调节不只是一个新功能，更是一种新模式。在这种背景下，功能的易学性显得尤为重要。怎样让用户一眼就明白语音消息可以暂停并拖动呢？怎样让操作更加直觉化？我们不妨从用户熟悉的事物入手，进行联想。

暂停和拖动在语音中不常见，但它却是播放器的通用功能。在播放器设计中，有三个用户行为引导的关键元素：a.按钮—播放和暂停的指示 b.游标—拖动指示 c.颜色—进度指示。本次语音气泡的设计中，我们依旧沿用了按钮、游标、色彩作为指示性元素。

但是这些元素的加入无疑会加重气泡内的信息负担。并且当同时出现多个语音气泡时，我们更加需要保证聊天页面有适当的信息密度。因此在声纹样式设计中，降噪成为了关键。在发散了多种样式后，我们最终选择了这种简约的声纹形态。它既能很好的展示进度信息，又可以平衡气泡内的信息密度，让QQ多样化的用户群都能对语音进度拖拽有更直觉化的操作。

3.2 准确or美：直观体验至上

“声纹是程序直接生成的，难道还需要设计？”

盆友，买家秀和卖家秀了解一下？

呈现准确音量的声纹无法满足我们预期中的流畅视觉体验，反而会让用户感觉到多变声纹信息带来的压力。回归设计目标，声纹是为了帮助用户识别有效语音片段，因此有声音和无声音的声纹对比很重要。这也意味着对于正常音量区间的声音，我们可以适当牺牲准确性以确保良好的视觉体验。

在收集了大量用户真实语音声纹后，我们发现最“丑”声纹来自于两类声音。一类是当用户语音连续达到最大音量时，大量声纹达到最高高度并撑满语音气泡。这种现象常发生在用户对着手机收音孔处说话的场景中。为了解决这个问题，我们将达到最大音量的声纹高度进行削减。被削减的高度按照正弦曲线做随机值，再加回到这些声纹的上方。经过这样的优化后，所有达到最高值的声纹都能够在顶部产生流畅的曲线。

另一类“丑”声纹则来自于音量忽高忽低造成的声纹高度跳变。这是由于人们说话是非连续的，会存在语气词和用户思考的沉默点。解决这个问题的关键是让高声纹和低声纹之间的落差减少。因此我们定义当相邻声纹高度差超过50%时，就对这两个声纹高度做平滑处理，保证所有音量的声纹都有流畅的过渡。

经过与产品和开发团队的多轮参数调整后，这些精心优化后的声纹可以让用户无论怎样说话都能“看到”自己最美的语音。

4、不止拖拽，更要畅快感受

4.1 更大的响应区域

“点击拖拽是常规操作，调用系统交互就好了吧？”

拖拽的确常规，但是在功能之外，我们能否让用户的操作体验更畅快呢？

畅快意味着无拘无束，翻译成交互语言就是要赋予用户更大的操作区域。但是我们的手指宽度和控件大小有时难以匹配。例如，8.0UI改版后的语音气泡高度为118px，而成人手指的宽度范围则在110px-180px。如果拖拽只能在气泡范围内进行，就意味着用户需小心翼翼地去操作。为了实现“无拘无束”的拖拽体验，我们根据用户的行为阶段对响应范围进行了两次放大。

第一次放大：开始拖动阶段，放大触发拖动的范围。拖拽事件的触发范围由气泡本身扩大到气泡的外边缘区域。

第二次放大：拖拽中，拖动行为的响应范围扩大到全屏。一旦用户触发拖拽，系统将屏蔽聊天页面的所有操作，包括右滑返回、上下滚动和页面内的所有点击操作。确保用户在手指未离开屏幕的前提下，可以在整个页面范围内控制进度拖拽。一方面用户不再需要沿着气泡的小小区域去拖拽，体验更加顺畅；另一方面这也可以减少手指对于气泡的遮挡，让用户更好的看清楚当前进度。

4.2 更合理的气泡长度变化规则

-“语音越长，气泡越长，so easy~”

气泡越长代表语音越长。但你可能没注意过，其实气泡长度是随着语音时长呈线性变化。这个本来运行良好的规则在加入了拖拽功能后却出现了问题。从灰度用户的数据来看，大部分用户的语音时长在10s以内。此时语音气泡较短，十分不易于进行拖拽。所以我们既需要短语音气泡变长，又要保证用户可以感知到气泡始终随着时长增长而变长。在气泡最大长度无法改变的前提下，必须改变原有的线性变化规律，转变为更精细的分阶段的曲线变化。

[阶段1] 斜率逐渐增加的曲线。此阶段对应着短时长语音，也是用户的高频使用场景。因此该阶段气泡长度随语音时长的增长需要更加明显；
[阶段2] 斜率逐渐减小的曲线。此阶段对应的长语音是低频场景，此时气泡长度随语音时长变化的反馈可以适当放缓；
[阶段3] 达到气泡长度最大值，不再变化。此时为超长语音阶段，用户已经不需要通过气泡长度来判断语音时长。

运用更加精细的气泡长度变化规律，让用户的高频语音消息更好拖拽。

5、懂你所需，为你设计

-“结束了吗，有没有one more thing？”

至此，语音消息的改版设计似乎已经结束，但我们对于设计的追求不止于此。语音进度调节只是语音消息体验中的一个小小功能。我们希望通过这些精致贴心的体验设计，让用户产生一种感觉——QQ懂我。因为懂你，所以希望为你的沟通做更多事情。

关于语音消息，设计团队也在发散更多贴近用户真实生活的场景：

1）更加贴近场景的体验：未来我们是否可以利用传感器检测到用户所处的环境和状态，根据不同的环境和用户行为状态，确定这些消息是以语音还是文本显示；
2）更加丰富的语音表达：语音比文本承载了更多的情感信息，基于这个属性，我们能否通过特殊声音编辑、视觉化表达、手机触感等方式，帮助发送方传达更加丰富的信息；
3）无障碍化体验：对于视障人群、运动障碍人群、老年人群体来说，语音是很好的沟通选择。我们是否能够更进一步，通过语音指令更好的协助他们使用QQ…

做最懂你的语音消息，我们还在继续。

6、未来可期：最美的QQ正在路上

QQ新版语音气泡iOS上线当天喜提微博热搜。看到用户们的花式夸奖，我们的心情美滋滋。但同时网络上也出现了一些负面的评价，这些声音也在鞭策设计团队持续打磨语音消息体验。

一花一世界，一树一菩提。语音消息气泡改版只是体验升级的第一步，但它可以折射出整个QQ8.0版本所遵循的设计原则：降噪、生机和精致。沿着这些原则，我们依旧在打造最美QQ的路上奋力前行。

什么，你还没有下载手机QQ8.0？那你岂不是没法体验到史上最简洁的QQ页面，也不能发现底部tab小惊喜了？你更没法知道我们的语音消息马上就支持<(ˉ^ˉ)><(ˉ^ˉ)><(ˉ^ˉ)>和(>▽<)(>▽<)(>▽<)两个超赞功能（顶级机密，手动打码）。

附录：更多即时通讯产品的实践总结、感悟分享

《技术往事：微信估值已超5千亿，雷军曾有机会收编张小龙及其Foxmail》

《QQ和微信凶猛成长的背后：腾讯网络基础架构的这些年》

《闲话即时通讯：腾讯的成长史本质就是一部QQ成长史》

《2017微信数据报告：日活跃用户达9亿、日发消息380亿条》

《腾讯开发微信花了多少钱？技术难度真这么大？难在哪？》

《技术往事：创业初期的腾讯——16年前的冬天，谁动了马化腾的代码》

《技术往事：史上最全QQ图标变迁过程，追寻IM巨人的演进历史》

《开发往事：深度讲述2010到2015，微信一路风雨的背后》

《开发往事：微信千年不变的那张闪屏图片的由来》

《开发往事：记录微信3.0版背后的故事（距微信1.0发布9个月时）》

《一个微信实习生自述：我眼中的微信开发团队》

《首次揭秘：QQ实时视频聊天背后的神秘组织》

《为什么说即时通讯社交APP创业就是一个坑？》

《QQ现状深度剖析：你还认为QQ已经被微信打败了吗？》

《QQ的成功，远没有你想象的那么顺利和轻松》

《QQ和微信止步不前，意味着即时通讯社交应用创业的第2春已来？》

《还原真实的腾讯：从最不被看好，到即时通讯巨头的草根创业史》

《QQ设计团队分享：新版 QQ 8.0 语音消息改版背后的功能设计思路》

《微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！》

posted @ 2025-01-21 16:08 Jack Jiang 阅读(131) | 评论 (0) | 编辑收藏

社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的

本文来自微信团队工程师方乐明的技术分享，由InfoQ编辑发布，下文有修订和改动。

一、引言

微信红包业务量级的高速发展，对后台系统架构的可用性要求越来越高。在保障微信红包业务体验的前提下，红包后台系统进行了一系列高可用方面的优化设计。

本次分享介绍了微信红包后台系统的高可用实践经验，主要包括后台的 set 化设计、异步化设计、订单异地存储设计、存储层容灾设计与平行扩缩容等。听众可以了解到微信红包后台架构的设计细节，共同探讨高可用设计实践上遇到的问题与解决方案。

补充说明：本文对应的演讲PPT详见《微信红包系统可用性设计实践(PPT) [附件下载]》。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-2564-1-1.html）

二、分享者

方乐明：现任微信支付应用产品系统负责人，主要从事微信红包、微信转账、微信群收款等支付应用产品的系统设计、可用性提升、高性能解决方案设计等，曾连续多年负责春节微信红包系统的性能优化与稳定性提升，取得良好的效果。

三、系列文章

系列文章目录：

四、微信红包介绍

微信红包从 2014 年开始发展到现在，中间经历了几年时间。在这几年的时间里，整个系统可用性产生了很大的提升。2015 年年初的时候，每天晚上九点钟是微信红包的业务高峰期，系统经常性地出现性能问题。到了今天，即使在节假日高峰期，系统也不会出现问题。

▲ 红包印象 – 产品形态（点此查看本图出处）

如上图所示，微信红包的业务包含包、发、抢、拆、查询发送红包和收红包数量，其中最关键的步骤是发红包和抢红包。

微信红包是微信支付的商户，微信红包这个商户出售的是钱。发红包用户在微信红包平台使用微信支付购买一份钱，微信红包将钱发放到相对应的微信群。群里的用户抢红包得到微信零钱。这个过程中，微信红包和微信支付之间的关系是商家和第三方支付平台的关系。

微信红包和微信支付之间的交互，与普通商家与微信支付的交互一样，需要经过六个步骤。用户发红包时，进入微信红包下一笔订单，系统记录发红包用户、发红包金额、红包数量和要发送到的用微信群。然后微信红包系统请求微信支付服务器进行下单，用户使用微信支付进行支付。

支付成功后，微信支付后台系统通知微信红包后台系统支付成功结果，微信红包后台系统收到通知后推送微信红包消息到微信群。微信群里用户便可抢红包。这就是微信红包和微信支付的关系以及交互过程。

五、微信红包系统架构

5.1 微信红包的系统流程

▲ 微信红包的系统流程（点此查看本图出处）

上图是微信红包系统角度上的流程，业务主流程是包、发、抢、拆四个操作，每个操作包括几个关键步骤。

包红包：系统为每个红包分配一个唯一 ID，即红包发送订单号，然后将发红包用户、红包个数、红包数额写入存储，最后去微信支付下单。

发红包：用户使用微信支付完成付款，微信红包后台系统收到微信支付系统的支付成功通知。红包系统将红包发送订单状态更新为用户已支付，并写入用户发红包记录（用户发红包记录，就是微信钱包中，查看到的用户每一年总共发出及收到的红包记录）。最后微信红包后台系统发送微信红包消息到微信群。

抢红包：指微信群里的用户收到微信红包消息后，点开红包消息。这个过程，微信红包后台系统会检查红包是否已被抢完，是否已过期，是否已经抢过。

拆红包是最复杂的业务是操作，包括：

1）查询这个红包发送订单，判断用户是否可拆，然后计算本次可拆到的红包金额；
2）然后写入一条抢红包记录。如果把拆红包过程，类比为一个秒杀活动的过程，相当于扣库存与写入秒杀记录的过程；
3）更新库存对应于更新红包发送订单，写入秒杀记录对应于写入这个红包的领取红包记录；
4）另外，还要写入用户整体的红包领取记录；
5）最后请求微信支付系统给拆到红包用户转入零钱，成功后更新抢红包的订单状态为已转账成功。

5.2 微信红包的整体架构

▲ 微信红包的系统架构（点此查看本图出处）

上图所示，是微信红包的系统架构。包括微信统一接入层，下面是微信红包系统 API，包括发、抢、拆、查红包详情、查红包用户列表。再下面是封装微信红包关键业务的逻辑服务；最下面一层是数据存储层，微信红包最主要的数据是订单数据，包括发红包订单和拆红包订单两部分。业务逻辑和存储服务器之间是数据接入层，它最重要的作用是封装数据库操作的领域逻辑，使得业务逻辑服务不需要感知对 MySQL 的连接管理、性能、容灾等问题。

微信红包数据的访问热度，随着时间流逝会急剧降低，也就是数据的访问时间段非常集中，一般红包发出三天后，99% 的用户不会再去点开这个红包了。因此微信红包系统采取按时间做冷热数据分离，降低数据的存储成本，同时提升了热数据的访问性能。

数据平台用于对红包数据的分析计算，比如朋友圈里的文章，统计从某年 1 月 1 日到 2017 年 1 月一个用户总共抢红包的金额，在全国的排名情况，发红包数最多的城市等。另外一个作用就是对账，红包的订单和微信支付的订单需要对账，以保证最终资金的一致性；订单的数据和订单的 cache 需要做对账，以保证数据的完整性；订单数据和用户的收发记录需要对账，以保证用户列表完整性。

六、微信红包系统可用性实践

6.1系统可用性影响因素

系统的可用性影响因素可分成两类：

一类计划外；
一类计划内。

计划外包含很多因素，系统用到的所有东西都可能产生故障，都可能成功影响可用性的因素。从这个角度上来讲，可以说故障是无法避免的，系统的运作一定会产生故障，尤其是服务器有成千上万个的时候。计划内的影响因素，主要有与升级相关、运维相关的操作，以及日常的备份等。这一类影响因素，通过精细地设计方案，是可以避免对可用性造成影响的。

6.2微信红包系统可用性设计方向

基于上面两个分析结论，可以总结出微信红包后台系统的可用性的设计方向。就是在不能避免意外故障的情况下，尽可能降低出现意外故障时对可用性的影响。另一方面，绝大多数计划内的日常维护可以通过方案的设计避免影响可用性，其中平行扩容特指关于存储层的平行扩容。

下面从降低故障影响和微信红包系统的平行扩容两方面进行分析。

首先是降低意外故障的影响，重点讲解订单存储层在订单 DB 故障的情况下如何降低对红包系统可用性的影响。

6.3业务逻辑层 - 部署方案设计

首先是业务逻辑层的部署方案。业务逻辑层是无状态的，微信红包系统的业务逻辑层，部署在两个城市，即两地部署，每一个城市部署至少三个园区，即三个 IDC。并且每个服务需要保证三个 IDC 的部署均衡。另外，三个 IDC 总服务能力需要冗余三分之一，当一个 IDC 出现故障时，服务能力仍然足够。从而达到 IDC 故障不会对可用性产生影响。

6.4业务逻辑层 - 异步化设计

▲ 业务逻辑层 – 异步化（点此查看本图出处）

第二是异步化设计。如上图所示，微信红包的某些步骤不实时完成也不会影响用户对红包业务可用性的体验。比如拆红包，正常的业务流程很长，但关键步骤只有订单相关的几步。至于转零钱、写红包记录等操作不需要实时。用户抢到红包时，一般不会实时去钱包查看微信零钱，而是在微信群中点开消息查看本次抢到金额和他人抢红包金额。所以拆红包时只需要从 cache 查询用户是否拆过红包，然后写入拆红包的订单记录，更新发红包订单，其他的操作都可以异步化。当然，不是每个业务都可以进行异步化设计，需要进行业务分析，判断是否存在非关键步骤之外的事情可以将其异步化，并通过异步对账保证最终一致。

▲ 订单存储层 – 早期架构（点此查看本图出处）

接下来是微信红包订单存储设计。上图是 2014 年微信红包存储层的模型。业务逻辑层请求数据层操作时，使用订单号 hash 路由到订单 SERVER。订单 SERVER 与每一组 MYSQL 数据库连接。

微信红包的订单号是在发红包时系统生成唯一标识，使用序列号服务生成唯一 ID，后面拼接三位微信红包的订单分库表的标识。所以，总共可以分一百个逻辑库，每个逻辑库含有十张表。一百个逻辑库均匀地分布到十组物理 DB，每组 DB 存十个逻辑库。

这个架构的最大问题是，一组 DB 故障时，会影响其他 DB。2014-2015 年期间，微信红包量涨得特别快，扩容速度跟不上业务增长速度。一组 DB 的性能出现瓶颈时，数据操作变慢, 拆红包的事务操作在 MYSQL 排队等待。由于所有十组 DB 机器与所有的订单 SERVER 连接，导致所有的订单 SERVER 都被拖住，从而影响红包整体的可用性。这个架构的另一个问题是扩容不方便，后面会介绍。

为解决 DB 间的相互影响，需要将 DB 间相互隔离，订单存储层 SET 化。SET 化指订单 DB 和订单接入 SERVER 垂直 stick 一起。业务逻辑层访问订单时，根据订单倒数第二、三位数字找到所属订单 SET，一个 SET 的请求不能路由到其他 SET。

找到对应的订单接入服务器之后，在服务器内的多个进程中找到指定进程，让同个红包的所有拆请求串行化。当一组 DB 出现故障，只会影响该组 DB 对应的 SERVER。

这里有一个问题，DB 故障拖住某些订单 SERVER，会不会也拖住更上层业务逻辑服务？业务逻辑层为什么不一起 SET 化？业务逻辑层承载了用户维度相关的业务操作，不可以按照订单的维度分业务逻辑，例如务逻辑层会请求用户的头像、昵称等，如果继续按照订单分业务逻辑，会导致跨地域调用。

微信红包系统采取的方案是，在订单 SERVER 服务端增加快速拒绝服务的能力。SERVER 主动监控 DB 的性能情况，DB 性能下降、自身的 CPU 使用升高，或者发现其他的监控维度超标时，订单 SERVER 直接向上层报错，不再去访问 DB，以此保证业务逻辑层的可用性。

一组 DB 故障不会影响整个系统的可用性。有影响的，只有十分之一，若扩成 100 组，影响便只有一百分之一。所以通过 SET 化得到的好处是，控制 DB 连接数、隔离故障影响和分流并发。

▲ 订单存储层 – 故障自愈（点此查看本图出处）

完成 SET 化之后，DB 故障仍对业务有十分之一影响，那么这十分之一该怎么解决？通过对系统进行研究分析之后，发现 DB 可以做到故障自愈。

如上图所示，所设尾号 90-99 的 SET 故障时，如果业务逻辑服务后续不再生成属于这个 SET 的订单，那后续的业务就可以逐渐恢复。

也就是在发生故障时，业务逻辑层发布一个版本，屏蔽故障号段的单号生成，就可以恢复业务。进一步想，除了人为发版本，有没有方法可以让 DB 故障时自动恢复？在 DB 故障导致业务失败时，业务逻辑层可获取到故障 DB 的号段，在发红包时，将这些故障的号段，换一个可用的号段就可恢复业务。订单号除了最后三位，前面的部分已能保证该红包唯一性，后面的数字只代表着分库表信息，故障时只需要将最后三位换另外一个 SET 便可自动恢复。

完成这个设计后，即使 DB 出现故障，业务的可用性也不会有影响。这里还有一点，新的发红包请求可避免 DB 故障的影响，但那些故障之前已发出未被领取的红包，红包消息已发送到微信群，单号已确定，拆红包时还是失败。对这种情况，由于不会有增量，采用正常的主备切换解决即可。

6.5平行扩缩容设计

▲ 平行扩缩容 – 早期方案（点此查看本图出处）

上图是微信红包早期的扩缩容方式。这个扩容方式，对扩容的机器数有限制。前面讲到，红包系统按红包单号后面两个数字分多 SET，为了使扩容后数据保持均衡，扩容只能由 10 组 DB 扩容到 20 组、50 组或者 100 组。另外，这个扩容方式，过程也比较复杂。首先，数据要先从旧数据库同步复制到新扩容的 DB，然后部署 DB 的接入 SERVER，最后在凌晨业务低峰时停服扩容。

这个扩容方式的复杂性，根本原因是数据需要从旧 SET 迁到新 SET。如果新产生数据与旧数据没关系，那么就可以省掉这部分的迁移动作，不需停服输。分析发现，需要把旧数据迁出来的原因是订单号段 00-99 已全部被用，每个物理数据库包含了 10 个逻辑库。如果将订单号重新设计，预留三位空间，三位数字每一个代表独立的物理 DB，原来 10 组 DB 分别为 000-009 号段。

这种设计，缩容时，比如要缩掉 000 这组，只需在业务逻辑服务上不生成订单号为 000 的红包订单。扩容时，比如扩为 11 组，只需多生成 010 的订单号，这个数据便自动写入新 DB。当然，缩容需要一个前提条件，也就是冷热分离，缩容后数据变为冷数据，可下线热数据机器。以上就是红包的平行扩缩容方案。

▲ 改进后的平行扩容（点此查看本图出处）

七、写在最后

微信红包系统的可用性实践，主要包括了部署设计、SET 化设计、异步化设计、DB 故障自愈能力建设、平行扩容设计。在完成这些设计后，微信红包系统的可用性得到了很大提升，在近几年的春节实现了 0 故障，在平常的运行中达到 99.99% 可用性。

（原文链接：点此进入）

八、更多鹅厂技术文章汇总

《微信朋友圈千亿访问量背后的技术挑战和实践总结》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》

《IM全文检索技术专题(二)：微信移动端的全文检索多音字问题解决方案》

《腾讯技术分享：Android版手机QQ的缓存监控与优化实践》

《微信团队分享：iOS版微信的高性能通用key-value组件技术实践》

《微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？》

《腾讯技术分享：Android手Q的线程死锁监控系统技术实践》

《微信团队原创分享：iOS版微信的内存监控系统技术实践》

《让互联网更快：新一代QUIC协议在腾讯的技术实践分享》

《iOS后台唤醒实战：微信收款到账语音提醒技术总结》

《腾讯技术分享：社交网络图片的带宽压缩技术演进之路》

《微信团队分享：视频图像的超分辨率技术原理和应用场景》

《微信团队分享：微信每日亿次实时音视频聊天背后的技术解密》

《腾讯信鸽技术分享：百亿级实时消息推送的实战经验》

《IPv6技术详解：基本概念、应用现状、技术实践（上篇）》

《IPv6技术详解：基本概念、应用现状、技术实践（下篇）》

《腾讯技术分享：GIF动图技术详解及手机QQ动态表情压缩技术实践》

《微信团队分享：Kotlin渐被认可，Android版微信的技术尝鲜之旅》

《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》

《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》

《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》

《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》

《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》

《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》

《社交软件红包技术解密(九)：谈谈手Q红包的功能逻辑、容灾、运维、架构等》

《社交软件红包技术解密(十)：手Q客户端针对2020年春节红包的技术实践》

《社交软件红包技术解密(十一)：解密微信红包随机算法(含代码实现)》

《社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元》

（本文已同步发布于：http://www.52im.net/thread-2564-1-1.html）

posted @ 2025-01-15 11:19 Jack Jiang 阅读(153) | 评论 (0) | 编辑收藏

社交软件红包技术解密(四)：微信红包系统是如何应对高并发的

本文来自微信团队工程师方乐明的技术分享，由InfoQ编辑发布，下文收录时有修订和改动。

一、引言

每年节假日，微信红包的收发数量都会暴涨，尤以除夕为最。如此大规模、高峰值的业务需要，背后需要怎样的技术支撑？百亿级别的红包规模，如何保证并发性能与资金安全？

本文将为读者介绍微信百亿级别红包背后的高并发设计实践，内容包括微信红包系统的技术难点、解决高并发问题通常使用的方案，以及微信红包系统的所采用高并发解决方案。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4776-1-1.html）

二、分享者

方乐明：现任微信支付应用产品系统负责人，主要从事微信红包、微信转账、微信群收款等支付应用产品的系统设计、可用性提升、高性能解决方案设计等，曾连续多年负责春节微信红包系统的性能优化与稳定性提升，取得良好的效果。

三、系列文章

❶ 系列文章目录：

❷ 其它相关文章：

四、微信红包的两大业务特点

微信红包（尤其是发在微信群里的红包，即群红包），业务形态上很类似网上的普通商品“秒杀”活动。

就像下面这样：

1）用户在微信群里发一个红包，等同于是普通商品“秒杀”活动的商品上架；
2）微信群里的所有用户抢红包的动作，等同于“秒杀”活动中的查询库存；
3）用户抢到红包后拆红包的动作，则对应“秒杀”活动中用户的“秒杀”动作。

不过除了上面的相同点之外，微信红包在业务形态上与普通商品“秒杀”活动相比，还具备自身的特点。

首先：微信红包业务比普通商品“秒杀”有更海量的并发要求。

微信红包用户在微信群里发一个红包，等同于在网上发布一次商品“秒杀”活动。假设同一时间有 10 万个群里的用户同时在发红包，那就相当于同一时间有 10 万个“秒杀”活动发布出去。10 万个微信群里的用户同时抢红包，将产生海量的并发请求。

其次：微信红包业务要求更严格的安全级别。

微信红包业务本质上是资金交易。微信红包是微信支付的一个商户，提供资金流转服务。

用户发红包时，相当于在微信红包这个商户上使用微信支付购买一笔“钱”，并且收货地址是微信群。当用户支付成功后，红包“发货”到微信群里，群里的用户拆开红包后，微信红包提供了将“钱”转入折红包用户微信零钱的服务。

资金交易业务比普通商品“秒杀”活动有更高的安全级别要求。普通的商品“秒杀”商品由商户提供，库存是商户预设的，“秒杀”时可以允许存在“超卖”（即实际被抢的商品数量比计划的库存多）、“少卖”（即实际被抢的商户数量比计划的库存少）的情况。但是对于微信红包，用户发 100 元的红包绝对不可以被拆出 101 元；用户发 100 元只被领取 99 元时，剩下的 1 元在 24 小时过期后要精确地退还给发红包用户，不能多也不能少。

以上是微信红包业务模型上的两大特点。

五、微信红包系统的技术难点

在介绍微信红包系统的技术难点之前，先介绍下简单的、典型的商品“秒杀”系统的架构设计，如下图所示。

该系统由接入层、逻辑服务层、存储层与缓存构成：

1）Proxy 处理请求接入；
2）Server 承载主要的业务逻辑；
3）Cache 用于缓存库存数量；
4）DB 则用于数据持久化。

一个“秒杀”活动，对应 DB 中的一条库存记录。当用户进行商品“秒杀”时，系统的主要逻辑在于 DB 中库存的操作上。

一般来说，对 DB 的操作流程有以下三步：

1）锁库存；
2）插入“秒杀”记录；
3）更新库存。

其中，锁库存是为了避免并发请求时出现“超卖”情况。同时要求这三步操作需要在一个事务中完成（所谓的事务，是指作为单个逻辑工作单元执行的一系列操作，要么完全地执行，要么完全地不执行）。

“秒杀”系统的设计难点就在这个事务操作上。商品库存在 DB 中记为一行，大量用户同时“秒杀”同一商品时，第一个到达 DB 的请求锁住了这行库存记录。在第一个事务完成提交之前这个锁一直被第一个请求占用，后面的所有请求需要排队等待。同时参与“秒杀”的用户越多，并发进 DB 的请求越多，请求排队越严重。因此，并发请求抢锁，是典型的商品“秒杀”系统的设计难点。

微信红包业务相比普通商品“秒杀”活动，具有海量并发、高安全级别要求的特点。

在微信红包系统的设计上，除了并发请求抢锁之外，还有以下两个突出难点：

首先，事务级操作量级大：

上文介绍微信红包业务特点时提到，普遍情况下同时会有数以万计的微信群在发红包。这个业务特点映射到微信红包系统设计上，就是有数以万计的“并发请求抢锁”同时在进行。这使得 DB 的压力比普通单个商品“库存”被锁要大很多倍；

其次，事务性要求严格：

微信红包系统本质上是一个资金交易系统，相比普通商品“秒杀”系统有更高的事务级别要求。

六、解决高并发问题通常使用的方案

普通商品“秒杀”活动系统，解决高并发问题的方案，大体有以下几种。

6.1方案一：使用内存操作替代实时的 DB 事务操作

如图 2 所示，将“实时扣库存”的行为上移到内存 Cache 中操作，内存 Cache 操作成功直接给 Server 返回成功，然后异步落 DB 持久化。

这个方案的优点是用内存操作替代磁盘操作，提高了并发性能。

但是缺点也很明显，在内存操作成功但 DB 持久化失败，或者内存 Cache 故障的情况下，DB 持久化会丢数据，不适合微信红包这种资金交易系统。

6.2方案二：使用乐观锁替代悲观锁

所谓悲观锁，是关系数据库管理系统里的一种并发控制的方法。它可以阻止一个事务以影响其他用户的方式来修改数据。如果一个事务执行的操作对某行数据应用了锁，那只有当这个事务把锁释放，其他事务才能够执行与该锁冲突的操作。对应于上文分析中的“并发请求抢锁”行为。

所谓乐观锁，它假设多用户并发的事务在处理时不会彼此互相影响，各事务能够在不产生锁的情况下处理各自影响的那部分数据。在提交数据更新之前，每个事务会先检查在该事务读取数据后，有没有其他事务又修改了该数据。如果其他事务有更新的话，正在提交的事务会进行回滚。

商品“秒杀”系统中，乐观锁的具体应用方法，是在 DB 的“库存”记录中维护一个版本号。在更新“库存”的操作进行前，先去 DB 获取当前版本号。在更新库存的事务提交时，检查该版本号是否已被其他事务修改。如果版本没被修改，则提交事务，且版本号加 1；如果版本号已经被其他事务修改，则回滚事务，并给上层报错。

这个方案解决了“并发请求抢锁”的问题，可以提高 DB 的并发处理能力。

但是如果应用于微信红包系统，则会存在下面三个问题：

1）如果拆红包采用乐观锁：那么在并发抢到相同版本号的拆红包请求中，只有一个能拆红包成功，其他的请求将事务回滚并返回失败，给用户报错，用户体验完全不可接受；
2）如果采用乐观锁：将会导致第一时间同时拆红包的用户有一部分直接返回失败，反而那些“手慢”的用户，有可能因为并发减小后拆红包成功，这会带来用户体验上的负面影响；
3）如果采用乐观锁的方式：会带来大数量的无效更新请求、事务回滚，给 DB 造成不必要的额外压力。

基于以上原因，微信红包系统不能采用乐观锁的方式解决并发抢锁问题。

七、微信红包系统的高并发解决方案

综合上面的分析，微信红包系统针对相应的技术难点，采用了下面几个方案，解决高并发问题。

7.1系统垂直 SET 化，分而治之

微信红包用户发一个红包时，微信红包系统生成一个 ID 作为这个红包的唯一标识。接下来这个红包的所有发红包、抢红包、拆红包、查询红包详情等操作，都根据这个 ID 关联。

红包系统根据这个红包 ID，按一定的规则（如按 ID 尾号取模等），垂直上下切分。切分后，一个垂直链条上的逻辑 Server 服务器、DB 统称为一个 SET。

各个 SET 之间相互独立，互相解耦。并且同一个红包 ID 的所有请求，包括发红包、抢红包、拆红包、查详情详情等，垂直 stick 到同一个 SET 内处理，高度内聚。通过这样的方式，系统将所有红包请求这个巨大的洪流分散为多股小流，互不影响，分而治之，如下图所示。

这个方案解决了同时存在海量事务级操作的问题，将海量化为小量。

7.2逻辑 Server 层将请求排队，解决 DB 并发问题

红包系统是资金交易系统，DB 操作的事务性无法避免，所以会存在“并发抢锁”问题。但是如果到达 DB 的事务操作（也即拆红包行为）不是并发的，而是串行的，就不会存在“并发抢锁”的问题了。

按这个思路，为了使拆红包的事务操作串行地进入 DB，只需要将请求在 Server 层以 FIFO（先进先出）的方式排队，就可以达到这个效果。从而问题就集中到 Server 的 FIFO 队列设计上。

微信红包系统设计了分布式的、轻巧的、灵活的 FIFO 队列方案。其具体实现如下：

首先，将同一个红包 ID 的所有请求 stick 到同一台 Server。

上面 SET 化方案已经介绍，同个红包 ID 的所有请求，按红包 ID stick 到同个 SET 中。不过在同个 SET 中，会存在多台 Server 服务器同时连接同一台 DB（基于容灾、性能考虑，需要多台 Server 互备、均衡压力）。

为了使同一个红包 ID 的所有请求，stick 到同一台 Server 服务器上，在 SET 化的设计之外，微信红包系统添加了一层基于红包 ID hash 值的分流，如下图所示。

其次，设计单机请求排队方案。

将 stick 到同一台 Server 上的所有请求在被接收进程接收后，按红包 ID 进行排队。然后串行地进入 worker 进程（执行业务逻辑）进行处理，从而达到排队的效果，如下图所示。

最后，增加 memcached 控制并发。

为了防止 Server 中的请求队列过载导致队列被降级，从而所有请求拥进 DB，系统增加了与 Server 服务器同机部署的 memcached，用于控制拆同一个红包的请求并发数。

具体来说，利用 memcached 的 CAS 原子累增操作，控制同时进入 DB 执行拆红包事务的请求数，超过预先设定数值则直接拒绝服务。用于 DB 负载升高时的降级体验。

通过以上三个措施，系统有效地控制了 DB 的“并发抢锁”情况。

7.3双维度库表设计，保障系统性能稳定

红包系统的分库表规则，初期是根据红包 ID 的 hash 值分为多库多表。随着红包数据量逐渐增大，单表数据量也逐渐增加。而 DB 的性能与单表数据量有一定相关性。当单表数据量达到一定程度时，DB 性能会有大幅度下降，影响系统性能稳定性。采用冷热分离，将历史冷数据与当前热数据分开存储，可以解决这个问题。

处理微信红包数据的冷热分离时，系统在以红包 ID 维度分库表的基础上，增加了以循环天分表的维度，形成了双维度分库表的特色。

具体来说，就是分库表规则像 db_xx.t_y_dd 设计，其中，xx/y 是红包 ID 的 hash 值后三位，dd 的取值范围在 01~31，代表一个月天数最多 31 天。

通过这种双维度分库表方式，解决了 DB 单表数据量膨胀导致性能下降的问题，保障了系统性能的稳定性。同时，在热冷分离的问题上，又使得数据搬迁变得简单而优雅。

综上所述：微信红包系统在解决高并发问题上的设计，主要采用了 SET 化分治、请求排队、双维度分库表等方案，使得单组 DB 的并发性能提升了 8 倍左右，取得了很好的效果。

八、本文小结

微信红包系统是一个高并发的资金交易系统，最大的技术挑战是保障并发性能与资金安全。

这种全新的技术挑战，传统的“秒杀”系统设计方案已不能完全解决。在分析了业界“秒杀”系统解决方案的基础上，微信红包采用了 SET 化、请求排队串行化、双维度分库表等设计，形成了独特的高并发、资金安全系统解决方案，并在平时节假日、春节红包雨实践中充分证明了可行性，取得了显著的效果。以2017 鸡年除夕夜为例，微信红包收发峰值达到 76 万每秒，收发微信红包 142 亿个，微信红包系统的表现稳定，实现了除夕夜系统零故障。

九、更多鹅厂技术文章汇总

《微信朋友圈千亿访问量背后的技术挑战和实践总结》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》

《IM全文检索技术专题(二)：微信移动端的全文检索多音字问题解决方案》

《腾讯技术分享：Android版手机QQ的缓存监控与优化实践》

《微信团队分享：iOS版微信的高性能通用key-value组件技术实践》

《微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？》

《腾讯技术分享：Android手Q的线程死锁监控系统技术实践》

《微信团队原创分享：iOS版微信的内存监控系统技术实践》

《让互联网更快：新一代QUIC协议在腾讯的技术实践分享》

（本文已同步发布于：http://www.52im.net/thread-2548-1-1.html）

posted @ 2025-01-13 11:39 Jack Jiang 阅读(140) | 评论 (0) | 编辑收藏

微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！

本文由腾讯技术团队原创分享于鹅厂黑板报，下文有排版优化。

1、写在前面

直至现在，「微信鸿蒙版」这五个字，依然被赋予着太多意义。

这是一款产品，也不仅仅是一款产品。开发它的本质，是让两个高速前进，相互影响的复杂系统，彼此磨合和熟悉，像是执行一场空中加油任务。

不管外界如何评价和鞭策，这款产品本身，依然需要研发团队一个键一个键敲出来，从内核，到架构，到内测，到公测，再到一轮一轮的 debug，他们要在不到一年的时间里，走完微信14 年的路。

回顾鹅厂所做过的产品里，也许从未有过一款，被如此放在放大镜下凝视。每一次上架，每一个 bug，乃至于每一个里程碑，几乎都预定当天热搜。

站在正式版发布的1 月 9 日，或许这一切都可以风轻云淡地说：the show must go on。但这过去的 295 天里，他们的经历，我们认为值得记录下来，分享给关心微信鸿蒙版的用户朋友们。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4776-1-1.html）

2、2024年3月，集结

鹅厂指派了从塞班（Symbian）时期就负责微信开发工作的团队，来主导微信鸿蒙版。从塞班到智能手表、车机、Linux PC 端的微信，这个团队在内部素以擅长攻克不同环境、不同语言的开发工作著称。

同样很重要的一点是，得益于智能手表端微信的研发工作，微信和华为的两个团队是老相识，这也让双方的对接更加顺畅紧密起来。从三月贯穿到四月，两边通过拉通会、分享会学习鸿蒙系统研发框架，不定时组织技术专题讨论。

双方都很清楚，这不是一场三天两夜就能解决的小规模战斗，而是旷日持久的兵团级战役。兵马未动，粮草先行，敲下第一行代码之前，还有许许多多的工作需要准备。

3、2024年4月，基建

万丈高楼平地起，基建是最重要的第一步。

搞基建，“三通一平”（通电/通路/通水/土地平整）是基本要求，进取一些，可以做到“五通一平”（加入通讯/排污），再进一步，还有“七通一平”（加入通气/有线电视），乃至于“十通一平”（加入宽带/铁路/暖气）。通得越多，越有利于后期扩展和长远发展。

经过塞班、手机、手表等各种终端上的长期打磨，这个团队积累了一套名为Alita（阿丽塔）的跨平台内核。这也为鸿蒙版微信的基建打下了基础。这个阶段的重中之重是，快速熟悉鸿蒙系统，移植基础库，让 Alita 内核能够在鸿蒙系统上运行起来，和华为一边沟通、一边验证推进。

4、2024年5月，架构

接下来考验的是架构能力。开发团队需要设计好鸿蒙微信客户端的架构、编写好各模块文档，支撑各业务进场后能够高效开发。

这一步的难点，在于充分预判到业务之间的复杂解耦，既要降低各业务之间的依赖性，又要提高整体的稳定性，还要留出高可扩展性，属于典型的“我全都要”难题。

这就好比从零开始建设一座城市，要预估到这座百年之后超级都市的人口规模、交通状况、人居需求、产业结构、商业发展等因素，以及提前平衡这些因素之间的关系，需要具备极大的前瞻视角。

技术团队继续摇人，招聘也快马加鞭推进。TAPD（腾讯敏捷产品研发平台）流程图里，他们的首个目标是做出一个基础版本，保证用户能实现收发消息、语音通话等最基础、也是最重要的功能。

5、2024年6月，磨合

进入了真正的手搓环节。flutter（跨平台应用程序开发框架）、liteapp（专为移动端设计的跨平台开发框架）等，都是这个阶段的关键工作。

为了这桌“年夜饭”，技术小哥们一边在厨房切菜烧饭，一边去客厅招呼各方沏茶倒水，让支付和VoIP（语音通话技术）等基础能力陆续凑上一桌。

除了内外部密切的技术沟通，微信和华为团队对彼此的技术标准保持了互相尊重。以相册选图发送功能为例，在 Android 系统上，选图需要获取整个相册权限，也就是说应用可以访问用户的所有照片。在鸿蒙上的选图功能，为了保障用户隐私，微信采用的是 Picker 控件的方式，相册照片的展示和选择逻辑都由 Picker 控件提供，微信只能读取到用户勾选的照片。

6、第一个里程碑：bug 如约而至

赶在6月21日前，团队做好了第一个内部体验版本，包含收发消息、通话功能。和2011年1月21日发布的 iOS和安卓版的微信1.0版本相比，多了语音消息发送。

你可能会不以为然：大动干戈这么久，就整了个这毛坯房？

其实这里蕴含的开发思路，是验证最小可用的原则，本质上是对第一阶段研究鸿蒙语言和系统的成果验收。重要的是把基本功练好，才能为后续的开枝散叶打好底子。

但即便是如此普通的版本，也出了个闪退型 bug，最后查出来是系统的底层 API 问题：同样的代码逻辑，在 iOS 和安卓上能用，但在鸿蒙上行不通。两边团队为此绞尽脑汁，交了两个星期的学费，最后还是靠着某位技术小哥灵光一现想到的。

这个 bug也像是一场结业考试，经此一役，开发进入了快节奏。

微信集合了众多产品功能，各功能间又有复杂的交互和依赖关系，比如小程序的开发就涉及到与支付功能的打通，而支付能力又需要与基础会话功能打通。在完成基建的前提下，基础、支付、小程序……能进场的业务模块都陆续进了场。一个共同的目标是——10月8号鸿蒙公测那天，做出一个新版本。这个版本，将新增微信支付、朋友圈等功能。

7、2024年10月8日：喜欢您来

10月8日，微信鸿蒙原生版开启内测邀请，尝鲜版本包含基础社交通讯音视频通话、朋友圈、微信支付的二维码收/付款等功能。

内测开启，意味着微信和其他所有适配原生鸿蒙的第三方App一样，从内测到应用尝鲜再到公测，走上了鸿蒙系统第三方软件开发的三部曲。

为什么要限量内测而不是一口气开放下载呢？

在全新的平台上，要支撑海量用户、高并发通讯需求，同时涉及支付、小程序、视频等多个大功能模块，还要满足极高频使用下的稳定性，是很大的挑战。

所以，用内测 → 找bug → 修bug → 加大内测的方式，是一个更符合软件开发规律的方式。

经历了4天紧张的测试和debug，包括微信支付在内的多个功能经过严格测试流程后，合入大版本，10 月 12 日，微信鸿蒙原生版正式开始公测。

8、2024年10月～11 月：这都能遇到灰产啊啊啊

公测放量过程中，有一次实际登陆人数不到放量总数的十分之一？某平台上竟然有人公然售卖测试名额？

一系列插曲打破了原定的放量节奏，双方共同排查后发现，原来有人把安装包拿去二手平台牟利。应用商店完善机制后，把漏洞补上。

安装包都能拿来卖，也堪称是国产软件开发史上浓墨重彩的一笔。

微信鸿蒙版在尝鲜专区上线了2万测试名额，但后台显示，登录数据一直较低，我们和华为一同复盘发现，因为有人用脚本去抢名额，触发了应用商店的安全机制，同时扰乱了应用商店的计数逻辑，导致大概90% 的放量被拦截，最终实际下载的用户只有 10%左右。

又是浓墨重彩的一笔......

如何让用户尽可能体验到微信测试版本？

在基本保障尝鲜专区不断档的情况下，11 月 6 日，双方紧急协商，华为将微信鸿蒙版的测试名额大幅扩容，微信再次邀请扩容后的用户分批有序参与内测，共同完善新版本的各种体验。

在不断收集用户反馈、历经数次迭代后，目前的版本已经可以使用视频号、聊天引用、发文件等功能，所有鸿蒙用户也都可以直接下载，更多功能在持续上线。

9、2025年1月9日：不止是微信

吸收了广大用户的反馈和多轮debug后，鸿蒙版微信顺利结束公测，1月9日正式版本上线。你除了能稳定下载和使用微信外，还可以用到 QQ、腾讯视频、腾讯新闻、QQ 音乐等App。

自今年起，腾讯20多款产品通过敏捷开发，实现鸿蒙系统的适配工作，更多腾讯的产品适配也在路上。

一个发生在2024年10月29日的插曲，某种程度上，可以反映微信鸿蒙版开发团队的工作情形和协作流程：

19:20，项目组微信支付团队发现，即将要上架的最新尝鲜版的微信，小部分用户转账入口出现bug，点击后无反应。

20:15，客服团队同步后台客诉情况。

20:57，微信支付团队初步定位，有问题的代码是今日合入导致的，疑似是LiteApp（跨端的框架，微信转账是鸿蒙第一个使用这个框架的功能）的问题。

21:31，进一步定位问题，发现在一些极端情况下， LiteApp的文件缓存写入被系统提示权限不足，联系华为技术团队一起定位。

21:47，支付技术团队完成最新内测版微信的修复，合入后，提交版本给测试团队。

22:32，支付技术团队复盘问题，提出后续改进措施。

22:41，微信基础技术团队向华为应用商店提审新版本内测包。

22:54，向华为应用商店提审尝鲜版。

23:30，最新尝鲜版微信通过审核，上架尝鲜专区，转账问题修复。

微信公众平台曾有一句 slogan 深入人心：再小的个体，也有自己的品牌。同样的，再小的问题，放在微信上，都会被亿量级地扩大。

我们知道，永远等不来“完美交付”这一天。灰度测试、持续迭代，让产品在和用户的互动中得到改进，是腾讯一直以来的产品理念。

感谢微信用户、鸿蒙用户始终跟我们站在一起，7x24小时反馈bug、提出优化意见。如果把新产品开发比做一场足球赛，那希望你们一直都在，做我们敏捷开发“球队”的第12人。

10、微信的其它故事

《技术往事：微信估值已超5千亿，雷军曾有机会收编张小龙及其Foxmail》

《QQ和微信凶猛成长的背后：腾讯网络基础架构的这些年》

《2017微信数据报告：日活跃用户达9亿、日发消息380亿条》

《腾讯开发微信花了多少钱？技术难度真这么大？难在哪？》

《开发往事：深度讲述2010到2015，微信一路风雨的背后》

《开发往事：微信千年不变的那张闪屏图片的由来》

《开发往事：记录微信3.0版背后的故事（距微信1.0发布9个月时）》

《一个微信实习生自述：我眼中的微信开发团队》

《为什么说即时通讯社交APP创业就是一个坑？》

《QQ现状深度剖析：你还认为QQ已经被微信打败了吗？》

《QQ和微信止步不前，意味着即时通讯社交应用创业的第2春已来？》

（本文已同步发布于：http://www.52im.net/thread-4776-1-1.html）

posted @ 2025-01-10 11:13 Jack Jiang 阅读(68) | 评论 (0) | 编辑收藏

转转平台IM系统架构设计与实践(一)：整体架构设计

本文由转转王棕生分享，原题“IM系列(一)：转转IM系统架构探秘”，下文进行了排版和内容优化。

1、引言

转转是二手电商平台，在这个平台上，人人可以是买家，人人也可以是卖家。转转从最初的信息模式升级为一个闭环的交易模式，IM打通了买家与卖家之间的通道。本文描述了转转IM为整个平台提供的支撑能力，给出了系统的整体架构设计，分析了系统架构的特性。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4764-1-1.html）

2、系列文章

本文是系列文章中的第1篇，本系列文章的大纲如下：

转转平台IM系统架构设计与实践(一)：整体架构设计（* 本文)
转转平台IM系统架构设计与实践(二)：详细设计与实现（稍后发布..）

3、本文作者

王棕生：转转架构平台部高级研发工程师，负责IM系统、推送系统和分布式存储系统。

4、系统能力定义

转转IM需要提供如下的支撑能力：

1）有的用户习惯使用APP、有的用户习惯免安装的小程序；还有的用户习惯于在“58同城”APP上搜索二手；所以IM需要支持APP、小程序、M端等各种终端类型，以及由转转平台衍生出的其他垂类APP。

2）IM是转转平台中的一个独立系统，需要向平台中的其他系统（如客服系统、风控系统）提供“联系人”和“私信”等IM能力。

3）在转转平台的各种运营活动中，需要借助于IM通道将商品消息、订单消息、交易消息及活动通知等实时的发送给用户。

总之：IM为转转平台提供一个可靠和稳定的通道，为用户与用户之间、业务系统与用户之间、平台与用户之间打造一个可以即时通讯的环境。

5、系统架构概览

转转IM系统架构设计如下图所示，自上而下包括四层：用户层、入口层、逻辑层和原子存储层。

转转IM系统架构设计图：

6、系统架构之“用户层”

用户层是IM服务的调用者，用户层支撑各类业务应用，包括APP、小程序、M端、平台运营类业务系统和ZZRPC。

APP基于TCP协议与IM服务端进行消息传输，小程序和M端则是通过HTTP协议。

ZZRPC是转转平台使用Java语言自研的RPC框架，而转转IM系统是使用C++语言进行研发的，所以IM需要通过适配支持ZZRPC服务的相互调用。

7、系统架构之“入口层”

入口层是IM系统的入口网关，包括：

1）Entry
2）Http-Entry
3）转转自研的分布式消息中间件ZZMQ；
4）IMUI。

Entry：负责维护与APP之间的TCP连接，把APP发送的业务请求包向后直接转发到逻辑层进行处理。Entry逻辑较为简单，不参与具体的业务处理，这样设计的原因是为了避免Entry因业务改造升级进行模块重启，而丢失与APP之间的TCP连接，影响大量用户。

Http-Entry：是HTTP版的Entry实现，Http-Entry负责维护的是与小程序和M端之间通过HTTP协议模拟的“长连接”。

HTTP“长连接”的实现原理是：小程序发送http_request到Http-Entry，Http-Entry会hold住连接不返回、不释放；当产生了该用户的私信数据时或hold住连接超过一定时间（如15秒）时，Http-Entry则返回http_response到小程序；小程序收到http_response时需要立即再次发送http_request到Http-Entry......。

ZZMQ：是转转自研的分布式消息队列，接收平台各个运营类业务系统生产的系统消息、广播消息和推送类消息，然后由IM逻辑模块进行消费处理。ZZMQ解耦了平台业务系统和IM系统。

IMUI：用于IM系统适配ZZRPC的调用；IMUI作为ZZRPC服务的提供者，接收ZZRPC客户端的请求后，按照IM系统的内部协议格式同步访问逻辑层，再将逻辑层的操作结果按ZZRPC协议进行封装，然后返回到ZZRPC的客户端。

8、系统架构之“逻辑层”

逻辑层包括Logic和Extlogic两个模块组件：

1）Logic负责实现IM系统核心的和轻量级的业务逻辑，如用户登录、获取未读数、发送私信等；
2）非核心的和重量级的业务由Extlogic进行实现；
3）Logic和Extlogic两个逻辑模块通过ZZMQ进行解耦。

例如：在私信逻辑处理流程中，Logic接收私信和用户在线时的私信推送，而对于离线私信Logic则会通过ZZMQ通知Extlogic进行离线消息的召回逻辑处理。

9、系统架构之“原子存储层”

IM需要持久化存储的数据包括私信消息、系统消息和联系人等。

这些数据通过传统的关系型数据库MySQL和NewSQL数据库TiDB进行保存：

1）TiDB是分布式数据库，具有天然的弹性扩容特性；
2）MySQL通过通用的分库分表策略来应对存储和查询负载。

Das接收逻辑层对持久化数据的读写请求，将请求放入本地队列中，然后按顺序对数据库进行同步读写操作。

ZZRedis是转转自研的分布式缓存系统，负责对用户的在线信息进行缓存。

Jtransit与IMUI类似，用于适配ZZRPC服务；Jtransit作为ZZRPC服务的调用，接收逻辑层的请求后，按照ZZRPC协议格式访问平台其他系统提供的服务，获取数据后封装成IM系统的协议数据返回到逻辑层。

10、架构特性1：伸缩性

对转转IM系统架构设计，从伸缩性、高可用、可靠性、可扩展性和高性能分别进行分析。

当转转并发访问的用户量不断增加，IM系统资源紧张时，需要通过增加机器进行水平弹性扩容，主要是通过服务管理平台控制中心进行实施的。入口层、逻辑层和原子层服务之间相互调用的关系如下表所示。

Entry和Http-Entry会作为调用方调用Logic的服务，Logic和Extlogic会作为调用方调用Das的服务和Entry与Http-Entry的服务，这些服务之间的关系通过控制中心进行管理。

首先：

1）服务方组件与控制中心建立TCP长连接，将服务内容包括本实例ip、端口、服务接口等等注册到控制中心；
2）调用方组件与控制中心建立TCP长连接，从控制中心轮询服务列表；
3）服务方组件增加机器弹性扩容时，新的实例会注册到控制中心，进而被调用方实时拉取到。

另外：

1）App通过域名连接Entry时会首先访问TGW，由TGW转发请求到Entry，所以增加Entry实例时需要在TGW进行注册；
2）小程序到Http-Entry的HTTP请求都是由Nginx进行中转，所以增加Http-Entry机器需要在Nginx上进行配置；
3）Extlogic作为ZZMQ的消费者，可以自由增加实例。

存储层扩容：

1）数据库MySQL通过分库和分表的方式进行扩容；
2）分布式数据库TiDB以及分布式缓存ZZRedis；
3）还有分布式消息队列ZZMQ自身具有天然的弹性伸缩特性。

11、架构特性2：高可用

1）入口层高可用：入口层Entry和Http-Entry的可用性分别由TGW和Nginx进行探活和迁移。

2）Logic高可用：Logic的可用性由入口层实例进行控制；为了保证同一用户消息的顺序性，Entry和Http-Entry会将同一个用户的请求通过哈希算法打到相同的Logic实例；若一索引号为x的Logic实例挂掉以后，Entry和Http-Entry会在重试后将请求打到索引号为(x+p)%n的Logic实例上（n为Logic实例数目，p的取值区间为[1,n) ）；注意p的取值不能固定，否则很容易将瞬时流量打到固定的Logic实例，引起雪崩效应。

3）Extlogic高可用：Extlogic负责消费消息队列ZZMQ中的消息，挂掉任意一个实例后，不影响业务的正常处理。

4）Das高可用：Das的高可用由Logic和Extlogic进行控制，原理与Logic高可用一致，在挂掉任意一个Das实例后，Logic和Extlogic会将请求打到索引号为(x+p)%n的Das实例上。

5）存储层高可用：MySQL通过一主两备模式保证其高可用，在主库挂掉以后，其中的一个备库变为主库继续对Das提供服务；分布式数据库TiDB、分布式缓存ZZRedis，分布式消息队列ZZMQ自身具有天然的高可用特性。

12、架构特性3：可靠性

程序的正确处理保证系统的可靠性，影响IM系统可靠性的因素主要是瞬时高峰导致的逻辑层Logic实例的系统资源被用光和原子层Das对数据库的访问超时。

1）Logic可靠性：逻辑层实例的系统资源被用光发生在业务的相互影响；例如瞬时大量用户登录IM系统时，Logic大部分或全部线程被调度用于处理用户登录业务，而没有足够的资源去处理私信等业务。提高Logic可靠性的方案，可以根据微服务思想对Logic按功能职责进行拆分，如拆分成Login_Logic、Msg_Logic、Contact_Logic等。

2）Das可靠性：对数据库的访问超时发生在数据库负载较高时，例如推送千万级广播系统消息时，会有大量的更新操作落到数据库上，此时数据库响应较慢或超时；因为Das对数据库的操作是同步的，所以会造成Das内部队列请求的堆积，其他业务请求也会被堆积而导致超时。提高Das可靠性的方案，可以根据业务类型在Das内部分别创建不同的请求队列，从而避免业务的相互影响。

13、架构特性4：可扩展性和高性能

1）可扩展性：转转IM系统架构的可扩展性体现在逻辑层，逻辑层Logic和Extlogic通过消息队列ZZMQ进行解耦，定制类的功能需求在Extlogic中进行实现，避免对核心业务Logic的影响。

ZZMQ除了解耦Logic和Extlogic外，还对平台的业务系统和IM系统进行解耦。

2）高性能：分析IM系统架构，入口层和逻辑层主要是计算模块，原子存储层主要是IO模块，系统的性能瓶颈集中在数据库端。提升性能方案有：通过增强机器配置、增加机器、研究和新的存储方式，如用户联系人可以通过KList引擎进行存储。

14、本文小结

转转IM为用户与用户之间、客服与用户之间、平台与用户之间打造了一个高效和可靠的通讯通道。

按微服务私信和分层模式对IM系统架构进行分布式设计，架构中每个组件模块的功能职责明确。

具体的功能职责如下：

1）Entry负责维护TCP连接；
2）Http-Entry负责维护HTTP连接；
3）Logic负责处理核心的轻量级业务，Logic要求服务稳定；
4）Extlogic负责处理非核心的重量级业务，Extlogic要求服务可扩展；
5）Das负责对数据库进行读写访问；
6）IMUI和Jtransit负责对平台的RPC框架ZZRPC进行适配；
7）MySQL、TiDB和ZZRedis负责持久化和缓存数据；
8）ZZMQ负责对平台的业务系统和IM系统，以及Logic和Extlogic之间进行解耦。

转转IM的系统架构具有伸缩性、高可用、可靠性、功能扩展性和高性能。

15、参考资料

[1] 浅谈IM系统的架构设计

[2] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[3] 一套海量在线用户的移动端IM架构设计实践分享(含详细图文)

[4] 一套原创分布式即时通讯(IM)系统理论架构方案

[5] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[6] 蘑菇街即时通讯/IM服务器开发之架构选择

[7] 现代IM系统中聊天消息的同步和存储方案探讨

[8] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[9] 马蜂窝旅游网的IM系统架构演进之路

[10] 瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）

[11] 阿里钉钉技术分享：企业级IM王者——钉钉在后端架构上的过人之处

[12] 一套亿级用户的IM架构技术干货(上篇)：整体架构、服务拆分等

[13] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[14] 闲鱼亿级IM消息系统的架构演进之路

[15] 基于实践：一套百万消息量小规模IM系统技术要点总结

[16] 一套十万级TPS的IM综合消息系统的架构实践与思考

[17] vivo直播系统中IM消息模块的架构实践

[18] 一套分布式IM即时通讯系统的技术选型和架构设计

[19] 微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

[20] 携程技术分享：亿级流量的办公IM及开放平台技术实践

（本文已同步发布于：http://www.52im.net/thread-4764-1-1.html）

posted @ 2025-01-09 12:42 Jack Jiang 阅读(62) | 评论 (0) | 编辑收藏

开源IM聊天程序HarmonyChat：基于鸿蒙NEXT的WebSocket协议

摘要: 1、HarmonyChat是什么？HarmonyChat是一个简洁的鸿蒙NEXT上的基于WebSocket协议的聊天客户端，它基于MobileIMSDK通信库，有完善的网络通信通力、简洁的聊天界面UI、合理的代码拆分和逻辑实现，非常适合学习研究或直接用于简单的鸿蒙NEXT单页聊天项目中。HarmonyChat的源码下载请见本文：“5、源码的开源仓库地址”。2... 阅读全文

posted @ 2025-01-02 11:21 Jack Jiang 阅读(87) | 评论 (0) | 编辑收藏

开源即时通讯IM框架MobileIMSDK的鸿蒙NEXT端开发快速入门

相关链接：

① MobileIMSDK-鸿蒙端的详细介绍
② MobileIMSDK-鸿蒙端的开发手册new（* 精编PDF版）

一、理论知识准备

您需要对鸿蒙Next和ArkTS开发有所了解：

您需要对WebSocket技术有所了解：

HTML5的标准WebSocket协议文档、API手册：

1）WebSocket 的 API 手册
2）WebSocket 的标准文档

鸿蒙Next的WebSocket文档和手册：

1）鸿蒙Next的WebSocket官方文档

小提示：鸿蒙Next中的WebSocket API跟标准HTML5中的WebSocket接口及用法略有不同，但主要API都能一一对应，相差不大。

二、开发工具准备

1）DevEco-Studio：

（JackJiang 使用的版本号如上图所示，为了方便直接引用工程，建议你也使用此版或较新版本）

2）一站式下载地址：鸿蒙官网下载地址点此进入。（需要注册成为开发者才能下载哟！）

3）DevEco-Studio效果预览：

三、SDK 文件用途说明

3.1文件概览

纯ArkTS实现，无任何第3方库依赖，更无本地原生代码混编：

MobileIMSDK-鸿蒙端SDK本身只是ets文件源码的集合，自带的Demo代码只是为了方便随时测试SDK代码，目的主要是用于演示SDK的API调用，Demo代码不属于SDK框架的一部分。

大致的目录说明：

3.2详细说明

SDK 各模块/文件作用说明：

四、主要API接口和用途说明

* 主要API文档地址是：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/

1）ClientCoreSDK.getInstance().loginHasInit：

用途：是否已经完成过首次登陆。
说明：用户一旦从自已的应用中完成登陆IM服务器后，本方法就会一直返回true（直到退出登陆IM）。
返回值：{boolean}，true表示已完成首次成功登陆（即已经成功登陆过IM服务端了，后面掉线时不影响此标识），否则表示尚未连接IM服务器。

2）ClientCoreSDK.getInstance().connectedToServer：

用途：是否在线。
说明：表示网络连接是否正常。
返回值：{boolean}，true表示网络连接正常，否则表示已掉线，本字段只在this._logined=true时有意义（如果都没有登陆到IM服务器，怎么存在在线或掉线的概念呢）。

3）ClientCoreSDK.getInstance().currentLoginInfo：

用途：保存登陆时提交的登陆信息（用户名、密码/token等）。
说明：格式形如：{loginUserId:'',loginToken:''}，此返回值的内容由调用登陆函数 loginImpl()时传入的内容决定。字段定义详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1697l。

4）ClientCoreSDK.getInstance().init(eventHub: common.EventHub): void：

用途：初始化SDK核心。
说明：不同于MobileIMSDK的iOS和Java客户端，本方法需要由开发者调用，以确保MobileIMSDK核心已被初始化完成。
本方法被调用后， #isInitialed() 将返回true，否则返回false。

5）ClientCoreSDK.getInstance().release(): void：

用途：保释放MobileIMSDK框架资源统一方法。
说明：本方法建议在退出登陆（或退出APP时）时调用。调用时将尝试关闭所有MobileIMSDK框架的后台守护线程并同设置核心框架init=false、loginHasInit=false、connectedToServer=false。

6）LocalDataSender.getInstance().sendLogin(loginInfo: PLoginInfo | undefined): number：

用途：发送登陆(连接)信息给服务端。
说明：不同于其它IM框架，本框架的登录和连接高度封装在了一个sendLogin方法中，无需单独再去connect服务器，大大简化了SDK的使用。loginInfo登陆信息各字段定义见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1697。

7）LocalDataSender.getInstance().sendLoginout(): number：

用途：发送注销登陆信息。
说明：此方法的调用将被本库理解为退出库的使用，本方法将会额外调用资源释放方法 ClientCoreSDK#release() ，以保证资源释放。本方法调用后，除非再次进行登陆过程，否则核心库将处于初始未初始化状态。

8）LocalDataSender.getInstance().sendCommonDataPlain(dataContentWidthStr: string, to_user_id: string, QoS: boolean = true, fingerPrint: string = '', typeu: number = -1): number：

用途：向某人发送一条消息。
参数dataContentWidthStr：要发送的数据内容（字符串方式组织）。
参数to_user_id：要发送到的目标用户id。
参数QoS ：true表示需QoS机制支持，否则不需要。
参数fingerPrint：QoS机制中要用到的指纹码（即消息包唯一id），可设为null，生成方法见 Protocal.genFingerPrint()。
参数typeu：应用层专用字段——用于应用层存放聊天、推送等场景下的消息类型。注意：此值为-1时表示未定义。MobileIMSDK框架中，本字段为保留字段，不参与框架的核心算法，专留作应用层自行定义和使用。
返回值：0表示数据发出成功，否则返回的是错误码，see ErrorCode。

9）LocalDataSender.getInstance().sendCommonData(p: Protocal): number：

用途：通用数据协议包的发送根方法。
参数p：{Protocal} 要发送的消息协议包对象，Protocal详情请见“/module/mb_constants.js”下的createCommonData函数说明。
返回值：0表示数据发出成功，否则返回的是错误码，see ErrorCode。

10）SocketEvent.SOCKET_EVENT_ON_RECIEVE_MESSAGE事件通知：

用途：以便收到聊天消息时在UI上展现出来（事件通知于收到IM消息时）。
推荐用法：开发者可在此通知中处理收到的各种IM消息。
参数1： {Protocal}：详情请见Protocal类定义：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1350。

11）SocketEvent.SOCKET_EVENT_ON_LOGIN_RESPONSE事件通知：

用途：本地用户的登陆结果回调事件通知（此事件发生时表示客户端已登陆/连接或重连完成）。
推荐用法：开发者可在此事件中处理登录连接和掉线重连响应反馈。
参数1： {PLoginInfoResponse}：API文档详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1434。

12）SocketEvent.SOCKET_EVENT_ON_LINK_CLOSE事件通知：

用途：与服务端的通信断开的回调事件通知（此事件发生时表示客户端已掉线）。
该消息只有在客户端连接服务器成功之后网络异常中断之时触发。导致与与服务端的通信断开的原因有（但不限于）：无线网络信号不稳定、WiFi与2G/3G/4G/5G等同开情况下的网络切换、手机系统的省电策略等。
推荐用法：开发者可在此通知中处理掉线时的界面状态更新等，比如设置将界面上的“在线”文字更新成“离线”。

13）SocketEvent.SOCKET_EVENT_PING事件通知：

用途：本地发出心跳包后的回调通知（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

14）SocketEvent.SOCKET_EVENT_PONG事件通知：

用途：收到服务端的心跳包反馈的回调通知（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

15）SocketEvent.SOCKET_EVENT_KICKOUT事件通知：

用途：收到服务端反馈的错误信息指令（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数1：{PKickoutInfo}：非空，详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1428。

16）SocketEvent.SOCKET_EVENT_ON_ERROR_RESPONSE事件通知：

用途：收到服务端反馈的错误信息指令（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数1：{PErrorResponse}：非空，详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1430。

17）SocketEvent.SOCKET_EVENT_RECONNECT_ATTEMPT事件通知：

用途：“自动重连尝试中”事件（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数 code ：{numeric}：0：已停止，1：持续运行中，2：单次脉搏

18）SocketEvent.SOCKET_EVENT_MESSAGE_LOST事件通知：

用途：消息未送达的回调事件通知。
发生场景：比如用户刚发完消息但网络已经断掉了的情况下，表现形式如：就像手机qq或微信一样消息气泡边上会出现红色图标以示没有发送成功）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送失败”以便即时告之用户。
参数1：{Array}：由框架的QoS算法判定出来的未送达消息列表。

19）SocketEvent.SOCKET_EVENT_MESSAGE_BE_RECIEVED事件通知：

用途：消息已被对方收到的回调事件通知。
说明：目前，判定消息被对方收到是有两种可能：1) 对方确实是在线并且实时收到了；2) 对方不在线或者服务端转发过程中出错了，由服务端进行离线存储成功后的反馈（此种情况严格来讲不能算是“已被收到”，但对于应用层来说，离线存储了的消息原则上就是已送达了的消息：因为用户下次登陆时肯定能通过HTTP协议取到）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送成功”以便即时告之用户。
参数1：{String}：已被收到的消息的指纹特征码（唯一ID），应用层可据此ID找到原先已发的消息并可在UI是将其标记为”已送达“或”已读“以便提升用户体验。

五、如何引入SDK库文件

5.1方法一：源码形式

第一步：先将整个sdk源码module复制到您的鸿蒙工程中：

第二步：配置您的工程，确保正确引用了MobileIMSDK鸿蒙SDK的源码module：

5.2方法二：.har包形式

第一步：先将MobileIMSDK鸿蒙端SDK的.har包放入您的鸿蒙Next主module中（比如新建的libs目录下）：

第二步：配置您的工程，确保正确引用了MobileIMSDK鸿蒙SDK的.har包：

六、如何调用SDK代码

6.1第一步：设置ws/wss连接URL

设置您自已部署的MobileIMSDK服务端IP或域名的（示例详见Demo中的 IMClientManager.ets 文件）：

提示：MobileIMSDK的服务端Demo部署指南请见 http://www.52im.net/thread-63-1-1.html。

6.2第二步：初始化SDK

调用ClientCoreSDK中的init()方法进行初始化（示例详见Demo中的I MClientManager.ets 文件）：

6.3第三步：注册框架事件

注册MobileIMSDK框架级的事件监听（示例详见Demo中的 IMClientManager.ets 文件）：

6.4第四步：调用登录方法（框架内部会自动启动connect全过程）

调用登录方法（示例详见Demo中的 LoginPage.ets 文件）：

提示：不同于其它IM框架，本框架的登录和连接高度封装在了一个sendLogin方法中，无需单独再去connect服务器，大大简化了SDK的使用。

七、Demo运行效果和功能说明

八、Demo运行方法

8.1重要说明

特别说明：MobileIMSDK的鸿蒙端工程（包括Demo代码），不依赖任何第3方库，也不存在任何Native代码混编，完全使用ArkTS、ArkUI官方标准API实现，所以你在拿到MobileIMSDK的鸿蒙端工程后直接开箱即可运行，切莫搞复杂、不要私自加戏！

8.2配置要连接的MobileIMSDK服务器IP

注意：下图中登陆连接的IP地址请设置为您自已的MobileIMSDK服务器地址哦。

友情提示： MobileIMSDK的服务端该怎么部署就不是本手册要讨论的内容了，你可以参见《即时通讯框架MobileIMSDK的Demo使用帮助：Server端》。

▲ 配置要连接的服务器IP（以上代码详见IMClientManager.ets文件）

8.3启动模拟器

注意：如果没有新建模拟器可以自已新建一个。另外也可以使用支持鸿蒙Next的真机，打开“开发者模式”并插入USB线即可使用。

▲ 点击绿色箭头，立即启动模拟器！

8.4一键运行

如下图所示，点击绿色“运行”按钮后，将自动在模拟器或真机里显示自带的Demo界面了：

8.5运行效果

1）Demo的登陆界面运行截图：

2）Demo的主界面运行截图：

3）Demo运行的同时，可以查看详细的log输出（方便调试）：

九、引用资料

[1] 鸿蒙Next官方开发资料

[2] MobileIMSDK开源框架的API文档

[3] MobileIMSDK开源IM框架源码（Github地址点此）

[4] MobileIMSDK-鸿蒙Next端发布公告

[5] MobileIMSDK-鸿蒙Next端详细介绍

[6] MobileIMSDK-鸿蒙Next端开发手册（* 精编PDF版）

[7] MobileIMSDK的Server端Demo使用帮助

posted @ 2024-12-30 12:08 Jack Jiang 阅读(91) | 评论 (0) | 编辑收藏

开源轻量级IM框架MobileIMSDK的鸿蒙NEXT客户端库已发布

一、基本介绍

MobileIMSDK-鸿蒙端是一套基于鸿蒙Next（纯血鸿蒙）系统的IM即时通讯客户端库：

1）超轻量级（编译后库文件仅50KB）、无任何第3方库依赖（开箱即用）；
2）纯ArkTS编写、无Native代码、高度提炼、简单易用；
3）基于鸿蒙Next标准WebSocket API，简洁优雅；
4）可运行于任何支持鸿蒙Next的平台；
5）能与 MobileIMSDK的各种客户端完美互通；
6）可应用于鸿蒙Next中的消息推送、客服聊天、企业OA、IM等场景。

二、与MobileIMSDK的关系

MobileIMSDK-鸿蒙端是基于鸿蒙Next标准WebSocketAPI的 MobileIMSDK配套客户端库。

以下是MobileIMSDK的最新通信架构图：

MobileIMSDK是一套专为移动端开发的原创开源IM通信层框架：

1）历经10年、久经考验；
2）超轻量级、高度提炼，lib包50KB以内；
3）精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
4）客户端支持iOS、Android、标准Java、H5(暂未开源)、微信小程序(暂未开源)、Uniapp(暂未开源)、鸿蒙Next(Demo工程源码)new；
5）服务端基于Netty，性能卓越、易于扩展；
6）可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
7）可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

PS：MobileIMSDK一直在持续开发和升级中，本鸿蒙客户端是MobileIMSDK工程的最新成果。

三、设计目标

直接使用鸿蒙Next的WebSocket API开撸，有以下问题和劣势：

1）功能有限：没有心跳保活、断线重连、消息送达保证（重传和去重）等即时通讯关键算法和逻辑；
2）API 简陋：在如此有限的API接口下，能逻辑清晰且健壮地实现并组合心跳保活、断线重连、消息送达保证等算法，需要相当高的技术掌控力；
3）逻辑耦合：经验欠缺的开发人员，会将WebSocket通信逻辑与前端ArkUI界面代码混在一起，使得UI界面的编写、维护、改版都非常困难。

针对以上问题，而MobileIMSDK-鸿蒙端库将让开发者专注于UI应用层的开发，网络通信层的专业代码交由SDK开发人员，从而解偶UI前端和通信层的逻辑耦合性，大大降低技术复杂度和应用门槛。

MobileIMSDK-鸿蒙端库的设计目标是为您的开发带来以下便利：

1）界面与通信解偶：UI界面与网络通信层代码解耦，UI界面的重构、维护、改版都非常容易和优雅；
2）轻量级和兼容性：受益于坚持使用鸿蒙Next的标准WebSocket API，简洁轻量，无需任何额外库依赖；
3）核心内聚和收敛：得益于长期的提炼和经验积累，SDK核心层高度封装，开发者无需理解复杂算法即可简单上手。
4）纯 ArkTS 实现：纯ArkTS编写，无重量级框架和库依赖（更无Native代码），可干净利落地对接各种既有系统；
5）跨平台运行能力：受益于鸿蒙系统的跨端特性，理论上本SDK可运行于任何支持鸿蒙Next的平台上。

四、技术亮点

1）超级轻量纯净：超轻量级——纯ArkTS编写且无任何第3方库依赖，编译后库文件仅50KB；
2）高内聚易使用：高度提炼——简单易用，所有核心类皆设计为单例——到手即用、高度容错；
3）跨端支持好：基于鸿蒙Next的标准WebSocket API（无Native代码依赖），理论上可很好地运行于任何支持最新鸿蒙的平台上；
4）断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；
5）送达保证机制：完善的QoS消息送达保证机制（自动重传、消息去重、状态反馈等），不漏过每一条消息；
6）通信协议封装：实现了一个对上层透明的即时通讯通信协议模型；
7）身份认证机制：实现了简单合理的身份认证机制；
8）完善的log信息：在开发调试阶段，确保每一个算法关键步骤都有日志输出，让您的运行调试更为便利；
9）界面代码解耦：实现了UI界面代码与SDK网络通信代码解偶，防止界面代码跟IM核心代码混在一起，不利于持续升级、重用和维护；
10）多端协议兼容：实现了与MobileIMSDK各种客户端完全兼容的协议模型。

五、文件组成

完整工程文件概览：

SDK代码文件用途说明：

精编注释级的源码：

六、Demo功能说明

（点击可看大图 ▲）

七、实际运行效果

1）Demo 的登陆界面运行截图（点击可看大图 ▼）：

2）Demo 的主界面运行截图（点击可看大图 ▼）：

3）Demo 运行的同时，可以查看详细的 log 输出（方便调试）：

八、详尽开发者手册

① 开发者手册（网页版）：点此进入 ◀

② 开发者手册（PDF精编版）：点此进入 ◀（* 推荐）

九、相关资料

[1] 鸿蒙Next官方开发资料

[2] MobileIMSDK开源框架的API文档

[3] MobileIMSDK开源IM框架源码（Github地址点此）

[4] MobileIMSDK-鸿蒙Next端发布公告

[5] MobileIMSDK-鸿蒙Next端开发手册（* 推荐）

posted @ 2024-12-23 11:31 Jack Jiang 阅读(89) | 评论 (0) | 编辑收藏

不为人知的网络编程(十九)：能Ping通，TCP就一定能连接和通信吗？

摘要: 本文由小白debug分享，原题“能 ping 通，TCP 就一定能连通吗？”，下文进行了排版和内容优化。1、引言平时，我们想要知道，自己的机器到目的机器之间，网络通不通，一般会执行ping命令。一般对于状况良好的网络来说，你能看到它对应的loss丢包率为0%，也就是所谓的能ping通。如果看到丢包率100%，也就是ping不通。▲ ping正常▲ p... 阅读全文

posted @ 2024-12-19 11:29 Jack Jiang 阅读(80) | 评论 (0) | 编辑收藏

网络编程懒人入门(十六)：手把手教你使用网络编程抓包神器Wireshark

本文由转转QA刘宝成分享，原题“抓包工具wireshark的使用”，下文进行了排版和内容优化。

1、引言

跟网络通信有关的应用场景下（比如Web系统、IM聊天应用、消息推送系统等），经常要用到网络抓包工具，用以验证客户端和服务器之间收发的数据包是否正确。以IM聊天系统为例，TLS/SSL加密开启到底有没有成功？加密效果怎么样？端到端加密后的聊天内容安全强度够不够？等等这些疑问，都需要通过网络抓包抓出样本来分析和验证。

Wireshark是一款开源和跨平台的抓包工具。它通过调用操作系统底层的API，直接捕获网卡上的数据包，因此捕获的数据包详细、功能强大。但Wireshark本身稍显复杂，本文将以用抓包实例，手把手带你一步步用好Wireshark，并真正理解抓到的数据包的各项含义。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4752-1-1.html）

2、系列文章

本文是系列文章中的第16篇，本系列文章的大纲如下：

网络编程懒人入门(一)：快速理解网络通信协议（上篇）

网络编程懒人入门(二)：快速理解网络通信协议（下篇）

网络编程懒人入门(三)：快速理解TCP协议一篇就够

网络编程懒人入门(四)：快速理解TCP和UDP的差异

网络编程懒人入门(五)：快速理解为什么说UDP有时比TCP更有优势

网络编程懒人入门(六)：史上最通俗的集线器、交换机、路由器功能原理入门

网络编程懒人入门(七)：深入浅出，全面理解HTTP协议

网络编程懒人入门(八)：手把手教你写基于TCP的Socket长连接

网络编程懒人入门(九)：通俗讲解，有了IP地址，为何还要用MAC地址？

网络编程懒人入门(十)：一泡尿的时间，快速读懂QUIC协议

网络编程懒人入门(十一)：一文读懂什么是IPv6

网络编程懒人入门(十二)：快速读懂Http/3协议，一篇就够！

网络编程懒人入门(十三)：一泡尿的时间，快速搞懂TCP和UDP的区别

网络编程懒人入门(十四)：到底什么是Socket？一文即懂！

网络编程懒人入门(十五)：外行也能读懂的网络硬件设备功能原理速成

网络编程懒人入门(十六)：手把手教你使用网络编程抓包神器Wireshark（* 本文)

3、Wireshak的安装和基本使用

安装：直接通过官方下载对应的安装包即可 https://www.wireshark.org/download.html。

使用：

如上图所示：

1）左上角为几个最常用的按钮：开始捕获、停止捕获、重新捕获、捕获选项；
2）中间为捕获过滤器，用于过滤需要捕获的数据包；
3）捕获过滤器下面可以选择需要捕获的网络连接。

下图是用Wireshark捕获的数据包：

可以看到，数据包结构是与OSI的七层模型相对应的，会详细显示每层的信息。

更多Wireshak的基本用法和手册，可以详读以下两篇：

4、快速理解Wireshak的过滤器

由于Wireshark直接捕获底层网络数据包，导致其捕获的数据包数量通常较大。为了便于筛选数据包，Wireshark提供了两种过滤器。

4.1捕获过滤器

用于设置什么样的数据包保存在捕获结果中，避免产生过大的日志文件。

需要在开始捕获之前设置，相对简单：

捕获过滤器语法如上，一般用于过滤协议、IP、端口等基本信息。

例如：

1）显示目的TCP端口为8080的包：tcp dst port 8080
2）显示来源IP地址为192.168.171.201的封包：ip src host 192.168.171.201

4.2显示过滤器

用于在捕获日志中查找数据包，可以在捕获过程中或者捕获后随时更改。

功能更加强大和复杂：

显示过滤器语法如上，比捕获过滤器更为强大，可以针对不同协议，过滤不同的字段。

例如：

1）源地址是192.168.171.0网段的数据包：ip.src == 192.168.171.0/24
2）所有的HTTP POST请求：http.request.method== "POST"
3）显示包含TCP SYN标志的包：tcp.flags.syn == 0×02
4）URL中包含baidu的http请求：http.request.uri contains "baidu"

5、用什么例子来动手学习Wireshak？

本来想借用RainbowChat 这种IM聊天中的TLS/SSL数据包来的分析来实战Wireshak，但考虑到IM通常都是私有协议，不利于理解。

因而接下来的内容将以HTTPS为例，来详细讲解如何借助Wireshak抓出的数据包（正好也顺验证之前那么多跟TLS/SSL加密有关的文章），详细理解和学习Wireshak的使用，同进加深对HTTPS协议本身的理解。

6、什么是HTTPS

SSL/TLS：SSL (Secure Sockets Layer)，最初由Netscape公司设计，后来逐渐演变为TLS(Transport Layer Security Protocol)，即“传输层安全协议”。

该协议工作在TCP层之上，应用层之下。在TCP连接完成后，进行通信双方的身份认证，并协商一些跟加密相关的工作。完成协商之后，就可以对双方发送的信息进行加密/解密了。

HTTPS：可以理解为HTTP over SSL/TLS。即在SSL/TLS协议之上运行HTTP协议，以保证通信的安全性。

更多深入的学习，可以从下面这几篇精选的资料开始：

7、HTTPS的SSL/TLS握手过程

SSL/TLS的握手过程主要需要解决两个问题：

1）证明通信双方身份的真实性；
2）协商后续通信过程中使用的密钥；

如下图所示：左侧是一个简单的握手流程，右侧为对应的抓包结果，我们可以对比分析一下SSL/TLS的握手过程。

1）C：ClientHello

客户端发送协议版本号、sessionid、随机数、加密算法列表、扩展字段等信息：

2）S：ServerHello

与客户端类似，不同之处在于确定了所使用的加密算法等：

3）S：Certificate

服务端向客户端发送自己的CA证书。客户端通过证书信任链查看该证书的真实性，以验证服务端的身份。其实SSL/TLS协议还支持客户端的CA证书验证，不过在实际中使用较少。

4）S：ServerKey Exchange

服务端根据之前选择的加密算法，传输密钥协商需要的参数。从之前的报文可以看到，这里选择的是EC-DH算法。

5）S：ServerHello Done

该报文表示服务端发送完成。

6）C：ClientKey Exchange

同理，客户端也要根据之前选择的加密算法，传输相应的参数。

7）C：ChangeCipher Spec

经过上述步骤，客户端和服务器双方已经完成了身份认证，并且交换了生成密钥的全部参数。双方会根据对应的算法，各自生成加密密钥，然后就可以进行加密通信了。这个报文表示切换到密文模式，后续消息都通过加密传输。

8）C：Finished

客户端表示握手完成。这里会发送一段Verify Data，是使用新生成的密钥加密后的一段信息。双方通过该信息验证加密算法、密钥是否有效。

9）S：Change Cipher Spec

10）S：Finished

服务段也会发送对应的两条消息作为回应，不再赘述。

8、解密HTTPS报文

握手完成之后，就可以查看客户端发出的HTTP请求了。但我们看到的只是一段加密后的字符串？那么如何对HTTPS报文进行解密呢？

要想解密HTTPS报文，就必须要获取到加密密钥。Chrome、Firefox等浏览器支持将访问网站时使用的密钥输出到文件中。仅需要配置环境变量SSLKEYLOGFILE 即可。

如下：

然后需要将该密钥文件导入到Wireshark中。打开编辑-首选项，选择Protocol-SSL，填写刚才设置的文件路径。

现在，就可以通过Wireshark查看HTTPS请求中的具体信息了！

9、参考资料

[1] TCP/IP详解 - 第17章·TCP：传输控制协议

[2] 理论经典：TCP协议的3次握手与4次挥手过程详解

[3] 理论联系实际：Wireshark抓包分析TCP 3次握手、4次挥手过程

[4] 网络通讯数据抓包和分析工具 Wireshark 使用教程(中文) [附件下载]

[5] 如果这样来理解HTTPS原理，一篇就够了

[6] 你知道，HTTPS用的是对称加密还是非对称加密？

[7] 为什么要用HTTPS？深入浅出，探密短连接的安全性

[8] 一分钟理解 HTTPS 到底解决了什么问题

[9] 一篇读懂HTTPS：加密原理、安全逻辑、数字证书等

[10] IM聊天系统安全手段之通信连接层加密技术

[11] IM聊天系统安全手段之传输内容端到端加密技术

[12] 传输层安全协议SSL/TLS的Java平台实现简介和Demo演示

[13] 微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[14] 手把手教你为基于Netty的IM生成自签名SSL/TLS证书

（本文已同步发布于：http://www.52im.net/thread-4752-1-1.html）

posted @ 2024-12-12 11:24 Jack Jiang 阅读(133) | 评论 (0) | 编辑收藏

Web端IM聊天消息该不该用浏览器本地存储？一文即懂！

摘要: 本文由转转技术团队刘筱雨分享，原题“一文读懂浏览器本地存储：Web Storage”，下文进行了排版和内容优化。1、引言鉴于目前浏览器技术的进步（主要是HTML5的普及），在Web网页端IM聊天应用的技术选型阶段，很多开发者都会纠结到底该不该像原生移动端IM那样将聊天记录缓存在浏览器的本地，还是像传统Web端即时通讯那样继续存储在服务端？本文将为你简洁明了地讲清楚浏览器本地... 阅读全文

posted @ 2024-11-28 11:00 Jack Jiang 阅读(107) | 评论 (0) | 编辑收藏

即时通讯技术文集（第44期）：微信、QQ技术精华合集(Part1) [共14篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第44 期。

[-1-] 微信朋友圈千亿访问量背后的技术挑战和实践总结

[链接] http://www.52im.net/thread-1569-1-1.html

[摘要] 朋友圈的数据是永远存储的，而且随着业务的快速发展，存储容量、带宽和设备的消耗大量增加，尤其重大节日带来的使用量增长，更加剧了消耗，也给运维人员的保障带来了巨大压力。

[-2-] 腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)

[链接] http://www.52im.net/thread-1559-1-1.html

[摘要] 本次文章跟大家分享如何在保障质量（指的是图片质量、音视频质量）前提下所做的带宽和网络流量压缩，进而达到运营成本的优化。

[-3-] 腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)

[链接] http://www.52im.net/thread-1560-1-1.html

[摘要] 本文接上篇《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》，继续腾讯公司分享如何在保障质量（指的是图片质量、音视频质量）前提下所做的带宽和网络流量压缩，进而达到运营成本的优化。

[-4-] IM全文检索技术专题(二)：微信移动端的全文检索多音字问题解决方案

[链接] http://www.52im.net/thread-1545-1-1.html

[摘要] 本文重点讲述微信安卓客户端在SQLite FTS5的基础上，多音字问题的解决方案。

[-5-] 腾讯技术分享：Android版手机QQ的缓存监控与优化实践

[链接] http://www.52im.net/thread-1524-1-1.html

[摘要] 对于Android应用来说，内存向来是比较重要的性能指标。内存占用过高，会影响应用的流畅度，甚至引发OOM，非常影响用户体验。因此，内存优化也向来是行业内的重点工作项和难点工作项。

[-6 -] 微信团队分享：iOS版微信的高性能通用key-value组件技术实践

[链接] http://www.52im.net/thread-1461-1-1.html

[摘要] 本文要分享的是iOS版微信内部正在推广和使用的一个高性能通用key-value 组件的技术实践过程，该组件在微信内部被命名为MMKV（以下简称MMKV）。

[-7-] 微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？

[链接] http://www.52im.net/thread-1449-1-1.html

[摘要] 一般来说，特殊字符闪退是系统漏洞引起，只要更新系统就行。但大部分用户不愿意更新系统，而苹果也不一定第一时间解决问题。另外后台可以拦截恶意文本传递，但对于本地已下发的消息，后台没有办法让它删除。所以客户端还是要做些保护预防特殊字符闪退。

[-8-] 腾讯技术分享：Android手Q的线程死锁监控系统技术实践

[链接] http://www.52im.net/thread-1442-1-1.html

[摘要] 本文将详细介绍Android版手Q中这套线程卡死监控系统设计思路以及技术实践总结。

[-9 -] 微信团队原创分享：iOS版微信的内存监控系统技术实践

[链接] http://www.52im.net/thread-1422-1-1.html

[摘要] 二期版本以Instruments的Allocations为参考，着重四个方面优化，分别是数据收集、存储、上报及展现。

[-10-] 让互联网更快：新一代QUIC协议在腾讯的技术实践分享

[链接] http://www.52im.net/thread-1407-1-1.html

[摘要] 本文主要介绍 QUIC 协议在腾讯内部及腾讯云上的实践和性能优化，新一代的互联网协议需要大家一起努力推动，你准备好了吗？

[-11 -] iOS后台唤醒实战：微信收款到账语音提醒技术总结

[链接] http://www.52im.net/thread-1404-1-1.html

[摘要] 本文借此总结了iOS平台上的APP后台唤醒和语音合成、播放等一系列技术开发过程中遇到的坑和小技巧，希望与您分享。

[-12 -] 腾讯技术分享：社交网络图片的带宽压缩技术演进之路

[链接] http://www.52im.net/thread-1391-1-1.html

[摘要] 为了进一步降低运营带宽成本，减小用户访问流量及提升页面加载速度，社交网络 CDN运维紧跟行业图片优化趋势，创新引入WebP、SharpP、自适应分辨率、Guetzli等图像压缩技术到现网，经过三年多的多部门联合攻关，已逐渐形成一套覆盖全图片类型（JPEG、JPG、PNG、WebP、GIF）多场景的图片压缩运营体系，适用于各类型终端，每年节约外网带宽几百G。

[-13 -] 微信团队分享：视频图像的超分辨率技术原理和应用场景

[链接] http://www.52im.net/thread-1377-1-1.html

[摘要] 本文试着讲述超分辨率技术的正确打开方式，浅谈视频图像的超分辨率技术的基本概念和应用场景等问题。

[-14 -] 微信团队分享：微信每日亿次实时音视频聊天背后的技术解密

[链接] http://www.52im.net/thread-1311-1-1.html

[摘要] 本文将为大家介绍微信实时音视频聊天在不同发展阶段的各个关键视频技术环节采用的方案，同时分享在实时音视频聊天中的视频编码器研发的方法和经验。

👉52im社区本周新文：《Web端IM聊天消息该不该用浏览器本地存储？一文即懂！》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-11-27 11:06 Jack Jiang 阅读(103) | 评论 (0) | 编辑收藏

Wasm在即时通讯IM场景下的Web端应用性能提升初探

摘要: 本文由得物技术WWQ分享，原题“基于IM场景下的Wasm初探：提升Web应用性能”，下文进行了排版和内容优化。1、什么是WasmWasm，全称 WebAssembly，官网描述是一种用于基于堆栈的虚拟机的二进制指令格式。Wasm被设计为一个可移植的目标，用于编译C/C++/Rust等高级语言，支持在Web上部署客户端和服务器应用程序。简单的来说，Wasm就是使用C... 阅读全文

posted @ 2024-11-21 12:56 Jack Jiang 阅读(102) | 评论 (0) | 编辑收藏

即时通讯技术文集（第43期）：直播技术合集(Part3) [共13篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第 43 期。

[-1-] 直播系统聊天技术(一)：百万在线的美拍直播弹幕系统的实时推送技术实践之路

[链接] http://www.52im.net/thread-1236-1-1.html

[摘要] 直播弹幕指直播间的用户，礼物，评论，点赞等消息，是直播间交互的重要手段。美拍直播弹幕系统从 2015 年 11 月到现在，经过了三个阶段的演进，目前能支撑百万用户同时在线。比较好地诠释了根据项目的发展阶段进行平衡演进的过程。这三个阶段分别是快速上线、高可用保障体系建设、长连接演进。具体我将在正文中展开，请继续往下阅读。

[-2-] 直播系统聊天技术(二)：阿里电商IM消息平台，在群聊、直播场景下的技术实践

[链接] http://www.52im.net/thread-3252-1-1.html

[摘要] 本文来自淘宝消息业务团队的技术实践分享，分析了电商IM消息平台在非传统IM应用场景下的高发并、强互动群聊和直播业务中的技术特点，总结并分享了在这些场景下实现大量多对多实时消息分发投递的一些架构方面的设计实践。

[-3-] 直播系统聊天技术(三)：微信直播聊天室单房间1500万在线的消息架构演进之路

[链接] http://www.52im.net/thread-3376-1-1.html

[摘要] 本文将回顾微信直播聊天室单房间海量用户同时在线的消息组件技术设计和架构演进，希望能为你的直播聊天互动中的实时聊天消息架构设计带来启发。

[-4-] 直播系统聊天技术(四)：百度直播的海量用户实时消息系统架构演进实践

[链接] http://www.52im.net/thread-3515-1-1.html

[摘要] 本文主要分享的是百度直播的消息系统的架构设计实践和演进过程。

[-5-] 直播系统聊天技术(五)：微信小游戏直播在Android端的跨进程渲染推流实践

[链接] http://www.52im.net/thread-3594-1-1.html

[摘要] 微信小游戏出于性能和安全等一系列考虑，运行在一个独立的进程中，在该环境中不会初始化视频号直播相关的模块。这就意味着小游戏的音视频数据必须跨进程传输到主进程进行推流，给我们实现小游戏直播带来了一系列挑战。

[-6-] 直播系统聊天技术(六)：百万人在线的直播间实时聊天消息分发技术实践

[链接] http://www.52im.net/thread-3799-1-1.html

[摘要] 本文将基于融云在直播技术实践的背景，分享了单直播间百万用户在线量的实时消息分发的技术经验总结，希望带给你启发。

[-7-] 直播系统聊天技术(七)：直播间海量聊天消息的架构设计难点实践

[链接] http://www.52im.net/thread-3835-1-1.html

[摘要] 本文将主要从高可用、弹性扩缩容、用户管理、消息分发、客户端优化等角度，分享直播间海量聊天消息的架构设计技术难点的实践经验。

[-8-] 视频直播技术干货(十一)：超低延时视频直播技术的演进之路

[链接] http://www.52im.net/thread-4587-1-1.html

[摘要] 本文将带您了解超低延时视频直播技术的优化和演进历程。

[-9 -] 视频直播技术干货(十二)：从入门到放弃，快速学习Android端直播技术

[链接] http://www.52im.net/thread-4714-1-1.html

[摘要] 本文详细介绍了Android端直播技术的全貌，涵盖了从实时音视频采集、编码、传输到解码与播放的各个环节。文章还探讨了直播中音视频同步、编解码器选择、传输协议以及直播延迟优化等关键问题。希望本文能为你提供有关Andriod端直播技术的深入理解和实践指导。

[-10-] 海量实时消息的视频直播系统架构演进之路(视频+PPT)[附件下载]

[链接] http://www.52im.net/thread-1562-1-1.html

[摘要] 本次主要分享的是融云视频直播互动平台的实时消息可靠性的设计方案,支撑无上限消息并发的架构演进,单机吞吐性能的优化历程。

[-11 -] YY直播在移动弱网环境下的深度优化实践分享(视频+PPT)[附件下载]

[链接] http://www.52im.net/thread-1379-1-1.html

[摘要] 本次分享介绍了 YY 直播针对质量较差网络（简称弱网）的环境，基于数据分析，在客户端和云端所采取的一系列技术手段。同时，就如何改善上下行网络环境，也给出自己的一些解决方案。

[-12 -] 从0到1：万人在线的实时音视频直播技术实践分享(视频+PPT) [附件下载]

[链接] http://www.52im.net/thread-213-1-1.html

[摘要] 本次分享由“跟谁学”CTO带来，介绍跟谁学的团队是怎样在很短的时间内，构建了一个支持万人实时音视频直播的在线教室。

[-13 -] 在线音视频直播室服务端架构最佳实践(视频+PPT) [附件下载]

[链接] http://www.52im.net/thread-196-1-1.html

[摘要] 本期演讲嘉宾将为大家带来金山视频云在社交直播场景的支撑技术架构和优化方案。

👉52im社区本周新文：《Wasm在即时通讯IM场景下的Web端应用性能提升初探》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-11-20 11:34 Jack Jiang 阅读(95) | 评论 (0) | 编辑收藏

移动端弱网优化专题(十四)：携程APP移动网络优化实践（弱网识别篇）

摘要: 本文由携程技术团队Aaron分享，原题“干货 | 携程弱网识别技术探索”，下文进行了排版和内容优化。1、引言网络优化一直是移动互联网时代的热议话题，弱网识别作为移动端弱网优化的第一步，受到的关注和讨论也是最多的。本文从方案设计、代码开发到技术落地，详尽的分享了携程在移动端弱网识别方面的实践经验，如果你也有类似需求，这篇文章会是一个不错的实操指南。技术交流：- 移动端IM开发... 阅读全文

posted @ 2024-11-14 11:14 Jack Jiang 阅读(109) | 评论 (0) | 编辑收藏

即时通讯技术文集（第42期）：直播技术合集(Part2) [共13篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第42 期。

[-1-] 实时音频的混音在视频直播中的技术原理和实践总结

[链接] http://www.52im.net/thread-1904-1-1.html

[摘要] 今天，我们就来聊一聊混音技术在视频直播应用中的实现原理、方案等，及其在创新玩法中的实践应用。

[-2-] 七牛云技术分享：使用QUIC协议实现实时视频直播0卡顿！

[链接] http://www.52im.net/thread-1406-1-1.html

[摘要] 不做任何开发，就能实现弱网环境下实现实时视频直播零卡顿，听上去是不是天方夜谭？看完这篇文章你就知道，我们是如何做到的。

[-3-] 近期大热的实时直播答题系统的实现思路与技术难点分享

[链接] http://www.52im.net/thread-1369-1-1.html

[摘要] 我们首先分析一下直播答题和传统直播在技术上的不同，然后深度解释一下直播答题解决方案的海量并发派题和收题。

[-4-] P2P技术如何将实时视频直播带宽降低75%？

[链接] http://www.52im.net/thread-1289-1-1.html

[摘要] 那整个系统是怎么设计的？使用了哪些技术来达成目标？接下来我来重点分享一下架构设计和技术细节。

[-5-] 网易云信实时视频直播在TCP数据传输层的一些优化思路

[链接] http://www.52im.net/thread-1254-1-1.html

[摘要] 网易云信的实时视频直播目前使用了TCP进行传输，且基于此，从编码动态适配、发送队列调整、协议优化、socket等做了全流程的优化，确保在限带宽、丢包、时延、抖动，无论单项还是复杂网络，都有非常不错的实际体验。

[-6 -] 首次披露：快手是如何做到百万观众同场看直播仍能秒开且不卡顿的？

[链接] http://www.52im.net/thread-1033-1-1.html

[摘要] 快手拥有5亿注册用户，单个直播间人数峰值已经超过180万，他们针对海量用户，基于大数据技术，在首屏和流畅度优化上做了大量的探索与实践。快手直播是如何设计全链路质量监控方案、如何搭建大数据处理Pipeline 、如何解决开播跳帧、首屏卡顿优化等问题的？本文干货满满，全面解密快手直播大数据技术架构与优化实践。

[-7-] 浅谈实时音视频直播中直接影响用户体验的几项关键技术指标

[链接] http://www.52im.net/thread-953-1-1.html

[摘要] 这两年互联网领域的一个热门关键词就是实时音视频直播，从刚开始的游戏直播和秀场娱乐开始，实时音视频直播带来了远超传统互动的用户体验，现在实时音视频直播已逐渐深入当今主流的互联网应用形态里。我们将逐一分析和总结实时音视频直播中的这几个重要技术指标。

[-8-] 技术揭秘：支持百万级粉丝互动的Facebook实时视频直播

[链接] http://www.52im.net/thread-541-1-1.html

[摘要] 在这篇文章中，我们将粗略地看一下我们在每次发布时解决的问题，我还将向你解释我们为负载均衡和 RTMP 实现问题所选择的解决方案。

[-9 -] 移动端实时视频直播技术实践：如何做到实时秒开、流畅不卡

[链接] http://www.52im.net/thread-530-1-1.html

[摘要] 本次分享将为大家揭开移动端实时音视频直播核心技术的神秘面纱。

[-10-] 实现延迟低于500毫秒的1080P实时音视频直播的实践分享

[链接] http://www.52im.net/thread-528-1-1.html

[摘要] 实时视频直播是很多技术团队及架构师关注的问题，在实时性方面，大部分直播是准实时的——存在 1-3 秒延迟。本文由袁荣喜分享其将1080P高清实时视屏直播延迟控制在 500ms 的背后的技术挑战以及实践结论等，期待与各同行共同讨论、学习和进步。

[-11 -] 浅谈开发实时视频直播平台的技术要点

[链接] http://www.52im.net/thread-475-1-1.html

[摘要] 现在大大小小的公司，甚至个人开发者，都想开发自己的直播网站或App，本文会帮你理清，开发视频直播平台，你需要注意哪些技术要点。

[-12 -] 海量用户IM聊天室的架构设计与实践

[链接] http://www.52im.net/thread-4404-1-1.html

[摘要] 本文将分享网易云信针对海量用户IM聊天室的架构设计与应用实践，希望能带给你启发。

[-13 -] 微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

[链接] http://www.52im.net/thread-4507-1-1.html

[摘要] 功耗优化一直是 app 性能优化中让人头疼的问题，尤其是在直播这种用户观看时长特别久的场景。怎样能在不影响主体验的前提下，进一步优化微信iOS端视频号直播的功耗占用，本文给出了一个不太一样的答案。

👉52im社区本周新文：《移动端弱网优化专题(十四)：携程APP移动网络优化实践（弱网识别篇）》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-11-13 11:58 Jack Jiang 阅读(102) | 评论 (0) | 编辑收藏

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

摘要: 本文由微信后台Astra项目团队分享，原题“Ray在微信AI计算中的大规模实践”，下文进行了排版和内容优化。1、引言微信存在大量AI计算的应用场景，主要分为三种：流量分发、产品运营和内容创作。流量分发场景中的 AI 计算主要用于搜索、广告、推荐场景的核心特征生产，产品运营相关的 AI 计算主要用于产品功能相关和内容运营相关（低质、优质、生态建设），由于大模型的兴起，AIGC... 阅读全文

posted @ 2024-11-07 11:07 Jack Jiang 阅读(109) | 评论 (0) | 编辑收藏

社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节

摘要: 本文来自微信团队工程师张文瑞的技术分享，由InfoQ编辑发布，下文有修订和改动。原文地址：infoq.cn/article/1-billion-bonus-from-the-clouds，感谢原作者的分享。一、引言与传统意义上的红包相比，手机端的红包似乎更符合现在年轻一代的习惯。这其中，以春节发红包最为流行。以微信为例，除夕全天微信用户红包总发送量可以达到百亿个，红包峰值收发量为比百万个/秒。本文... 阅读全文

posted @ 2024-11-06 11:52 Jack Jiang 阅读(98) | 评论 (0) | 编辑收藏

不为人知的网络编程(十八)：UDP比TCP高效？还真不一定！

摘要: 本文由LearnLHC分享，原始出处：blog.csdn.net/LearnLHC/article/details/115268028，本文进行了排版和内容优化。1、引言熟悉网络编程的（尤其搞实时音视频聊天技术的）同学们都有个约定俗成的主观论调，一提起UDP和TCP，马上想到的是UDP没有TCP可靠，但UDP肯定比TCP高效。说到UDP比TCP高效，理由是什么呢？事实真是这样吗？跟着本文咱们一探究... 阅读全文

posted @ 2024-10-30 11:31 Jack Jiang 阅读(90) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat-iOS端v9.1版已发布

关于MobileIMSDK

MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持 UDP 、TCP 、WebSocket 三种协议，支持 iOS、Android、H5、标准Java、小程序、Uniapp，服务端基于Netty编写。

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

► 详细产品介绍：http://www.52im.net/thread-19-1-1.html
► iOS端更新记录：http://www.52im.net/thread-2735-1-1.html
► 全部运行截图：iOS端全部运行截图（另：Android端运行截图点此查看）
► 在线体验下载：App Store安装地址（另：Android端下载体验点此查看）

RainbowChat是一套基于开源IM聊天框架 MobileIMSDK 的产品级移动端IM系统。RainbowChat源于真实运营的产品，解决了大量的屏幕适配、细节优化、机器兼容问题（可自行下载体验：专业版下载安装）。

* RainbowChat可能是市面上提供im即时通讯聊天源码的，唯一一款同时支持TCP、UDP两种通信协议的IM产品（通信层基于开源IM聊天框架 MobileIMSDK 实现）。

v9.1 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] 解决了与Web产品互通时，收到撤回被引用消息的指令时会崩溃的问题；
2）[bug] 解决了“查换用户”界面中精确查找时，输入内容时会导致底部按钮等控件显示高度被错误改变的问题；
3）[bug] 解决了聊天输入框中自定义表情和数字、英文混输时，表情图标会消失的问题；
4）[优化] 更换了位置消息中的高德地图AppKey，解决每日调用量限制问题；
5）[优化] 优化了首页“消息”列表中单聊类型未正确同步时的收发消息和点击后的处理逻辑；
6）[优化] 聊天消息自动识别电话、网址、邮箱等内容，点击自动跳转到系统功能；
7）[优化] 优化了首页“消息”列表中同一好友和陌生人会话不能自动合并的问题。

部分功能运行截图（更多截图点此查看）：

posted @ 2024-10-29 12:23 Jack Jiang 阅读(78) | 评论 (0) | 编辑收藏

不为人知的网络编程(十七)：冰山之下，一次网络请求背后的技术秘密

摘要: 1、引言当你在浏览器输入 qq.com 按下回车键，到页面呈现在你面前，整个过程发生了什么？我以前思考过这个问题，从最前面的浏览器到最后的 db 都梳理的一遍，触发了一次技术顿悟，将很多散落的知识点贯通起来了。本文将抛弃千篇一律的计网知识理论，从现实的互联网技术实践角度，一步步为你分享一次网络请求背后的技术秘密。技术交流：- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端I... 阅读全文

posted @ 2024-10-24 11:34 Jack Jiang 阅读(137) | 评论 (0) | 编辑收藏

Web网页端IM产品RainbowChat-Web的v7.2版已发布

一、关于RainbowChat-Web

RainbowChat-Web是一套Web网页端IM系统，是RainbowChat的姊妹系统（RainbowChat是一套基于开源IM聊天框架 MobileIMSDK (Github地址) 的产品级移动端IM系统）。

► 详细介绍：http://www.52im.net/thread-2483-1-1.html

► 版本记录：http://www.52im.net/thread-2480-1-1.html

► 运行截图：http://www.52im.net/thread-2470-1-1.html

► 运行视频：http://www.52im.net/thread-2491-1-1.html

二、v7.2 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] [前端] - 解决了加载首页聊天记录时，存在极小概率出现消息重复的问题；
2）[bug] [前端] - 解决了Firefox浏览器中右键无法复制文本消息的问题；
3）[bug] [服务端] - 升级了MobileIMSDK-Web库，解决了服务端QoS机制C2S消息路径时去重逻辑未起效的问题；
4）[优化] [前端] - 解决了引用的名片消息不会显示默认头像的问题；
5）[优化] [前端] - 重构了相关的类名、文件名等；
6）[优化] [服务端] - 优化了离线消息处理效率（异步化、无锁队列、批量处理、事务合并）；
7）[优化] [服务端] - 优化了聊天记录处理效率（异步化、无锁队列、批量处理、事务合并）；
8）[优化] [服务端] - 优化了“接口1008-26-8”，使按时间戳加载的消息在客户端不发生重复；
9）[优化] [服务端] - 修改了离线消息、聊天记录异步定时器实现，使之运行更健壮；
10）[重构] [服务端] - 重构了通用http服务端工程、MQ工程目录名等；

三、主要功能特性截图

主要功能特性截图（更多运行截图、运行视频）：

posted @ 2024-10-21 14:20 Jack Jiang 阅读(74) | 评论 (0) | 编辑收藏

视频直播技术干货(十二)：从入门到放弃，快速学习Android端直播技术

摘要: 本文由陆业聪分享，原题“一文掌握直播技术：实时音视频采集、编码、传输与播放”，本文进行了排版和内容优化。1、引言从游戏、教育、电商到娱乐，直播技术的应用场景无处不在。随着移动端的网速越来越快，直播技术的普及和发展将更加迅速。本文详细介绍了Android端直播技术的全貌，涵盖了从实时音视频采集、编码、传输到解码与播放的各个环节。文章还探讨了直播中音视频同步、编解码器选择、传输... 阅读全文

posted @ 2024-10-17 11:10 Jack Jiang 阅读(91) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.7版已发布

关于RainbowChat

► 详细产品介绍：http://www.52im.net/thread-19-1-1.html
► 版本更新记录：http://www.52im.net/thread-1217-1-1.html
► 全部运行截图：Android端、iOS端
► 在线体验下载：专业版(TCP协议)、专业版(UDP协议) （关于 iOS 端，请：点此查看）

关于MobileIMSDK

MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持UDP 、TCP 、WebSocket 三种协议，支持iOS、Android、H5、小程序、Uniapp、标准Java平台，服务端基于Netty编写。

工程开源地址：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

v11.7 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容：

1）[优化] 优化了首页“消息”列表中单聊类型未正确同步时的收发消息和点击后的处理逻辑；
2）[优化] 优化了首页“消息”列表中同一好友和陌生人会话不能自动合并的问题；

（2）服务端主要更新内容：

1）[优化] 大幅提升群聊性能（改进离线消息存储方式等：异步提交、批量处理）；
2）[优化] 升级了mysql驱动至最新版8.4.0；
3）[优化] 优化了离线消息处理性能（异步化、无锁队列、批量处理、事务合并）；
4）[优化] 优化了聊天记录处理性能（异步化、无锁队列、批量处理、事务合并）；
5）[优化] 优化了“接口1008-26-8”，使得与Web产品联合部署明web前端按时间戳加载的消息不与客户端发生重复；
6）[优化] 修改了离线消息、聊天记录异步定时器实现，使之运行更健壮；
7）[优化] 加好友成功后将成功通知保存至离线消息和消息记录。

部分功能运行截图（更多截图点此查看）：

posted @ 2024-10-16 10:16 Jack Jiang 阅读(80) | 评论 (0) | 编辑收藏

百度公共IM系统的Andriod端IM SDK组件架构设计与技术实现

摘要: 本文由百度技术团队分享，引用自百度Geek说，原题“百度Android IM SDK组件能力建设及应用”，本文进行了排版和内容优化。1、引言移动互联网时代，随着社交媒体、移动支付、线上购物等行业的快速发展，对即时通讯功能的需求不断增加。对于各APP而言，接入IM SDK（即时通讯软件开发工具包）能够大大降低开发成本、提高开发效率，快速构建自己的IM系统。本文主要介绍了百度公... 阅读全文

posted @ 2024-10-10 12:35 Jack Jiang 阅读(90) | 评论 (0) | 编辑收藏

社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进

摘要: 本文来自微信团队工程师张文瑞的技术分享，由“极客邦科技Geekbang”编辑发布，下文有修订和改动。一、开场白谢谢大家！我是来自腾讯WXG技术架构部的张文瑞，今天下午跟大家分享的主题是：微信团队是如何从0到1实现“有把握”的微信春晚摇一摇红包系统的。回忆一下春晚的活动，有什么样的活动形式呢？当时我们是直接复用客户端摇一摇入口，专门给春晚摇一摇定制了一... 阅读全文

posted @ 2024-10-10 10:18 Jack Jiang 阅读(149) | 评论 (0) | 编辑收藏

闲话即时通讯：腾讯的成长史本质就是一部QQ成长史

摘要: 1、前言在猴年新春的时候，腾讯当时推出了新春广告片（点击观看视频），作为《弹指间心无间》的延续。片中通过春节期间发送QQ红包让家人打车回家团聚，让我们感受到了“最温暖的红包，给最爱的人”那种弹指间的感动。而就在这弹指一挥间，此次腾讯新春广告片距离2011年腾讯发布《弹指间心无间》“亲情篇”已经好几年过去了。在这几年的时间里，腾讯QQ从音频、视频、... 阅读全文

posted @ 2024-09-29 12:18 Jack Jiang 阅读(108) | 评论 (0) | 编辑收藏

网络编程入门如此简单(四)：一文搞懂localhost和127.0.0.1

本文由萤火架构分享，原题“localhost和127.0.0.1的区别是什么？”，原文链接“juejin.cn/post/7321049446443417638”，下文进行了排版和内容优化。

1、引言

继《你真的了解127.0.0.1和0.0.0.0的区别？》、《深入操作系统，彻底搞懂127.0.0.1本机网络通信》之后，这是整理收录的第3篇有关本机网络的网络编程基础文章。以下是正文内容。

今天在网上逛的时候看到一个问题，没想到大家讨论的很热烈，就是标题中这个：

前端同学本地调试的时候，应该没少和localhost打交道吧，只需要执行 npm run 就能在浏览器中打开你的页面窗口，地址栏显示的就是这个 http://localhost:xxx/index.html。

可能大家只是用，也没有去想过这个问题。联想到我之前合作过的一些开发同学对它们俩的区别也没什么概念，所以我觉得有必要普及下。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4702-1-1.html）

2、系列文章

本文是该系列文章中的第 4 篇：

《网络编程入门如此简单(一)：假如你来设计网络，会怎么做？》

《网络编程入门如此简单(二)：假如你来设计TCP协议，会怎么做？》

《网络编程入门如此简单(三)：什么是IPv6？漫画式图文，一篇即懂！》

《网络编程入门如此简单(四)：一文搞懂localhost和127.0.0.1》（* 本文）

3、localhost是什么呢？

localhost是一个域名，和大家上网使用的域名没有什么本质区别，就是方便记忆。

只是这个localhost的有效范围只有本机，看名字也能知道：local就是本地的意思。

张三和李四都可以在各自的机器上使用localhost，但获取到的也是各自的页面内容，不会相互打架。

4、从域名到程序

要想真正的认清楚localhost，我们还得从用户是如何通过域名访问到程序说起。

以访问百度为例。

1）当我们在浏览器输入 baidu.com 之后，浏览器首先去DNS中查询 baidu.com 的IP地址。

为什么需要IP地址呢？打个比方，有个人要寄快递到你的公司，快递单上会填写：公司的通讯地址、公司名称、收件人等信息，实际运输时快递会根据通信地址进行层层转发，最终送到收件人的手中。网络通讯也是类似的，其中域名就像公司名称，IP地址就像通信地址，在网络的世界中只有通过IP地址才能找到对应的程序。（请详读《什么是公网IP和内网IP？NAT转换又是什么鬼？》）

DNS就像一个公司黄页，其中记录着每个域名对应的IP地址，当然也有一些域名可能没做登记，就找不到对应的IP地址，还有一些域名可能会对应多个IP地址，DNS会按照规则自动返回一个。我们购买了域名之后，一般域名服务商会提供一个域名解析的功能，就是把域名和对应的IP地址登记到DNS中。（请详读《理论联系实际，全方位深入理解DNS》）

这里的IP地址从哪里获取呢？每台上网的电脑都会有1个IP地址，但是个人电脑的IP地址一般是不行的，个人电脑的IP地址只适合内网定位，就像你公司内部的第几栋第几层，公司内部人明白，但是直接发给别人，别人是找不到你的。

如果你要对外部提供服务，比如百度这种，你就得有公网的IP地址，这个IP地址一般由网络服务运营商提供，比如你们公司使用联通上网，那就可以让联通给你分配一个公网IP地址，绑定到你们公司的网关服务器上，网关服务器就像电话总机，公司内部的所有网络通信都要通过它，然后再在网关上设置转发规则，将网络请求转发到提供网络服务的机器上。

2）有了IP地址之后，浏览器就会向这个IP地址发起请求，通过操作系统打包成IP请求包，然后发送到网络上。

网络传输有一套完整的路由协议，它会根据你提供的IP地址，经过路由器的层层转发，最终抵达绑定该IP的计算机。

3）计算机上可能部署了多个网络应用程序，这个请求应该发给哪个程序呢？

这里有一个端口的概念，每个网络应用程序启动的时候可以绑定一个或多个端口，不同的网络应用程序绑定的端口不能重复，再次绑定时会提示端口被占用。

通过在请求中指定端口，就可以将消息发送到正确的网络处理程序。但是我们访问百度的时候没有输入端口啊？这是因为默认不输入就使用80和443端口，http使用80，https使用443。我们在启动网络程序的时候一定要绑定一个端口的，当然有些框架会自动选择一个计算机上未使用的端口。

5、localhost和127.0.0.1的区别是什么？

有了前面的知识储备，我们就可以很轻松的搞懂这个问题了。

localhost是域名，上文已经说过了。

127.0.0.1 呢？是IP地址，当前机器的本地IP地址，且只能在本机使用，你的计算机不联网也可以用这个IP地址，就是为了方便开发测试网络程序的。

我们调试时启动的程序就是绑定到这个IP地址的。

这里简单说下，我们经常看到的IP地址一般都是类似 X.X.X.X 的格式，用"."分成四段。其实它是一个32位的二进制数，分成四段后，每一段是8位，然后每一段再转换为10进制的数进行显示。

那localhost是怎么解析到127.0.0.1的呢？经过DNS了吗？没有。每台计算机都可以使用localhost和127.0.0.1，这没办法让DNS来做解析。

那就让每台计算机自己解决了。每台计算机上都有一个host文件，其中写死了一些DNS解析规则，就包括 localhost 到 127.0.0.1 的解析规则，这是一个约定俗成的规则。

如果你不想用localhost，那也可以，随便起个名字，比如 wodehost，也解析到 127.0.0.1 就行了。

甚至你想使用 baidu.com 也完全可以，只是只能自己自嗨，对别人完全没有影响。

PS：以下两篇可以深入进行阅读：

6、域名的等级划分

localhost不太像我们平常使用的域名，比如 www.juejin.cn 、baidu.com、csdn.net, 这里边的 www、cn、com、net都是什么意思？localhost为什么不需要？

域名其实是分等级的，按照等级可以划分为顶级域名、二级域名和三级域名...

1）顶级域名（TLD）：

顶级域名是域名系统中最高级别的域名。它位于域名的最右边，通常由几个字母组成。顶级域名分为两种类型：通用顶级域名和国家顶级域名。常见的通用顶级域名包括表示工商企业的.com、表示网络提供商的.net、表示非盈利组织的.org等，而国家顶级域名则代表特定的国家或地区，如.cn代表中国、.uk代表英国等。

2）二级域名（SLD）：

二级域名是在顶级域名之下的一级域名。它是由注册人自行选择和注册的，可以是个性化的、易于记忆的名称。例如，juejin.cn 就是二级域名。我们平常能够申请到的也是这种。目前来说申请 xxx.com、xxx.net、xxx.cn等等域名，其实大家不太关心其顶级域名com\net\cn代表的含义，看着简短好记是主要诉求。

3）三级域名（3LD）：

三级域名是在二级域名之下的一级域名。它通常用于指向特定的服务器或子网。例如，在blog.example.com中，blog就是三级域名。www是最常见的三级域名，用于代表网站的主页或主站点，不过这只是某种流行习惯，目前很多网站都推荐直接使用二级域名访问了。

域名级别还可以进一步细分，大家可以看看企业微信开放平台这个域名：developer.work.weixin.qq.com，com代表商业，qq代表腾讯，weixin代表微信，work代表企业微信，developer代表开发者。这种逐层递进的方式有利于域名的分配管理。

按照上边的等级定义，我们可以说localhost是一个顶级域名，只不过它是保留的顶级域，其唯一目的是用于访问当前计算机。

7、多网站共用一个IP和端口

上边我们说不同的网络程序不能使用相同的端口，其实是有办法突破的。

以前个人博客比较火的时候，大家都喜欢买个虚拟主机，然后部署个开源的博客程序，抒发一下自己的感情。为了挣钱，虚拟主机的服务商会在一台计算机上分配N多个虚拟主机，大家使用各自的域名和默认的80端口进行访问，也都相安无事。这是怎么做到的呢？

如果你有使用Nginx、Apache或者IIS等Web服务器的相关经验，你可能会接触到主机头这个概念。主机头其实就是一个域名，通过设置主机头，我们的程序就可以共用1个网络端口。

首先在Nginx等Web程序中部署网站时，我们会进行一些配置，此时在主机头中写入网站要使用的域名。

然后Nginx等Web服务器启动的时候，会把80端口占为己有。

然后当某个网站的请求到达Nginx的80端口时，它会根据请求中携带的域名找到配置了对应主机头的网络程序。

然后再转发到这个网络程序，如果网络程序还没有启动，Nginx会把它拉起来。

8、私有IP地址

除了127.0.0.1，其实还有很多私有IP地址，比如常见的 192.168.x.x。

这些私有IP地址大部分都是为了在局域网内使用而预留的，因为给每台计算机都分配一个独立的IP不太够用，所以只要局域网内不冲突，大家就可劲的用吧。你公司可以用 192.168.1.1，我公司也可以用192.168.1.1。

但是如果你要访问我，就得通过公网IP进行转发。

大家常用的IPv4私有IP地址段分为三类：

1）A类：从10.0.0.0至10.255.255.255；
2）B类：从172.16.0.0至172.31.255.255；
3）C类：从192.168.0.0至192.168.255.255。

这些私有IP地址仅供局域网内部使用，不能在公网上使用。

除了上述三个私有的IPv4地址段外，还有一些保留的IPv4地址段：

1）用于本地回环测试的127.0.0.0至127.255.255.255地址段，其中就包括题目中的127.0.0.1，如果你喜欢也可以给自己分配一个127.0.0.2的IP地址，效果和127.0.0.1一样。

2）用于局域网内部的169.254.0.0至169.254.255.255地址段，这个很少接触到，如果你的电脑连局域网都上不去，可能会看到这个IP地址，它是临时分配的一个局域网地址。

这些地址段也都不能在公网上使用。

近年来，还有一个现象，就是你家里或者公司里上网时，光猫或者路由器对外的IPv4地址也不是公网IP了，这时候获得的可能是一个类似 100.64.x.x 的地址，这是因为随着宽带的普及，运营商手里的公网IP也不够了，所以运营商又加了一层局域网，而100.64.0.0 这个网段是专门分给运营商做局域网用的。

如果你使用阿里云等公有云，一些云产品的IP地址也可能是这个，这是为了将客户的私有网段和公有云厂商的私有网段进行有效的区分。

其实还有一些不常见的专用IPv4地址段，完整的IP地址段定义可以看这里：www.iana.org/assignments…

9、IPv6

你可能也听说过IPv6，因为IPv4可分配的地址太少了，不够用，使用IPv6甚至可以为地球上的每一粒沙子分配一个IP。只是喊了很多年，大家还是喜欢用IPv4，这里边原因很多，这里就不多谈了。

IPv6地址类似于：XXXX:XXXX:XXXX:XXXX:XXXX:XXXX:XXXX:XXXX。

它是128位的，用":"分成8段，每个X是一个16进制数（取值范围：0-F），IPv6地址空间相对于IPv4地址有了极大的扩充。比如：2001:0db8:3c4d:0015:0000:0000:1a2f:1a2b 就是一个有效的IPv6地址。（请详读《什么是IPv6？漫画式图文，一篇即懂！》）

10、参考资料

[1] 你真的了解127.0.0.1和0.0.0.0的区别？

[2] 深入操作系统，彻底搞懂127.0.0.1本机网络通信

[3] 什么是IPv6？漫画式图文，一篇即懂！

[4] 一文读懂什么是IPv6

[5] IPv6技术详解：基本概念、应用现状、技术实践（上篇）

[6] 什么是公网IP和内网IP？NAT转换又是什么鬼？

[7] 深入操作系统，一文搞懂Socket到底是什么

[8] 面视必备，史上最通俗计算机网络分层详解

[9] 通俗讲解，有了IP地址，为何还要用MAC地址？

[10] 理论联系实际，全方位深入理解DNS

（本文已同步发布于：http://www.52im.net/thread-4702-1-1.html）

posted @ 2024-09-26 10:23 Jack Jiang 阅读(103) | 评论 (0) | 编辑收藏

微信技术总监谈架构：微信之道——大道至简(演讲全文)

摘要: 1、前言微信——腾讯战略级产品，创造移动互联网增速记录，10个月5000万手机用户，433天之内完成用户数从零到一亿的增长过程，千万级用户同时在线，摇一摇每天次数过亿...在技术架构上，微信是如何做到的？日前，在腾讯大讲堂在中山大学校园宣讲活动上，腾讯广研助理总经理、微信技术总监周颢在两小时的演讲中揭开了微信背后的秘密。周颢把微信的成功归结于腾讯式的“三位一体&... 阅读全文

posted @ 2024-09-25 11:17 Jack Jiang 阅读(304) | 评论 (0) | 编辑收藏

即时通讯框架MobileIMSDK的H5端开发快速入门

► 相关链接：

① MobileIMSDK-H5端的详细介绍
② MobileIMSDK-H5端的开发手册new（* 精编PDF版）

一、技术准备

您是否已对Web端即时通讯技术有所了解？

您需要对WebSocket技术有所了解：

WebSocket标准文档、API手册：

1）WebSocket的API手册
2）WebSocket的标准文档

二、开发工具准备

1）WebStorm：

（JackJiang 使用的版本号如上图所示，建议你也使用此版或较新版本）

2）一站式下载地址：WebStorm官方下载地址点此进入。

三、工程文件用途说明

3.1文件概览

纯原生JS实现，无任何重框架依赖：

MobileIMSDK-H5端SDK本身只是JS文件源码的集合，本工程中自带的前端Demo的目的只是为了方便随时测试MobileIMSDK-H5端的SDK代码而已，在此工程中的使用也仅仅只涉及了一个主Demo页面而已。

工程目录说明：

3.2详细说明

SDK 各模块/文件作用说明：

四、主要 API 接口

4.1主要 API 接口概览

如下图所示：所有 SDK 接口均由/mobileimsdk/mobileimsdk-client-sdk.js 提供。，接口设计跟MobileIMSDK 的APP版一样，均为高内聚和低侵入的回调方式传入SDK处理逻辑，无需（也不建议）开发者直接修改sdk级代码。

▲ 图上为浏览器端SDK的对外接口文件位置

▲ 图上为浏览器SDK为开发者提供的回调接口

▲ 图上浏览器端SDK的对外接口文件全图

4.2主要 API 接口用途说明

1）IMSDK.isLogined()：

用途：是否已经完成过首次登陆。
说明：用户一旦从自已的应用中完成登陆IM服务器后，本方法就会一直返回true（直到退出登陆IM）。
返回值：{boolean}，true表示已完成首次成功登陆（即已经成功登陆过IM服务端了，后面掉线时不影响此标识），否则表示尚未连接IM服务器。

2）IMSDK.isOnline()：

用途：是否在线。
说明：表示网络连接是否正常。
返回值：{boolean}，true表示网络连接正常，否则表示已掉线，本字段只在this._logined=true时有意义（如果都没有登陆到IM服务器，怎么存在在线或掉线的概念呢）。

3）IMSDK.getLoginInfo()：

用途：返回登陆时提交的登陆信息（用户名、密码/token等）。
说明：格式形如：{loginUserId:'',loginToken:''}，此返回值的内容由调用登陆函数 loginImpl()时传入的内容决定。字段定义详见：PLoginInfo
返回值：{boolean}，true表示网络连接正常，否则表示已掉线，本字段只在this._logined=true时有意义（如果都没有登陆到IM服务器，怎么存在在线或掉线的概念呢）。

4）IMSDK.sendData(p, fnSucess, fnFail, fnComplete)：

用途：向某人发送一条消息。
参数p：{Protocal} 要发送的消息协议包对象，Protocal详情请见“/module/mb_constants.js”下的createCommonData函数说明。
返回值：{int} 0表示成功，否则表示错误码，错码详见“/module/mb_constants.js”下的MBErrorCode对象属性说明。

5）IMSDK.disconnectSocket()：

用途：客户端主动断开客户端socket连接。
说明：当开发者登陆IM后，需要退出登陆时，调用本函数就对了，本函数相当于登陆函数 loginImpl()的逆操作。

6）IMSDK.setDebugCoreEnable(enable)：

用途：是否开启MobileIMSDK-H5端核心算法层的log输入，方便开发者调试。
参数enable ：{boolean} true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。

7）IMSDK.setDebugSDKEnable(enable)：

用途：是否开启MobileIMSDK-H5端框架层的log输入，方便开发者调试。
参数enable ：{boolean} true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。

8）IMSDK.setDebugPingPongEnable(enable)：

用途：是否开启MobileIMSDK-H5端框架层的底层网络WebSocket心跳包的log输出，方便开发者调试。
参数enable ：{boolean} true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。
注意：必须 setDebugEnable(true) 且 setDebugPingPongEnable(true) 时，心跳log才会真正输出，方便控制。
返回值：true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。

9）IMSDK.loginImpl(varloginInfo, wsUrl)：

用途：登陆/连接MobileIMSDK服务器时调用的方法。
说明：登陆/连接MobileIMSDK服务器由本函数发起
参数varloginInfo：{PLoginInfo} 必填项，登陆要提交给Websocket服务器的认证信息，不可为空，对象字段定义见：PLoginInfo
参数wsUrl：{string} 必填项：要连接的Websocket服务器地址，不可为空，形如：wss://yousite.net:3000/websocket。

10）IMSDK.callback_onIMLog(message, toConsole)：

用途：由开发者设置的回调方法：用于debug的log输出。
推荐用法：开发者可在此回调中按照自已的意图打印MobileIMSDK微信小程序端框架中的log，方便调试时使用。
参数1： {String}：必填项，字符串类型，表示log内容。
参数2： {boolean}：选填项，true表示输出到console，否则默认方式(由开发者设置的回调决定)。

11）IMSDK.callback_onIMData(p, options)：

用途：由开发者设置的回调方法：用于收到聊天消息时在UI上展现出来（事件通知于收到IM消息时）。
推荐用法：开发者可在此回调中处理收到的各种IM消息。
参数1： {Protocal}：详情请见“/module/mb_constants.js”下的Protocal类定义)。

12）IMSDK.callback_onIMAfterLoginSucess()：

用途：由开发者设置的回调方法：客户端的登陆请求被服务端成功认证完成后的回调（事件通知于登陆/认证成功后）。
推荐用法：开发者可在此回调中进行登陆IM服务器成功后的处理。

13）IMSDK.callback_onIMAfterLoginFailed(isReconnect)：

用途：由开发者设置的回调方法：客户端的登陆请求被服务端认证失败后的回调（事件通知于登陆/认证失败后）。
说明：登陆/认证失败的原因可能是用户名、密码等不正确等，但具体逻辑由服务端的 callBack_checkAuthToken回调函数去处理。
推荐用法：开发者可在此回调中提示用户登陆IM服务器失败。。
参数1： {boolean}：true表示是掉线重连后的认证失败（在登陆其间可能用户的密码信息等发生了变更），否则表示首次登陆时的认证失败。

14）IMSDK.callback_onIMReconnectSucess()：

用途：由开发者设置的回调方法：掉线重连成功后的回调（事件通知于掉线重连成功后）。
推荐用法：开发者可在此回调中处理掉线重连成功后的界面状态更新等，比如设置将界面上的“离线”文字更新成“在线”。

15）IMSDK.callback_onIMDisconnected()：

用途：由开发者设置的回调方法：网络连接已断开时的回调（事件通知于与服务器的网络断开后）。
推荐用法：开发者可在此回调中处理掉线时的界面状态更新等，比如设置将界面上的“在线”文字更新成“离线”。

16）IMSDK.callback_onIMPing()：

用途：由开发者设置的回调方法：本地发出心跳包后的回调通知（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

17）IMSDK.callback_onIMPong()：

用途：由开发者设置的回调方法：收到服务端的心跳包反馈的回调通知（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

18）IMSDK.callback_onIMShowAlert(alertContent)：

用途：由开发者设置的回调方法：框架层的一些提示信息显示回调（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
说明：开发者不设置的情况下，框架默认将调用wx.showModal()显示提示信息，否则将使用开发者设置的回调——目的主要是给开发者自定义这种信息的UI显示，提升UI体验，别无它用】。
参数1：{String}：必填项，文本类型，表示提示内容。

19）IMSDK.callback_onIMKickout(kickoutInfo)：

用途：由开发者设置的回调方法：收到服务端的“踢出”指令（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
参数1 ：{PKickoutInfo}：非空，详见：PKickoutInfo

20）IMSDK.callback_onMessagesLost(lostMessages)：

用途：由开发者设置的回调方法：消息未送达的回调事件通知。
发生场景：比如用户刚发完消息但网络已经断掉了的情况下，表现形式如：就像手机qq或微信一样消息气泡边上会出现红色图标以示没有发送成功）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送失败”以便即时告之用户。
参数1：{Array}：由框架的QoS算法判定出来的未送达消息列表。

21）IMSDK.callback_onMessagesBeReceived(theFingerPrint)：

用途：由开发者设置的回调方法：消息已被对方收到的回调事件通知。
说明：目前，判定消息被对方收到是有两种可能：1) 对方确实是在线并且实时收到了；2) 对方不在线或者服务端转发过程中出错了，由服务端进行离线存储成功后的反馈（此种情况严格来讲不能算是“已被收到”，但对于应用层来说，离线存储了的消息原则上就是已送达了的消息：因为用户下次登陆时肯定能通过HTTP协议取到）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送成功”以便即时告之用户。
参数1：{String}：已被收到的消息的指纹特征码（唯一ID），应用层可据此ID找到原先已发的消息并可在UI是将其标记为”已送达“或”已读“以便提升用户体验。

五、前端开发指南

5.1如何引入SDK文件到您的前端工程中？

很简单：只需要将第2节中提到的SDK所有JS文件复制到您的Uniapp工程下即可。

SDK内容见下图：

5.2如何在代码中调用SDK？

第一步：在你的网页中引用SDK的js文件（具体例子详见Demo中的index.html文件）

第二步：直接在你的JS文件中编写回调配置代码（具体例子详见Demo中的index.js文件）

第三步：在你的JS文件中调用IM的登陆方法即可（具体例子详见Demo中的index.js文件）

注意：上图中登录连接的IP地址请设置为您的MobileIMSDK服务器地址哦。

六、Demo运行方法（在WebStorm中直接预览）

6.1重要说明

特别说明：MobileIMSDK的H5端（包括Demo在内），全部是静态的HTML+JS资源，可以通过WebStorm自带的HTML页面预览功能，直接自动加载到电脑的浏览器中运行和预览。

6.2预览方法

1）在Demo中的index.html文件中，移动鼠标，会在右上角出现如下图所示的浮出菜单：

2）点击右上角浮出菜单上相应的浏览器就可以自动预览了（这里以我电脑上已安装的Edge浏览器为例）：

七、Demo运行方法（在Web服务器中部署并访问）

7.1重要说明

特别说明：MobileIMSDK的H5端（包括Demo在内），全部是静态的HTML+JS资源，对于服务端是没有任何依赖的，只需要保证浏览器端能加载到即可，可以把它们放置在Tomcat、Apache、IIS、Nginx等等传统Web服务器中即可，无需任何动态运行环境。

7.2安装Tomcat

提示：以下Demo的部署，以Java程序员最常用和Tomcat为例（Apache、IIS、Nginx等依此类推）。

Tomcat的安装就没什么好说的，直接官网下载对应的版本即可：https://tomcat.apache.org/download-90.cgi。

7.3配置要连接的MobileIMSDK服务器IP

注意：下图中登陆连接的IP地址请设置为您的MobileIMSDK服务器地址哦。

友情提示： MobileIMSDK的服务端该怎么部署就不是本手册要讨论的内容了，你可以参见《即时通讯框架MobileIMSDK的Demo使用帮助：Server端》。

▲ 配置要连接的服务器IP（以上代码详见demo/index.js 文件）

7.4部署Demo

说“部署”有点扯蛋，因为Demo（包括SDK）在内，全是HTML静态内容，只需要直接复制到任何一种Web服务器即可。

以下是复制到Tomcat服务器网页目录后的截图：

7.5启动Tomcat

提示：本手册中仅以启Tomcat为例，Apache、IIS、Nginx等Web服务器的启动请自动百度。

运行startup.bat启动Tomcat：

7.6Demo的运行效果预览

八、Demo功能预览和说明

九、Demo运行效果实拍图

1）Demo在手机端浏览器中的真机实拍图：

2）Demo在电脑端浏览器中的真机实拍图：

十、更多Demo运行效果截图

1）Demo在PC端浏览器运行效果：

2）Demo在手机端浏览器运行效果：

3）Demo在PC端各主流浏览器的运行效果：

十一、常见问题（FAQ）

11.1为什么浏览控制台下有些log不显示？

原因是浏览器控制台下的日志级别默认进行了过滤，勾选所有日志级别，就能看到SDK的详细日志输出了。

勾选所有的日志输出级别：

然后就能看到SDK中详细的日志输出了（就像下图这样），方便调试和研究：

十二、引用资料

[1] WebSocket 标准API手册

[2] MobileIMSDK开源框架的API文档

[3] MobileIMSDK开源IM框架源码（Github地址点此）

[4] MobileIMSDK-H5端基本介绍

[5] MobileIMSDK-H5端的开发手册（* 精编PDF版）

[6] MobileIMSDK的Demo使用帮助：Server端

[7] WebSocket从入门到精通，半小时就够！

posted @ 2024-09-19 13:14 Jack Jiang 阅读(87) | 评论 (0) | 编辑收藏

开源即时通讯IM框架MobileIMSDK的H5端技术概览

一、基本介绍

MobileIMSDK的H5端是一套纯JS编写的基于标准WebSocket的即时通讯库：

1）超轻量级、极少依赖；
2）纯JS编写、高度提炼，简单易用；
3）基于标准WebSocket协议，客户端兼容性好；
4）支持运行于iOS、Android等移动端浏览器和各种PC端浏览器；
5）能与 MobileIMSDK（Github托管链接）的各种APP原生代码客户端完美互通；
6）可应用于手机端/PC端的网页聊天应用、企业OA、Web端等即时通讯场景。

二、与MobileIMSDK的关系

MobileIMSDK-H5端是基于标准HTML5的WebSocket协议的 MobileIMSDK配套客户端库。

以下是MobileIMSDK的通信架构图：

MobileIMSDK是一套专为移动端开发的原创开源IM通信层框架：

1）历经8年、久经考验；
2）超轻量级、高度提炼，lib包50KB以内；
3）精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
4）客户端支持iOS、Android、标准Java、H5(暂未开源)、微信小程序(暂未开源)、Uniapp(暂未开源)；
5）服务端基于Netty，性能卓越、易于扩展；
6）可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
7）可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

PS： MobileIMSDK一直在持续开发和升级中，新Uniapp端是MobileIMSDK工程的最新成果。

三、与MobileIMSDK-Web的关系

MobileIMSDK-Web也是一套纯JS编写的Web端即时通讯框架(含服务端)。

MobileIMSDK-Web框架与MobileIMSDK-H5端的相同点：

1）都是Web端即时通讯框架；
2）都是纯JS编写；
3）都可以运行在手机、pc端的浏览器或web容器内。

MobileIMSDK-Web框架与MobileIMSDK-H5端的不同点：

1）MobileIMSDK-Web可以兼容不支持HTML5的旧版浏览器或容器，而MobileIMSDK-H5端必须运行在当前主流的HTML5浏览器或容器；
2）MobileIMSDK-Web需依赖于socket.io这种第3方通信层库，而MobileIMSDK-H5端无任何额外依赖。

我该如何选型？

选择一：如果您的应用必须兼容旧版浏览器（包括旧版IE等）：
那唯一的选择就是MobileIMSDK-Web，因为它存在的主要价值就是为了兼容旧版浏览器；
选择二：如果您的应用只需运行在现今主流的HTML5浏览器或容器：
那么建议您优先使用MobileIMSDK的H5端，必竟直接调用标准HTML5的WebSocket API，要简洁、轻量多了，也没有第3方依赖。

四、设计目标

直接使用原生的WebSocket有以下问题和劣势：

1）功能有限：没有提供心跳保活、断线重连、送达保证（重传和去重）等即时通讯关键算法和逻辑；
2）API 简陋：在如此有限的标准API下，能逻辑清晰和健壮地实现并组合心跳保活、断线重连、送达保证等算法，需要相当高的技术掌控力；
3）逻辑耦合：经验欠缺的开发人员，会将WebSocket通信代码与前端UI界面代码混在一起，使得UI界面的编写、维护、改版都非常困难。

针对以上问题，而MobileIMSDK-H5端库将让开发者专注于UI应用层的开发，网络通信层的专业代码交由SDK开发人员，从而解偶UI前端和通信层的逻辑耦合性，大大降低技术复杂性。

总结一下，MobileIMSDK-H5端库的设计目标是为您的Web端IM带来以下便利：

1）前端与通信解偶：前端UI与网络通信代码解耦，UI界面的重构、维护、改版都非常容易和优雅；
2）轻量级和兼容性：受益于标准WebSocket，可很好地运行于现今主流的H5浏览器上，且无需额外依赖；
3）核心内聚和收敛：得益于长期的提炼和经验积累，SDK核心层高度封装，开发者无需理解复杂算法即可简单上手。
4）纯JS轻量级实现：纯JS编写，无Angular、EmberJS、VUE等各种重量级前端框架依赖，方便对接各种既有系统；

五、技术亮点

1）轻量易使用：超轻量级——纯JS编写且极少依赖，高度提炼——简单易用；
2）兼容性很好：基于标准WebSocket，可很好地运行于现今主流的H5浏览器上，且无需额外依赖；
3）断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；
4）送达保证机制：完善的QoS消息送达保证机制（自动重传、消息去重、状态反馈等），不漏过每一条消息；
5）支持多种设备：支持运行于iOS、Android等移动端浏览器和各种PC端浏览器；
6）通信协议封装：实现了一个对上层透明的即时通讯通信协议模型；
7）身份认证机制：实现了简单合理的身份认证机制；
8）完善的log信息：在开发调试阶段，确保每一个算法关键步骤都有日志输出，让您的运行调试更为便利；
9）前端代码解耦：实现了UI前端代码与sdk网络通信代码解偶，防止前端代码跟IM核心代码混在一起，不利于持续升级、重用和维护；
10）多端协议兼容：实现了与MobileIMSDK各APP端完全兼容的协议模型；

六、文件组成

SDK代码文件概览：

SDK代码文件用途说明：

七、Demo功能预览和说明

八、Demo运行效果实拍图

1）Demo在手机端浏览器中的真机实拍图：

2）Demo在电脑端浏览器中的真机实拍图：

八、更多Demo运行效果截图

1）Demo在PC端浏览器运行效果：

2）Demo在手机端浏览器运行效果（点击可看大图 ▼）：

3）Demo在PC端主流浏览器的运行效果（点击可看大图 ▼）：

十、详尽开发者手册

① MobileIMSDK-H5端的详细介绍：点此查看 👈
② MobileIMSDK-H5端的开发手册（网页版）：点此查看 👈
③ MobileIMSDK-H5端的开发手册（精编PDF版）：点此查看 👈 （* 推荐）
④ MobileIMSDK-开源框架的详细介绍：https://gitee.com/jackjiang/MobileIMSDK （Github托管链接）👈

posted @ 2024-09-18 10:36 Jack Jiang 阅读(94) | 评论 (0) | 编辑收藏

移动端常见白屏问题优化之网络优化篇

摘要: 本文由得物技术厉飞雨、GavinX分享，原题“得物App白屏优化系列｜网络篇”，下文进行了排版和内容优化。1、引言图片加载作为重中之重的App体验指标，端侧的白屏问题则是其中最为严重、也是最为常见的问题之一。想象一下如果你在浏览交易商品、社区帖子等核心场景下，图片无法完成加载是多么糟糕的体验。如上图所示，通过线上白屏问题归因，我们看到网络问题导致比例最高，占比达81.97%... 阅读全文

posted @ 2024-09-12 11:02 Jack Jiang 阅读(100) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十五)：理解定位技术，一篇就够

摘要: 【来源申明】本文引用了微信公众号“鲜枣课堂”的《老司机揭秘手机定位技术，这下彻底明白啦！》文章内容。为了更好的内容呈现，下文在引用和收录时内容有改动，转载时请注明原文来源信息，尊重原作者的劳动。1、系列文章引言1.1适合谁来阅读？本系列文章尽量使用最浅显易懂的文字、图片来组织内容，力求通信技术零基础的人群也能看懂。但个人建议，至少稍微了解过网络通信方面的知识后再看，会更有收... 阅读全文

posted @ 2024-09-11 12:07 Jack Jiang 阅读(101) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十四)：高铁上无线上网有多难？一文即懂！

摘要: 【来源申明】本文引用了微信公众号“鲜枣课堂”的《坐高铁手机没信号？原因远比你想的要复杂！》文章内容。为了更好的内容呈现，本文在引用和收录时内容有改动，转载时请注明原文来源信息，尊重原作者的劳动。1、系列文章引言1.1适合谁来阅读？本系列文章尽量使用最浅显易懂的文字、图片来组织内容，力求通信技术零基础的人群也能看懂。但个人建议，至少稍微了解过网络通信方面的知识后再看，会更有收... 阅读全文

posted @ 2024-09-06 12:02 Jack Jiang 阅读(99) | 评论 (0) | 编辑收藏

携程技术分享：亿级流量的办公IM及开放平台技术实践

本文由携程技术Jim分享，原题“日访问过亿，办公IM及开放式平台在携程的实践”，下文进行了排版和内容优化。

1、引言

携程内部的办公IM项目最早在2016年立项，经历了初期简单办公场景下的纯IM服务，到支持简单办公组件的IM应用，又演变为一体化办公集成平台，进而演变为目前集成IM功能的开放式企业效率平台。

本文总结了携程办公IM这些年的发展历程及未来的演进方向，并着重从高可用、高性能和可扩展的角度，探讨开放式平台的技术实现及发展方向。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4690-1-1.html）

2、关于作者

Jim：携程高级研发经理，关注Java & Go技术栈后端研发。目前致力于TripPal开放平台的高可用、开放化进程及核心衍生服务。

3、什么是IM

IM（Instant Message）即时消息，是一种通过网络提供实时消息传输的在线沟通技术。

在移动互联网时代，IM的使用变得越来越广泛，通过各种技术手段使得用户之间的交流成本变的极低，沟通效率和用户体验有极大的提升。而且IM的出现极大地改变了目前互联网应用的形态，多数互联网应用只要做到了一定规模，一定会有自身IM的需求，而不是单纯地仅仅依托第三方（例如微信、云信等）。

PS：关于什么是IM，您也可详读专题文章《零基础IM开发入门(一)：什么是IM系统？》。

4、携程办公IM的发展历程

早期携程使用微软的IM软件lync和自研的纯IM软件CtripTeam来支持企业内的沟通需求，这些软件在维护性、拓展性和可用性上都或多或少存在一些缺陷。同时随着互联网的发展，也逐渐不适合日益增长的办公需求和用户体验。

2017年左右，使用基于ejabberd+erlang的自研IM服务的Cchat项目应运而生，该项目的主要目标是在采用自研IM的基础上，实现IM与办公的结合。在完善IM服务的基础上，支持了一些常规的办公场景，如电话、假单、考勤、OA等，通常采用嵌入外部页面、跳转外部地址等方式提供服务。这个改造项目奠定了携程办公IM继续发展的基础。

随着项目的深入，最初的系统交互模式及服务管理模式逐渐不适用越来越复杂的办公场景及服务治理需求。于是在2019年上马了TripPal的改造项目，在结合公司国际化战略的基础上，倾力打造小程序平台，服务号等基础服务。在梳理、优化原有服务的同时，打造了诸多衍生服务。

2020年中开始，在继续推进企业内办公一站式平台的基础上，我们需要支持更多的外部场景，实际需求促使我们向开放式平台转型，这在服务整体架构、安全性、扩展性等方面都提出了新的要求及挑战。

5、携程TripPal开放平台总体架构

5.1Gateway网关层

这一层是所有请求调用流量的入口，主要功能如下：

1）服务路由；
2）集中式限流、风控、日志监控等功能；
3）调用IDS (Identity Service) 验证请求的合法性。

第 3）步中验证通过后，可以将用户ID、Token等基本信息，通过 HttpHeader 的方式向后端服务透传，后端服务可以直接使用UserID，也可以再次对Token进行认证

5.2IDS (Identity Service) 服务

IDS同时支持多种不同类型的访问令牌的鉴权，同时还负责令牌的颁发，以及RBAC+模块级别的接口控权。

另外，针对开放小程序，TripPal提供两种认证方式：

1）常规的Oauth第三方模式接入：

2）另一种是基于Oauth+开放平台签名的第三方认证，对于接入方相对简单：

5.3微服务层

这一层是整个系统的业务层，具体包含三种类型的微服务：

1）TripPal开放平台内部系统微服务：只有在特定用户认证和权限验证通过之后，外部才能访问；
2）开放平台对外提供的OpenAPI：采用Oauth+RBAC的方式控制权限；
3）自研小程序后端服务：根据安全需要，所有使用Oauth+模块权限的第一方小程序服务端。

目前TripPal自身的核心微服务应用达到28个，提供全集团的多端（C端、B端）基础服务能力，服务全公司超过500个业务应用，在线C端用户均值超过2万，日访问量超过亿。

6、 TripPal的IM服务

目前TripPal使用完全自研的基于Java实现的类ejabberd架构，底层采用的XMPP协议进行通讯。

Tips：

XMPP全称是ExtensibleMessageing and Presence Protocol，可扩展消息与存在协议。是目前网络上开源，最灵活，应用最广泛的一种即时消息通信协议。
1999年Jeremie Miller，首先提出了Jabber，一种为实现即时消息和存在的开放技术，后续基于这个协议，开发了一个开源的服务实现jabberd。后续，IETF国际标准组织介入，成立Extensible Messageing and Presence Protocol（XMPP）工作组，并开始标准化工作。
2000年，jabberd服务器1.0版本发布，那时Jabber协议的基本特点（基于XML的流，消息，存在，联系人列表等）都被固定下来。
2004年，IETF出版了RFC 3902和RFC3921，定义了XMPP的核心功能，成为推荐标准。
后续在2011年，IETF出版了RFC6120和RFC 6121，更新了XMPP的核心定义，替代了之前的RFC 3920和3921。
目前XMPP协议被XMPP Standards Foundation负责管理运作，集中于在IETF定义的基础XMPP规范之上，如何开发开放的协议扩展。

IM服务端做了大量的系统性的优化，从底层的数据库调优、底层通讯服务升级，到上层消息、群、群成员等核心功能的大幅改造。

底层通讯服务由之前的erlang完整迁移至java技术栈，服务可靠性、弹性伸缩、安全性和性能获得了提升。同时对上层偏业务的服务进行了改造，极大地提升了接口响应，服务稳定性也得到了提升，为整个产品的研发提供了重要支撑。

目前这套自研的IM 3.0服务在生产环境稳定运行，整体资源消耗比2.0时期有较大下降。

7、 TripPal办公衍生服务

7.1概述

在实际的企业办公场景下，尤其是大型企业复杂组织架构和管理模式的场景下，TripPal逐渐摸索出了自己的一套行之有效且契合携程场景的办公智能应用，如搜索中台，消息卡片，智能审批中台，角色服务，工作流引擎等。

本文简单介绍其中3个服务。

7.2智能审批中台

智能审批中台在集成携程自有的审批系统的同时也集成了自研的智能审批配置服务，该服务支持用户自定义整个审批单及审批流的全部细节。

7.3角色服务

角色服务在灵活定义角色范围及基础角色的基础上，支持用户灵活调整，动态管理，且自动接入审批中台，同时打通应用对接渠道。

整个角色服务在产品定义上分为如下表4个主要概念：

7.4在线文档

在线文档服务主要提供文档的在线协作能力，支持用户同时/实时的查看、编辑、保存和分享的能力。同时结合IM实现通知和反馈等功能。

技术实现上，在线文档是采用CRDT算法实现的无冲突merge（LastWrite Wins）、多端最终一致的分布式方案，同时兼具高可用、可容错的特性，在服务器发生故障时，允许Shift至另一台机器上继续执行，即使服务端完全宕机，客户端依然能够离线工作。

8、 TripPal高可用的实践

目前TripPal部署在3个机房，分为公有云1个机房及私有云2个机房。

总体架构在应用多机房部署、数据层跨机房DRC的基础上，采用就近访问的原则进行服务访问，其中一旦发生任意2个机房全挂的情况，都能保证系统内的核心应用仍能提供服务。

其中公有云机房的一期部署方案已经完成，二期部署方案和测试计划预计于7月完成，届时可以和大家分享一下混合云方案的一些细节和历程。

9、开放平台的未来架构及演进方向

9.1概述

开放平台主要面向两类群体，开发者和用户。

所以主要有两个方向：

1）一是便捷开发，主要围绕降低开发者门槛、较低研发成本，打通不同开发者、应用之间的壁垒，实现生态共享。

2）另一方面，针对实际用户，在提高用户体验、数据安全的同时，实现用户服务能力整合和主动发现。

9.2开发者

在这方面，目前主流开放平台已经对开发者提供了强大的支持。

主要形式分为以下3种。

1）前端信任：

前端信任的目的是通过减少或杜绝开发者后端跟开放平台OpenAPI交互的方式，来降低开发者接入门槛，减少工作量。主要的做法是通过权限控制、签名、加密等手段使得小程序能够在前端拿到可信数据。

2）低代码(Low-Code)：

由于大量的互联网业务属于简单交互或模型化交互，以此为出发点，基于构建合理模型、简单业务函数等形式，可以允许开发者通过拖拽组件、简单伪业务代码等形式提供编程入口，可以大幅度降低开发者的研发门槛和成本，打破用户和开发者界线，提高开放平台整体生态的活力。

3）ServerLess：

基于云原生的ServerLess结合低代码，开放开发者的云端编程入口，同时提供云端基础组件，允许开发者无需部署实际的后端应用服务，极大降低的开发者的运营维护门槛。

9.3用户层面

目前业界主流开放平台在对用户本身的服务能力整合和挖掘上，投入的都比较少，也没有比较成熟的实践，我们认为在这方面可以围绕两个点展开。

一方面：第三方应用治理模式向商城化的转型。常规开放平台的应用治理和推广，基本是应用方独立管理和推广，但是随着应用数量的大幅度增加，以及应用方单方面推广难度较大等原因，亟需开放平台从生态整体角度进行支持和治理。这样可以在安全性、可维护性、便捷性等维度上对应用进行正向反馈，实现开放平台应用生态的可持续性和能力共享。同时，在特定场景下，结合用户分析、大数据及AI，提高用户主动或被动的应用发现能力。

另一方面：构建符合应用间开放协议的软件联盟，打破应用壁垒，围绕服务集成、开放应用的核心原则，使得不同的互联网业务或行为在一定程度上实现数据/能力共享。一般情况下，一个复杂互联网业务通常由多个异构子业务/子应用构成，这样，通过应用拆分、开放共享等形式，在一定程度上使复杂的互联网业务更加精细化、轻量化、可扩展。

9.4开放平台标准化、互通

目前国内外各大互联网公司、机构和组织都搭建了多种开放平台，用于提供各种各样的信息服务，在可以预见的未来，各个平台之间会有一个整合、标准化、互通的可能性。

那么构建标准开放协议，使得开放平台向底层沉淀的过程则至关重要。

10、本文小结

通过实现基本IM开放平台架构，以及各种衍生服务，我们总结出了IM开放平台的一些核心能力。

主要是：

1）服务集成：根据不同的业务场景集成并提供相应场景下的基础服务能力；
2）开放应用：提供第三方接入能力；
3）高性能、高可用。

11、参考资料

[1] 零基础IM开发入门(一)：什么是IM系统？

[2] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[3] 瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）

[4] 从游击队到正规军(一)：马蜂窝旅游网的IM系统架构演进之路

[5] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[6] 浅谈IM系统的架构设计

[7] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[8] 一套海量在线用户的移动端IM架构设计实践分享(含详细图文)

[9] 一套原创分布式即时通讯(IM)系统理论架构方案

[10] 一套亿级用户的IM架构技术干货(上篇)：整体架构、服务拆分等

[11] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[12] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[13] 阿里IM技术分享(三)：闲鱼亿级IM消息系统的架构演进之路

[14] 基于实践：一套百万消息量小规模IM系统技术要点总结

[15] 跟着源码学IM(十)：基于Netty，搭建高性能IM集群（含技术思路+源码）

[16] 一套十万级TPS的IM综合消息系统的架构实践与思考

[17] 直播系统聊天技术(八)：vivo直播系统中IM消息模块的架构实践

[18] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制

[19] 得物从0到1自研客服IM系统的技术实践之路

[20] 一套分布式IM即时通讯系统的技术选型和架构设计

[21] 微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

（本文已同步发布于：http://www.52im.net/thread-4690-1-1.html）

posted @ 2024-08-29 15:45 Jack Jiang 阅读(99) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十三)：为什么手机信号差？一文即懂！

摘要: 【来源申明】本文引用了微信公众号“网优雇佣军”的《是谁偷走了我家的手机信号？》文章内容。为了更好的内容呈现，下文在引用和收录时内容有改动，转载时请注明原文来源信息，尊重原作者的劳动。1、系列文章引言1.1适合谁来阅读？本系列文章尽量使用最浅显易懂的文字、图片来组织内容，力求通信技术零基础的人群也能看懂。但个人建议，至少稍微了解过网络通信方面的知识后再看，会更有收获。如果您大... 阅读全文

posted @ 2024-08-21 17:53 Jack Jiang 阅读(105) | 评论 (0) | 编辑收藏

得物自研移动端弱网诊断工具的技术实践分享

摘要: 本文由得物技术厉飞雨分享，原题“得物App弱网诊断探索之路”，下文进行了排版和内容优化。1、引言随着得物用户规模和业务复杂度不断提升，端上网络体验优化已逐步进入深水区。为了更好地保障处于弱网状态下得物App用户的使用体验，我们在已有的网络体验大盘、网络诊断工具的基础上研发了弱网诊断能力。该工具能够高效实时诊断用户真实网络环境，同时给出精确网络质量分级，为后续App各业务场景... 阅读全文

posted @ 2024-08-15 11:08 Jack Jiang 阅读(115) | 评论 (0) | 编辑收藏

大型IM稳定性监测实践：手Q客户端性能防劣化系统的建设之路

摘要: 本文来自腾讯手Q基础架构团队杨萧玉、邱少雄、张自蹊、王褚重天、姚伟斌的分享，原题“QQ 客户端性能稳定性防劣化系统 Hodor 技术方案”，下文进行了排版和内容优化。1、引言接上篇《首次公开，最新手机QQ客户端架构的技术演进实践》。防劣化是比较经典的技术话题，手 Q 的防劣化系统从 2021 年 10 月开始投入研发，从 0 到 1 迭代了将近三年的时间，已经达到了业界先进... 阅读全文

posted @ 2024-08-02 10:38 Jack Jiang 阅读(111) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.6版已发布

关于RainbowChat

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

v11.6 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容：

1）[bug] 解决了APP从后台恢复时，有一定几率因后台多线程操作好友数据导致的线程安全崩溃问题；
2）[优化] 加固了一处好友列表中根据昵称取拼音首字母的非空检查逻辑；

（2）服务端主要更新内容：

1）[bug] 升级了MobileIMSDK至v6.5，尝试解决极小几率下Android端会误把“自已”踢掉的问题
2）[bug] 解决了因Netty库版本升级导致iOS消息推送失败报错的问题：
3）[bug] 解决了消息撤回时，被引用消息的历史记录没有正确处理撤回逻辑；
4）[优化] 为“接口1008-26-7”增加了“at_me”字段的返回；
5）[优化] 优化了“接口1008-26-8”，使得在跟Web互通时支持按时间戳的聊天记录分页加载方案；
6）[优化] 为“接口1008-26-8”增加了“消息发送者昵称”内容的返回；

部分功能运行截图（更多截图点此查看）：

posted @ 2024-07-26 12:57 Jack Jiang 阅读(104) | 评论 (0) | 编辑收藏

Web网页端IM产品RainbowChat-Web的v7.1版已发布

一、关于RainbowChat-Web

RainbowChat-Web是一套Web网页端IM系统，是RainbowChat的姊妹系统（RainbowChat是一套基于开源IM聊天框架 MobileIMSDK (Github地址) 的产品级移动端IM系统）。

► 详细介绍：http://www.52im.net/thread-2483-1-1.html

► 版本记录：http://www.52im.net/thread-2480-1-1.html

► 运行截图：http://www.52im.net/thread-2470-1-1.html

► 运行视频：http://www.52im.net/thread-2491-1-1.html

二、v7.1 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] [前端] - 解决了转发语音消息后，语音消息ui气泡css样式问题；
2）[bug] [前端] - 解决了登陆后首次打开对应聊天界面前收到的新消息和历史消息显示顺序问题；
3）[bug] [前端] - 解决了删除聊天后，没有自动清除聊天界面上的“加载更多”功能按钮；
4）[bug] [前端] - 解决了引用陌生人消息时，显示的是uid而不是对方昵称的问题；
5）[bug] [前端] - 解决了群主撤回群员消息时，系统通知中显示的是uid而不是对方昵称的问题；
6）[优化] [前端] - 优化了引用的消息内容中表情图标导致引用的文字不能垂直居中显示的ui问题；
7）[优化] [前端] - 优化了群聊中消息发送者昵称的显示；
8）[优化] [服务端] - 为“接口1008-26-8”增加了“消息发送者昵称”内容的返回；

三、主要功能特性截图

主要功能特性截图（更多运行截图、运行视频）：

posted @ 2024-07-26 11:42 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

IM跨平台技术学习(十三)：从理论到实践，详细对比Electron和Tauri的优劣

摘要: 本文由京东技术王泽知分享，原题“基于Web的跨平台桌面应用开发”，下文进行了排版和内容优化。1、引言近些年来，跨平台跨端一直是比较热门的话题，Write once, run anywhere一直是开发者所期望的，跨平台方案的优势十分明显。对于开发者而言，可以做到一次开发、多端复用，一套代码就能够运行在不同设备上，这在很大程度上能够降低... 阅读全文

posted @ 2024-07-25 11:08 Jack Jiang 阅读(137) | 评论 (0) | 编辑收藏

即时通讯技术文集（第41期）：直播技术合集(Part1) [共12篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第41 期。

[- 1 -] 移动端实时音视频直播技术详解（一）：开篇

[链接] http://www.52im.net/thread-853-1-1.html

[摘要] 本文是《移动端实时音视频直播技术详解》系列文章之第一篇，我们将从整体介绍直播中的各个环节。

[- 2 -] 移动端实时音视频直播技术详解（二）：采集

[链接] http://www.52im.net/thread-955-1-1.html

[摘要] 本文是《移动端实时音视频直播技术详解》系列文章之第二篇：我们将从整体介绍直播中的采集环节。

[- 3 -] 移动端实时音视频直播技术详解（三）：处理

[链接] http://www.52im.net/thread-960-1-1.html

[摘要] 本篇是《移动端实时音视频直播技术详解》系列文章之第三篇：我们将从整体讲解常见视频处理功能：如美颜、视频水印、滤镜、连麦等。

[- 4 -] 移动端实时音视频直播技术详解（四）：编码和封装

[链接] http://www.52im.net/thread-965-1-1.html

[摘要] 本篇是是《移动端实时音视频直播技术详解》系列文章之第四篇：我们将从整体讲解编码和封装。

[- 5 -] 移动端实时音视频直播技术详解（五）：推流和传输

[链接] http://www.52im.net/thread-967-1-1.html

[摘要] 本篇是《移动端实时音视频直播技术详解》系列文章之第五篇：我们将从整体讲解推流和传输。

[- 6 -] 移动端实时音视频直播技术详解（六）：延迟优化

[链接] http://www.52im.net/thread-972-1-1.html

[摘要] 本篇是《移动端实时音视频直播技术详解》系列文章之第六篇：我们将从整体讲解延迟优化技术。

[- 7 -] 理论联系实际：实现一个简单地基于HTML5的实时视频直播

[链接] http://www.52im.net/thread-875-1-1.html

[摘要] 本次分享就向大家介绍一下分享一下直播的整个流程和一些技术点，并动手实现一个简单的Demo。

[- 8 -] 实时视频直播客户端技术盘点：Native、HTML5、WebRTC、微信小程序

[链接] http://www.52im.net/thread-1564-1-1.html

[摘要] 连麦视频直播的客户端主要包括：原生 APP、浏览器 H5、浏览器 WebRTC、微信小程序。浏览器上的应用包括 H5 和 WebRTC，前者可以拉流观看，后者可以实现推流和拉流。

[- 9 -] Android直播入门实践：动手搭建一套简单的直播系统

[链接] http://www.52im.net/thread-1154-1-1.html

[摘要] 实时视频直播是这两年非常火的技术形态，已经渗透到教育、在线互娱等各种业务场景中。但要搭建一套实时视频直播系统，并非易事，当然相关的直播技术理论在论坛的其它文章里已经写的非常详细，本文不再展开。

[- 10 -] 淘宝直播技术干货：高清、低延时的实时视频直播技术解密

[链接] http://www.52im.net/thread-3220-1-1.html

[摘要] 本文由淘宝直播音视频算法团队分享，对实现高清、低延时实时视频直播技术进行了较深入的总结，希望分享给大家。

[- 11 -] 技术干货：实时视频直播首屏耗时400ms内的优化实践

[链接] http://www.52im.net/thread-2087-1-1.html

[摘要] 直播行业的竞争越来越激烈，进过2018年这波洗牌后，已经度过了蛮荒暴力期，剩下的都是在不断追求体验。最近正好在做直播首开优化工作，实践中通过多种方案并行，已经能把首开降到500ms以下，借此机会分享出来，希望能对大家有所启发。

[- 12 -] 新浪微博技术分享：微博实时直播答题的百万高并发架构实践

[链接] http://www.52im.net/thread-2022-1-1.html

[摘要] 本文将分享新浪微博系统开发工程师陈浩在 RTC 2018 实时互联网大会上的演讲。他分享了新浪微博直播互动答题架构设计的实战经验。其背后的百万高并发实时架构，值得借鉴并用于未来更多场景中

👉52im社区本周新文：《IM跨平台技术学习(十二)：万字长文详解QQ Linux端实时音视频背后的跨平台实践》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-07-11 12:38 Jack Jiang 阅读(117) | 评论 (0) | 编辑收藏

IM跨平台技术学习(十二)：万字长文详解QQ Linux端实时音视频背后的跨平台实践

摘要: 本文由QQ音视频团队贺坤分享原题“Linux QQ能打语音视频了！一文详解背后技术实现！”，下文进行了排版和内容优化等。1、引言2024年6月6日，QQ For Linux 3.2.9 正式支持了音视频通话功能，这是 QQ Linux 版本的又一个里程碑事件。 2024 年，QQ 音视频正式推出 NTRTC，全平台（iOS/Android/MacOS/Windows/Lin... 阅读全文

posted @ 2024-07-04 11:31 Jack Jiang 阅读(105) | 评论 (0) | 编辑收藏

移动端IM开发者必读(三)：爱奇艺移动端跨国弱网通信的优化实践

本文由爱奇艺技术团队分享，作者isno，原题“爱奇艺海外App的网络优化实践”，下文进行了排版和内容优化等。

1、引言

做海外市场，特别目标是面向全球的用户，网络的重要性不言而喻。试想一个移动端应用，比如即时通讯IM，聊天消息的本质就是人跟人在说话，一条消息从发送到接受需要10秒的时间，这恐怕会让用户崩溃，随之就是被无情地卸载，开拓海外市场那就是做梦了。

本次分享的文章内容，基于爱奇艺面向全球用户推出的国际版，在海外跨国网络环境复杂的前提下，针对性地做了一系列弱网优化实践，取得了不错的效果，在此总结分享我们的一些做法和优化思路，希望对你有所帮助。

总结下来，跨国弱网优化实践的几个核心就是：

1）能不请求网络就不请求；
2）请求的链接目标 0-RTT；
3）请求的内容越小越好。

正文内容我们将逐个技术点展开了分享。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4669-1-1.html）

2、系列文章

本文是系列文章中的第 3 篇，本系列文章的大纲如下：

如果您是IM开发初学者，强烈建议首先阅读《新手入门一篇就够：从零开发移动端IM》。

3、跨国弱网样本摸底

在 App 初期版本内增加请求链路的采样。样本数足够的情况下，可以清楚你要推广的市场是怎样的环境。样本数据让我们清楚发现了各个国家、地区网络的问题，在大规模宣传和投入前，做好 App 的基础工作非常重要。

海外用户至海外数据中心的网络延迟（这是监测节点数据，用户端延迟更高）：

海外主要国家、地区移动网络情况：

在调研阶段，我们发现了以下问题比较明显，切实影响我们的运营及 App 体验。

这些问题主要是：

1）运营商劫持严重，DNS 劫持、HTTP 劫持；
2）移动端网络复杂，东南亚的网络基础建设还待改善；
3）低端 Android 机有一定的占比，数量级别影响决策；
4）国际网络用户端到服务器的延迟高。

在初期阶段，技术工作的核心是解决以上问题，为后续的运营做好基础建设。因为业务接口大部分为 HTTP 形式，就开始围绕 HTTPS 进行针对性改进。

一个HTTPS请求阶段分析：

一个 HTTPS 在第一请求会有 5 个 RTT：

1RTT(DNS)+ 1RTT(TCP 握手)+ 2RTT(TLS1.2)+ 1RTT(HTTP 链接)

如果以端到服务 50ms 延迟为例：

一个 HTTPS 的接口延迟 = 350ms = 50*5+ 100ms（服务端）

如果目标是一个非国内用户，打开首页需要 1.1s, 这个时间显然有点长。

下面开始进行技术改进的正文，以下是概括技术性优化的关键点：

4、基础链路的改进优化

4.1DNS 优化调整

DNS 的解析改为 HTTPDNS，DNS 的改进上线后观察初始连接请求提升 17% 的效率。

目的主要是：

1）解决域名劫持问题（东南亚地区回传的数据显示有不少劫持）；
2）解决 LocalDNS 非就近分配问题；
3）结合业务可以做解析预热。

4.2传输层的优化调整

MTU 的问题：

1）Client 端和 Server 端不同的 MTU 值会导致丢包率过高。AWS 某些场景实例默认巨型帧：MTU 是 9001，但接收端默认 1500，这时候就会出现一些丢包的现象；
2）如果你用了多个云商服务，用 VPN 组网，IP隧道封装的数据临界 1500，又会造成丢包、包重传问题；
3）最严重的情况：部分网络封杀 ICMP 协议，导致 MTU 无法自动协商。

TCP 拥塞控制优化：

拥塞窗口 CongWin 是未接收到接收端确认情况下连续发送的字节数; 。CongWin 是动态调整，取决于带宽和延迟的积，比如 100MB 的带宽 100ms 的延迟环境。

时延带宽积 = 100Mbps*100ms = (100/8)*(100/1000) = 1.25MB

理论上 CongWin 窗口可以最大化到 1.25MB。CentOS 默认CongWin = 20*MSS，在 29KB 左右，离上限 1.26MB 差太多了，默认值上调TCP的启动会更快。

TCP 快速打开 (TCP Fast Open：TFO)：

TCP 的 keepalive 下依然会有链接断掉重建的情况，TFO 是针对这种情况的优化。

TFO 的原理机制：

在我们观察中开启 TFO 机制，海外业务一个 RTT 通常时间在 100ms 以上，HTTP 请求效率提升了 12% 左右。

5、应用层的改进优化

5.1HTTP 的优化

HTTP1.1 有个 keep-alive 作用是复用 TCP 链接，减少新建的消耗，对于浏览器的业务比较适用，但对于移动端这种时间分散的请求，大部分请求还是新建连接。

HTTP1.1 的串行机制有头部阻塞的问题。

5.2SSL 层优化

尽量升级到 TLS1.3（微信的TLS1.3实践：《微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解》），利用 Pre-shared Key 机制，开启 ssl_early_data 可以进一步优化 “0-RTT ”，如果无法升级 TLS 版本，优化密钥算法为 ECDHE，运算速度快，握手的消息往返由 2-RTT 减少到 1-RTT，能达到与 TLS1.3 类似的效果。

TLS 版本的区别：

TLS1.3 经过优化后，一个 HTTP 请求由之前的 4 个 RTT 减少为 3 个 RTT。

5.3升级 HTTP2.0

几个重要的改进点：

1）分帧传输；
2）多路复用；
3）头部压缩。

多路复用：

在 HTTP/2 中，两个非常重要的概念：帧（frame）和流（stream）。帧代表着最小的数据单位，每个帧会标识出该帧属于哪个流，流也就是多个帧组成的数据流。多路复用，就是在一个 TCP 连接中可以存在多条流。这些改进可以避免 HTTP 队头阻塞问题，提高传输性能。

头部压缩：

开发人员如果不注意对 header 内容的控制，会造成 header 内容失控的现象，客户端极容易存储一个非常大的 Cookie。

HTTP2 的分帧传输机制：

5.4边缘节点动态加速

这个是非常有效的方式。

尽可能离用户最近，利用边缘节点对路由、链路进行优化，提高动态服务的效率。相较于直连模式，使用动态加速后，P90 的接口延迟效率提升了 60%。

爱奇艺海外动态加速的效果提升（请求时间为秒）：

5.5启用兜底机制

对于失败的请求，启用兜底的协议 QUIC 或者 kcp。

客户端的失败率在 3% 左右，对这部分请求使用 UDP 协议兜底尝试，在我们的观察成功率提升了 45%。

6、传输内容的优化

6.1应用 Brotli

因为预置了字典，在同等级别的压缩率下，对比 gzip 至少提升了 17% 的压缩比，接口平均的 Content-Size 由 30KB，降至 18KB。

6.2接口由 JSON 改为 Google Protobuf

应用 Protobuf 的重要原因是解析效率比 JSON 至少高四五倍，在节点深度和数据量大的情况下更明显。

但注意 Protobuf 内部的 varint 压缩，只对小于 128 的数字进行可变长压缩。实际效果不大，生产环境如果数据量大，外层的压缩如 gzip 不可少。

PS：关于Protobuf的资料，可以进一步阅读《IM通讯协议专题学习》。

6.3图片格式升级为 WebP

在应用 WebP 的同时，降低海报图片的质量，实践看海报的 quality 设置为 85% 肉眼难以分辨，相对同质量的 JPEG 或者 PNG ，可以最大减小 45% 的体积。

应用效果明显。App 打开首页图片的加载提升肉眼可见。

7、业务层面的优化改进

7.1减少不必要请求：

一些通用内容，如导航、频道，通常由运营人员主动更新。

如下图：增加一个启动阶段请求的接口，里面放入内容更新的时间戳，与本地 cache 的时间戳有差异，则异步请求更新。

7.2区别用户网络，适应不同的策略

具体作法是：

1）对于视频，非 WiFi 默认启播码率为 360P；
2）对于海报，后端接口提供两种质量的 Url，WiFi 高质，4G 低质。

7.3更多的业务优化

增加请求重试、调整 HTTP 的超时时间，请求缓存等等这些可以根据业务的需求进行调整。

8、本文小结

爱奇艺海外版APP经过一系列细节优化，用户体验持续上升。用户接口延迟、客户端失败率、视频播放成功率一系列的关键指标得到很大的改善。这也助力爱奇艺在东南亚多个国家的应用市场排名升至 TOP 1。

另外 App 优化、Server 延迟优化、产品体验的改进，这一系列只有相辅相成才可以最大化提升用户体验。

9、参考资料

[1] TCP/IP详解 - 第17章·TCP：传输控制协议

[2] 网络编程懒人入门(三)：快速理解TCP协议一篇就够

[3] 新手入门一篇就够：从零开发移动端IM

[4] 现代移动端网络短连接的优化手段总结：请求速度、弱网适应、安全保障

[5] 全面了解移动端DNS域名劫持等杂症：技术原理、问题根源、解决方案等

[6] 美图App的移动端DNS优化实践：HTTPS请求耗时减小近半

[7] 百度APP移动端网络深度优化实践分享(一)：DNS优化篇

[8] 百度APP移动端网络深度优化实践分享(二)：网络连接优化篇

[9] 百度APP移动端网络深度优化实践分享(三)：移动端弱网优化篇

[10] 爱奇艺移动端网络优化实践分享：网络请求成功率优化篇

[11] 美团点评的移动端网络优化实践：大幅提升连接成功率、速度等

[12] 淘宝移动端统一网络库的架构演进和弱网优化技术实践

[13] 谈谈移动端 IM 开发中登录请求的优化

[14] 移动端IM开发需要面对的技术问题（含通信协议选择）

[15] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[16] 微信对网络影响的技术试验及分析（论文全文）

[17] 腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗（上篇）

[18] IM开发者的零基础通信技术入门(十二)：上网卡顿？网络掉线？一文即懂！

[19] 微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[20] IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！

（本文已同步发布于：http://www.52im.net/thread-4669-1-1.html）

posted @ 2024-06-27 11:51 Jack Jiang 阅读(100) | 评论 (0) | 编辑收藏

Web网页端IM产品RainbowChat-Web的v7.0版已发布

一、关于RainbowChat-Web

RainbowChat-Web是一套Web网页端IM系统，是RainbowChat的姊妹系统（RainbowChat是一套基于开源IM聊天框架 MobileIMSDK (Github地址) 的产品级移动端IM系统）。

► 详细介绍：http://www.52im.net/thread-2483-1-1.html

► 版本记录：http://www.52im.net/thread-2480-1-1.html

► 运行截图：http://www.52im.net/thread-2470-1-1.html

► 运行视频：http://www.52im.net/thread-2491-1-1.html

二、v7.0 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] [前端] - 解决了断网重连后，首页“消息”列表中的item选中状态会消失的问题；
2）[bug] [前端] - 解决了“清屏”功能不能清除群聊缓存的问题；
3）[bug] [服务端] - 解决了消息撤回时，被引用消息的历史记录没有被正确处理；
4）[新增] [前端] - 新增“@”功能；
5）[新增] [前端] - 新增消息引用功能（支持引用全部消息类型）；
6）[新增] [前端] - 启用了新的“加载更多”功能，支持动态分页加载，提升大量历史聊天记录下的用户体验；
7）[优化] [前端] - 首页消息列表中的语音消息将显示时长（跟新版微信一样）；
8）[优化] [前端] - 优化了聊天消息中的网址链接显示（自动解析超链接）；
9）[优化] [前端] - 大幅提升聊天界面中加载大量消息时的ui渲染性能；
10）[优化] [前端] - 其它ui和体验的小细节优化；
11）[优化] [服务端] - 为“接口1008-26-7”增加了“at_me”字段的返回；
12）[优化] [服务端] - 优化了“接口1008-26-8”，使聊天记录支持按时间戳的分页加载方案；
13）[优化] [服务端] - 升级了包括log4j2等在内的一些基础库版本。

三、v7.0 版新增主要特性截图

“@”功能功能运行截图（查看演示视频、更多运行截图）：

“消息引用”功能（查看演示视频、更多运行截图）：

posted @ 2024-06-24 13:25 Jack Jiang 阅读(57) | 评论 (0) | 编辑收藏

不为人知的网络编程(十六)：深入分析与解决TCP的RST经典异常问题

摘要: 本文由腾讯技术kernel分享，原题“TCP经典异常问题探讨与解决”，下文进行了排版和内容优化等。1、引言TCP的经典异常问题无非就是丢包和连接中断，在这里我打算与各位聊一聊TCP的RST到底是什么？现网中的RST问题有哪些模样？我们如何去应对和解决？本文将从TCP的RST技术原理、排查手段、现网痛难点案例三个方面，自上而下、循序渐进地给读者带来一套完整的分析方法和解决思路... 阅读全文

posted @ 2024-06-20 12:49 Jack Jiang 阅读(100) | 评论 (0) | 编辑收藏

IM跨平台技术学习(十一)：环信基于Electron打包Web IM桌面端的技术实践

摘要: 本文由环信技术黄飞鹏分享，原题“实战｜如何利用 Electron 快速开发一个桌面端应用”，本文进行了排版和内容优化等。1、引言早就听说利用Electron可以非常便捷的将网页端快速打包成桌面应用，并且利用 Electron 提供的 API 调用可以使用原生桌面 API 一些高级功能。于是这次借着论证 Web IM端 SDK 是否可以在 Electron 生成的桌面端正常稳... 阅读全文

posted @ 2024-06-13 11:53 Jack Jiang 阅读(85) | 评论 (0) | 编辑收藏

即时通讯技术文集（第40期）：推送技术合集(Part2) [共18篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第 40 期。

[- 1 -] 一个基于长连接的安全可扩展的订阅/推送服务实现思路

[链接] http://www.52im.net/thread-776-1-1.html

[摘要] 本文将从如何保证连接的业务安全（禁止非业务认证的连接订阅消息）和如何扩展能够支持更多的消息和连接两点展开分析。

[- 2 -] 实践分享：如何构建一套高可用的移动端消息推送系统？

[链接] http://www.52im.net/thread-800-1-1.html

[摘要] 本文追溯了推送技术的发展历史，剖析了其核心原理，并对推送服务的关键技术进行深入剖析，围绕消息推送时产生的服务不稳定性，消息丢失、延迟，接入复杂性，统计缺失等问题，提供了一整套平台级的高可用消息推送解决方案。实践中，借助于该平台，不仅能提能显著提高消息到达率，还能提高研发效率，并道出了移动开发基础设施的平台化架构思路。

[- 3 -] Go语言构建千万级在线的高并发消息推送系统实践(来自360公司)

[链接] http://www.52im.net/thread-848-1-1.html

[摘要] 本文内容整理自奇虎360公司的周洋在 Gopher China 2015 大会上的分享（演讲PPT下载：《Go语言构建高并发消息推送系统实践PPT(来自奇虎360)[附件下载] 》），该次分享以360海量在线的消息推送系统为例，来探讨使用Go语言构建高并发消息推送系统时所遇到的问题以及总结出的各种实践技巧。

[- 4 -]腾讯信鸽技术分享：百亿级实时消息推送的实战经验

[链接] http://www.52im.net/thread-999-1-1.html

[摘要] 本文整理了此次甘恒演讲的内容并以文字的方式分享给大家，希望能给技术同行带来一些技术上的启发。

[- 5 -] 百万在线的美拍直播弹幕系统的实时推送技术实践之路

[链接] http://www.52im.net/thread-1236-1-1.html

[摘要] 本文作者是美拍的架构师，经历了直播弹幕从无到有，从小到大的过程，借此文为大家分享构建弹幕系统的经验，希望能为正在开发或正打算开发弹幕、消息推送、IM聊天等系统的技术同行带来一些启发。

[- 6 -] 京东京麦商家开放平台的消息推送架构演进之路

[链接] http://www.52im.net/thread-1321-1-1.html

[摘要] 我会详细的介绍下京麦实时消息推送是如何在演变中不断完善的。

[- 7 -] 了解iOS消息推送一文就够：史上最全iOS Push技术详解

[链接] http://www.52im.net/thread-1762-1-1.html

[摘要] 本文将对iOS Push的在线push、本地push及离线（远程）push进行了详细梳理，介绍相关逻辑、测试时要注意的要点以及相关工具的使用。

[链接] http://www.52im.net/thread-1820-1-1.html

[摘要] 本文要分享的消息推送指的是当iOS端APP被关闭或者处于后台时，还能收到消息/信息/指令的能力。

[- 9 -] 解密“达达-京东到家”的订单即时派发技术原理和实践

[链接] http://www.52im.net/thread-1928-1-1.html

[摘要] 本文将描述“达达-京东到家”的订单即时派发系统从无到有的系统演进过程，以及方案设计的关键要点，希望能为大家在解决相关业务场景上提供一个案例参考。

[- 10 -] 技术干货：从零开始，教你设计一个百万级的消息推送系统

[链接] http://www.52im.net/thread-2096-1-1.html

[摘要] 本文主要分享的是如何从零设计开发一个中大型推送系统，因限于篇幅，文中有些键技术只能一笔带过，建议有这方面兴趣的读者可以深入研究相关知识点，从而形成横向知识体系。

[- 11 -] 长连接网关技术专题(四)：爱奇艺WebSocket实时推送网关技术实践

[链接] http://www.52im.net/thread-3539-1-1.html

[摘要] 本文分享了爱奇艺基于Netty实现WebSocket长连接实时推送网关时的实践经验总结。

[- 12 -] 喜马拉雅亿级用户量的离线消息推送系统架构设计实践

[链接] http://www.52im.net/thread-3621-1-1.html

[摘要] 本文分享的离线消息推送系统设计并非专门针对IM产品，但无论业务层的差别有多少，大致的技术思路上都是相通的，希望借喜马拉雅的这篇分享能给正在设计大用户量的离线消息推送的你带来些许启发。

[- 13 -] 直播系统聊天技术(三)：微信直播聊天室单房间1500万在线的消息架构演进之路

[链接] http://www.52im.net/thread-3376-1-1.html

[- 14 -] 直播系统聊天技术(四)：百度直播的海量用户实时消息系统架构演进实践

[链接] http://www.52im.net/thread-3515-1-1.html

[摘要] 本文主要分享的是百度直播的消息系统的架构设计实践和演进过程。

[- 15 -] 消息推送技术干货：美团实时消息推送服务的技术演进之路

[链接] http://www.52im.net/thread-3662-1-1.html

[摘要] 本文将首先从Pike的系统架构升级、工作模式升级、长稳保活机制升级等方面介绍2.0版本的技术演进，随后介绍其在直播、游戏等新业务场景下的技术特性支持，并对整个系统升级过程中的技术实践进行了总结。

[- 16 -] 揭秘vivo百亿级厂商消息推送平台的高可用技术实践

[链接] http://www.52im.net/thread-4416-1-1.html

[摘要] 本文将要分享的是vivo技术团队针对消息推送系统的高并发、高时效、突发流量等特点，从长连接层容灾、逻辑层容灾、流量容灾、存储容灾等方面入手，如何保证百亿级厂商消息推送平台的高可用性的。

[- 17 -] 得物从零构建亿级消息推送系统的送达稳定性监控体系技术实践

[链接] http://www.52im.net/thread-4614-1-1.html

[摘要] 本文分享的是得物针对现有的消息推送系统的消息送达耗时、实时性、稳定性等方面问题，从零到一构建完整的消息推送质量监控体系和机制的技术实践。

[- 18 -] B站千万级长连接实时消息系统的架构设计与实践

[链接] http://www.52im.net/thread-4647-1-1.html

[摘要] 本文将介绍B站基于golang实现的千万级长连接实时消息系统的架构设计与实践，包括长连接服务的框架设计，以及针对稳定性与高吞吐做的相关优化。

👉52im社区本周新文：《IM跨平台技术学习(十一)：环信基于Electron打包Web IM桌面端的技术实践》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-06-12 14:54 Jack Jiang 阅读(81) | 评论 (0) | 编辑收藏

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

摘要: 本文由腾讯梁中原分享，原题“红包算法揭秘！哪段代码让你只抢了0.01元？”，下文进行了排版和内容优化等。1、引言在上一篇《来看看微信十年前的IM消息收发架构，你做到了吗》的文章中，有用户提到想了解自己每次微信红包只能抽中 0.01 元的反向手气最佳是怎么在技术上实现的，于是就有了本篇文章的诞生。其实，微信红包最初在产品设计上有过很多思路，最初曾以多档次、按比例分配的方式，但... 阅读全文

posted @ 2024-06-06 12:45 Jack Jiang 阅读(62) | 评论 (0) | 编辑收藏

即时通讯技术文集（第39期）：推送技术合集(Part1) [共18篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第 39 期。

[- 1 -] iOS的推送服务APNs详解：设计思路、技术原理及缺陷等

[链接] http://www.52im.net/thread-345-1-1.html

[摘要] 本文重点介绍APNs的设计思路、技术原理以及各种缺陷槽点，也希望能给自已设计推送系统的同行带来启发。

[- 2 -] 信鸽团队原创：一起走过 iOS10 上消息推送(APNS)的坑

[链接] http://www.52im.net/thread-862-1-1.html

[摘要] 集成推送需要注意些什么？集成之后，怎样确认自己是否正确集成了远程消息推送呢？

[- 3 -] Android端消息推送总结：实现原理、心跳保活、遇到的问题等

[链接] http://www.52im.net/thread-341-1-1.html

[摘要] 最近研究Android推送的实现, 研究了两天一夜, 有了一点收获, 写下来既为了分享, 也为了吐槽. 需要说明的是有些东西偏底层硬件和通信行业, 我对这些一窍不通, 只能说说自己的理解.

[- 4 -] 扫盲贴：认识MQTT通信协议

[链接] http://www.52im.net/thread-318-1-1.html

[摘要] MQTT（Message Queuing Telemetry Transport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。

[- 5 -] 一个基于MQTT通信协议的完整Android推送Demo

[链接] http://www.52im.net/thread-315-1-1.html

[摘要] 本文主要介绍的是基于MQTT实现一个简单的Android消息推送系统。更多推送技术资料请见：http://www.52im.net/forum.php?mod=collection&action=view&ctid=11

[- 6 -] 求教android消息推送：GCM、XMPP、MQTT三种方案的优劣

[链接] http://www.52im.net/thread-314-1-1.html

[摘要] 对各个方案的优缺点的研究和对比，推荐使用MQTT协议的方案进行实现，主要原因是在文中。

[- 7 -] IBM技术经理访谈：MQTT协议的制定历程、发展现状等

[链接] http://www.52im.net/thread-525-1-1.html

[摘要] MQTT（Message Queuing Telemetry Transport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。

[- 8 -] 移动端实时消息推送技术浅析

[链接] http://www.52im.net/thread-288-1-1.html

[摘要] 本文将从移动端无线网络的特点来谈谈实时消息推送的技术原理及相关问题，希望能给你带来些许启发。

[- 9 -] 扫盲贴：浅谈iOS和Android后台实时消息推送的原理和区别

[链接] http://www.52im.net/thread-286-1-1.html

[摘要] 本文将从原理上谈谈两个平台上实时消息推送的区别。

[- 10 -] 绝对干货：基于Netty实现海量接入的推送服务技术要点

[链接] http://www.52im.net/thread-166-1-1.html

[摘要] 通过本文的案例分析和对推送服务设计要点的总结，帮助大家在实际工作中少走弯路。

[- 11 -] 移动端IM实践：谷歌消息推送服务(GCM)研究（来自微信）

[链接] http://www.52im.net/thread-122-1-1.html

[摘要] 本文主要内容由微信开发团队人员编写，来自 WeMobileDev

[- 12 -] 为何微信、QQ这样的IM工具不使用GCM服务推送消息？

[链接] http://www.52im.net/thread-117-1-1.html

[摘要] 同样是IM软件，为什么微信不使用GCM的机制而要自己开启一个Service常驻后台轮询，并且还要使用多种方式触发该Service导致无法关闭，这种机制既耗电又浪费网络资源，微信放弃成熟的GCM推送机制而使用自身后台服务的软件是否有其他自身目的性？还是说微信某些功能必须自身常驻呢？

[- 13 -] 极光推送系统大规模高并发架构的技术实践分享

[链接] http://www.52im.net/thread-602-1-1.html

[摘要] 2016年的双十一大促改改过去，作为国内第三方推送服务的领导者，极光（JIGUANG）采取了哪些措施来应对高并发推送服务？同时，极光基于 ICE 打造高可用云推送平台，其背后有哪些技术细节值得探索？

[- 14 -] 从HTTP到MQTT：一个基于位置服务的APP数据通信实践概述

[链接] http://www.52im.net/thread-605-1-1.html

[摘要] 基于以上业务场景，如此频繁的数据交互，要达到数据的实时推送级别，该选用哪种技术？HTTP短轮询还是基于TCP的实时长连接？本文给出的答案是使用MQTT协议，请继续往下阅读。

[- 15 -] 魅族2500万长连接的实时消息推送架构的技术实践分享

[链接] http://www.52im.net/thread-723-1-1.html

[摘要] 此文内容整理自魅族架构师于小波在“魅族技术开放日”的演讲分享，本次演讲中于小波分享了魅族在实现2500万长连接的实时消息推送系统中所遇到的坑和一些心得体会，希望对实时消息推送技术相关的技术同行有所启发和帮助。

[- 16 -] 专访魅族架构师：海量长连接的实时消息推送系统的心得体会

[链接] http://www.52im.net/thread-750-1-1.html

[摘要] 本文内容来自ChinaUnix的IT名人堂对魅族系统架构师于小波的专访，于小波分享了在构建魅族海量长连接的实时消息推送系统过程中所总结出的各种心得和体会，希望对正在或即将开发消息推送系统的开发者同行带来一些启发。请往下看正文。

[- 17 -] 深入的聊聊Android消息推送这件小事

[链接] http://www.52im.net/thread-771-1-1.html

[摘要] 微信由于有国际版，将 GCM 作为辅助公共通道，但仅用于激活微信自己的 Push 通道，并没有通过 GCM 来传递数据，这点也是为了复用心跳的优化策略和数据处理逻辑。

[- 18 -] 基于WebSocket实现Hybrid移动应用的消息推送实践(含代码示例)

[链接] http://www.52im.net/thread-773-1-1.html

[摘要] 本文将围绕 Hybrid App（以Cordova为例）的 WebSocket 消息推送进行一系列的实践性探索。

👉52im社区本周新文：《社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-06-05 11:56 Jack Jiang 阅读(24) | 评论 (0) | 编辑收藏

首次公开，最新手机QQ客户端架构的技术演进实践

本文由腾讯技术何金源分享，原题“不畏移山，手机QQ技术架构升级变迁史”，本文进行了排版和内容优化等。

1、引言

接上篇《总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化》，本文则将重点介绍手机 QQ 客户端技术架构升级背后的故事。

手机 QQ 经过20多年发展，功能不断增加，代码不断累积，架构已经变得越来越臃肿，影响到协作团队开发效率，对用户体验、质量稳定都有较大风险，因此手机 QQ 亟需技术架构的升级。但是对如此庞大的项目进行架构升级，在行业内也是少有的，手机 QQ 架构升级面临的困难和挑战都十分巨大，本文将围绕最新手机 QQ 客户端项目背景、项目历程、项目挑战、项目成果等方面进行深入介绍。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4658-1-1.html）

2、手机QQ的历史包袱

在过去20多年里，手机 QQ 从原来纯粹的即时通讯IM工具，成长为承载了空间、频道、短视频、超秀、增值服务等众多业务的平台。

随着业务越来越复杂，最初设计的技术架构变得越来越不适配，业务相互之间耦合越来越严重，时常会遇到改一个问题，牵扯出 N 个问题，问题改不动，代码债越积越多的情况，历史的包袱如同一座大山横在每一位手机 QQ 项目成员面前。

2020年，我们开始着手做架构升级。

鉴于手机 QQ 的业务复杂度、代码量级都非常大，评估下来架构升级的工作量大得惊人，于是我们采用分阶段、逐步演进的策略去进行架构升级。

整体回顾，手机 QQ 的架构升级时间线是这样的：

3、“解耦重构”架构设计

虽然历史包袱如同一座大山，但是手机 QQ 项目成员也有移山的意志和决心。

在2020年，手机 QQ 启动了名为“工业化实践”的技术架构升级项目，这标志着手机 QQ 工程首次系统性地进行业务边界划分、解耦和重构升级。

从上图可看出，旧架构虽然有模块化和插件化，但存在以下不足：

1）边界不清晰：主工程承载基础和大部分业务代码，导致基础和业务代码边界不清晰；
2）代码耦合紧：基础核心类持续膨胀、业务之间代码依赖不合理；
3）开发效率低：代码修改扩散造成 CR、解冲突、定位问题成本高，同时拖慢编译速度。

针对以上不足，对手机 QQ 工程重新设计了架构：

1）新架构按业务划分模块，业务模块之间是相互解耦的，业务模块之间通过接口和路由进行通信；

2）同时按层级设计划分，层级自上而下依赖，上层模块可依赖下层模块，但下层模块不能逆向依赖上层模块。

手 Q 客户端新架构：

新架构的主要收益：

1）模块更加内聚：新特性开发影响范围逐步收敛到模块内部，提升研发效率；
2）接口更加清晰：依赖数减少，可测性提升，更易于通过单元测试、接口测试保障代码逻辑正确性，提升产品质量。

4、“解耦重构”的实践历程

4.1概述

手机 QQ 工程各个业务之间的依赖非常严重，对它进行解耦重构不是一蹴而就的事情，需要按阶段制定目标，一步一步地优化。

通过整理，手机 QQ 工程解耦重构划分为以下三个阶段。

4.2阶段一（2020.11 - 2021.2）

基本完成约300万行核心代码的解耦，一共约30个基础模块和40个基础组件完成解耦，核心业务模块基本完成解耦。

开发新功能时，因为接口与服务实现是隔离的，通过接口依赖的代码不会再耦合严重。

4.3阶段二（2021.3 - 2021.6）

目标：业务模块继续解耦，建设防劣化机制。

成果：

1）API 代码占比与依赖数不增加；
2）完成防劣化机制搭建，在合入阶段拦住不合理修改；
3）完善动态化能力，优化插件与宿主间通信机制和发布效率。

4.4阶段三（2021.7 以后）

目标：进一步完善基础模块和组件化，实现子工程化。

成果：

1）完善基础模块和公共组件重构，建立基础模块发布组件流程；
2）对频道、小世界业务实现子工程化，独立编译运行。

5、“解耦重构”的技术收益

在重构基础上，梳理依赖关系，通过三个阶段改善模块化水平，提高编译速度和研发效率，流水线的编译耗时提升50%。

代码冲突方面也得到明显改善，对比重构前后数据，冲突文件数减少60%，冲突次数减少30%，大大提升开发效率。

6、手机QQ下一代架构：NT架构

在成功迈出改革的第一步之后，我们将注意力转向了手机 QQ 面临的版本碎片化问题。

不同端各自发展，形成了所谓的“烟囱式”结构，其中代码的复用率极低。这种结构带来了多端体验不一致、端内业务体验参差不齐以及每次版本更新时高昂的开发和维护成本等问题。

为了解决这些问题，并在提升用户体验、优化性能和提高研发效率方面实现突破，我们不得不深入思考。

正是这些迫切的需求和挑战促使我们启动了改革的第二步——推进手机 QQ NT 架构升级项目。

在 NT 架构设计之初，我们坚定认为不应该继续缝缝补补，而是应该采用最新且合理的技术理念，摒弃了简单的修补式方法。这次升级不仅是技术上的一次大刀阔斧的改造，更是一场深思熟虑的技术转型。

我们重视在不造成架构大规模动荡的前提下，制定了一条清晰、可行的实施路径。目标是以更少的人力投入实现更高的工作效率和成果，确保了升级过程中的高效和稳健。这种方法不仅保证了项目的顺利进行，也为未来的技术发展和迭代奠定了坚实的基础。

7、NT架构落地之难

由于手机 QQ 的历史悠久且拥有庞大的用户群，该项目在业务和用户层面都展现了巨大的复杂性。

具体来看，项目层面的挑战包括：

1）代码总量庞大：手机端代码近千万行，形成了一个技术上的庞然大物；
2）测试复杂性高：测试用例众多，功能繁杂，且存在部分文档缺失的情况；
3）依赖组件过时：项目中依赖了一些陈旧且缺乏维护的组件，以及大量无人维护的二进制库；
4）研发流程保障：在进行架构升级的同时，必须确保研发工作流程能够平稳过渡，以免影响到研发效率。

用户层面上的挑战则包括：

1）在长达一年以上的升级过程中，日常版本需要正常迭代；
2）用户本地数据量巨大，如超过 10G 的本地消息数据库；
3）项目需在技术优化的同时提升用户体验与活跃度，确保技术优化在用户端实现价值。

面对这些复杂度，项目的核心难点主要集中在以下三个方面。

1）海量功能项目的架构升级和统一：针对全终端、全功能和全项目团队的整体升级，确保架构升级过程中不能有任何缺失。手机 QQ 是在发展了20多年进行彻底重构，难度空前，没有资料可参考。

2）IM 全链路架构重写升级：解决陈年技术债，优化消息架构，平稳迁移用户历史数据，并提升消息性能。QQ 消息架构有陈年技术债，很多 QQ 历史版本里，没有统一的消息 ID 生成规则，没有统一的存储和索引方案，消息类型也是无序扩张。所以，既需要对IM全链路重写优化，同时在过程中，还需要平稳迁移用户历史数据，最终完成升级，保护用户数据、用户体验不受影响。

3）用户体验提升与活跃数据提升：逐步优化核心功能体验，不影响用户习惯，通过提升体验推动产品数据增长。代码的重写不能全盘一次性推倒重来。核心功能体验要保持，逐步优化，不能影响用户使用习惯。

这些挑战不仅说明了手机 QQ NT 架构升级项目的复杂性，也证明了我们在面对前所未有的技术难题时的决心。

8、NT架构设计

为了实现架构升级和统一，项目团队先用 C++ 开发了具备 QQ IM 核心功能的跨平台内核层：把 IM 核心业务逻辑（好友、群、频道等消息逻辑、资料与关系链逻辑、图片语音视频等富媒体收发逻辑、实时音视频逻辑等），QQ 通用组件（数据库、协议编解码、网络传输等），以及线程/网络/IO 等通用资源管理模块和操作系统封装部分，由原来的各平台原生语言实现，统一下沉到 C++ 跨平台层。

为了控制项目质量风险，NT 跨平台内核先接入用户量相对较少，对功能补齐紧迫度高的桌面端，完全用新架构重写桌面端。

在桌面端成功完成功能验证和质量测试之后，我们开始了向移动端的迁移工作，并顺利完成了 iOS 和安卓平台的集成。

当然，移动端的接入远远不像图中描述的这般容易，接下来将介绍其中的解决方案和主要过程。

9、 IM客户端全链路重写升级

在新的 NT 架构基础上，对 QQ 来说，最核心的技术升级，是 IM 全链路的升级。

IM 消息数据源复杂，历史包袱很重，升级过程的遇到的第一个难点就是数据转换及存量数据迁移到新版本问题。

比如：

1）老版本的 QQ，好友消息没有唯一标识字段，导入和去重影响大；
2）2012年以前的版本，群消息没有支持漫游，消息无唯一字段；
3）各平台消息数据格式不同，复杂度高，iOS 和 Android 分别有约200种消息类型；
4）富媒体（图片、视频、语音、文件）资源，存储的目录结构、命名都不同；
5）特殊消息，如结构化消息、Ark 消息、小灰条消息，需要做转换，完成业务的梳理和下架工作；
6）还有因为各种功能的变迁带来的遗留数据问题，如已经退出或者解散的群和讨论组等。

所以，首先需要做 IM 的精简。项目团队基于用户价值考虑，零基思维，完成消息格式统一，对消息和会话类型进行彻底精简，为 QQ 消息长治久安打下基础。

有了全端格式统一和类型精简的基础，开始用大小、性能、安全性综合最优方案设计跨平台统一的全新客户端 DB，然后再考虑旧 DB 的数据，如何平稳升级到新 DB。

移动端和桌面端不同，活跃用户全年在线，有些手机本地纯文本消息的 DB 文件超过10G，加上富媒体、文件等，总数据量超过100G，而且移动端又有存储空间小、功耗敏感、后台杀进程等多方面限制，需要设计出一套周密的升级策略，保护用户核心数据资产不丢失。

方案核心要点：

1）断点续导：移动端场景，进程随时可能被杀或退出。确保消息不丢失、不重复；
2）用户分级：跟进消息数据大小，用户分为三类，做不同的体验优化，减少对用户的影响；
3）优化发烫和耗电：限制导入速度，防止手机发烫。手机切后台后停止导入。对消息数据多的用户，引导用户设置在后台导入；
4）监控：做好各种导入异常上报监控，随时跟进用户反馈。

通过设计周密的升级策略，内部多轮推演，外部从百级开始放量，全方位监控，并用兜底策略保障不丢消息。最终结合监控数据和用户反馈数据，完成了全量用户的全量数据平稳迁移新 DB。

10、客户端核心功能优化提升

不仅是消息，在 NT 架构重写升级过程中，对 QQ 核心功能也一起做了更彻底的重构，手机 QQ 原生功能进行了大规模解耦，通用的部分进行优化并下沉为统一的 NT-Runtime 原生组件（NT 组件服务及框架层）。基于重构后的架构，也对性能进行全面优化。

首先是消息相关核心模块的优化。

消息逻辑下沉到 C++ 跨平台，也推动上层进行架构刷新。

以聊天窗口（AIO）为例：基于全新数据流架构 + 数据预加载 + UI 逻辑并行化的设计思路，完成单向数据流驱动与异步加载渲染，系统资源全力供给 AIO 消息列表，最终性能指标提升明显，AIO 内查看、跳转、滑动消息，顺畅丝滑。

核心技术优化方案：

1）采用基于单向数据流的 MVI 架构，实现业务解耦；
2）预加载和异步渲染，实现消息无缝滑动；
3）消息加载并行化，减少首屏和滑动时的加载时间；
4）消息动态加载、释放，优化内存占用。
5）200+业务组件懒加载，实现数据分层和按需加载。

其它 QQ 主场景，如消息列表页、消息与富媒体收发、图片视频查看等，也采用相同的路径进行优化，最终性能全面提升。

11、本文小结

在手机 QQ 超过20年的发展历程中，应用功能的不断扩展和代码量的持续增长积累了巨大的技术债务，给原有的客户端架构带来了沉重的负担。最新版手机QQ通过一系列的架构演变和技术升级，成功地实现了从臃肿不堪到模块化、高效、稳定的转变。

客户端架构由各端烟囱式架构逐步升级为多端跨平台复用的 NT 架构，降低多端维护人力成本，提升 QQ 全端开发效率，为 QQ 的持续发展和技术迭代打下了坚实的基础。

展望未来，QQ 将基于 NT 架构，在技术创新的道路上继续前行，不断进行架构优化和技术升级，为用户提供更加流畅稳定的产品体验。

12、相关资料

[1] 总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化

[2] 大型IM工程重构实践：企业微信Android端的重构之路

[3] 企业微信针对百万级组织架构的客户端性能优化实践

[4] 微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

[5] 腾讯技术分享：Android版手机QQ的缓存监控与优化实践

[6] 腾讯技术分享：Android手Q的线程死锁监控系统技术实践

[7] 全面解密新QQ桌面版的Electron内存优化实践

[8] 移动端IM实践：iOS版微信界面卡顿监测方案

[9] 微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

[10] 微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

[11] 微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

[12] 微信客户端团队负责人技术访谈：如何着手客户端性能监控和优化

[13] 抖音技术分享：飞鸽IM桌面端基于Rust语言进行重构的技术选型和实践总结

[14] 阿里技术分享：闲鱼IM基于Flutter的移动端跨端改造实践

[15] QQ设计团队分享：新版 QQ 8.0 语音消息改版背后的功能设计思路

posted @ 2024-05-30 10:24 Jack Jiang 阅读(86) | 评论 (0) | 编辑收藏

总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化

摘要: 本文由腾讯云开发者张曌、毕磊分享，原题“QQ 9“傻快傻快”的？！带你看看背后的技术秘密”，本文进行了排版和内容优化等。1、引言最新发布的 QQ 9 自上线以来，流畅度方面收获了众多用户好评，不少用户戏称 QQ 9 “傻快傻快”的，快到“有点不习惯了都”。作为庞大量级的IM应用，QQ 9 从哪些方面做了... 阅读全文

posted @ 2024-05-23 14:20 Jack Jiang 阅读(109) | 评论 (0) | 编辑收藏

即时通讯技术文集（第38期）：IM代码入门实践(Part2) [共15篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第38 期。

[- 1 -] 高仿Android版手机QQ首页侧滑菜单源码 [附件下载]

[链接] http://www.52im.net/thread-923-1-2.html

[摘要] 本文分享的源码高仿了手机QQ的这个效果，希望可以为有相同需求的IM开发者同行节省点撸码时间。

[- 2 -] 开源libco库：单机千万连接、支撑微信8亿用户的后台框架基石 [源码下载]

[链接] http://www.52im.net/thread-623-1-2.html

[摘要] libco在2013年的时候作为腾讯六大开源项目首次开源，ibco支持后台敏捷的同步风格编程模式，同时提供系统的高并发能力。

[- 3 -] 分享java AMR音频文件合并源码，全网最全

[链接] http://www.52im.net/thread-397-1-3.html

[摘要] 分享java AMR音频文件合并源码，全网最全。

[- 4 -]微信团队原创Android资源混淆工具：AndResGuard [有源码]

[链接] http://www.52im.net/thread-140-1-3.html

[摘要] 本文主要是讲述资源混淆组件的用法以及性能，资源混淆组件不涉及编译过程，只需输入一个apk，可得到一个实现资源混淆后的apk

[- 5 -] 一个基于MQTT通信协议的完整Android推送Demo [附件下载]

[链接] http://www.52im.net/thread-315-1-3.html

[摘要] 本文主要介绍的是基于MQTT实现一个简单的Android消息推送系统。更多推送技术资料请见：http://www.52im.net/forum.php?mod=collection&action=view&ctid=11

[- 6 -] Android版高仿微信聊天界面源码 [附件下载]

[链接] http://www.52im.net/thread-418-1-3.html

[摘要] 微信的聊天界面是挺漂亮的，每条消息都带一个气泡，给人一种很清新的感觉，其实实现起来也不是那么的难，下面我们就来实现一下。

[- 7 -] 高仿手机QQ的Android版锁屏聊天消息提醒功能 [附件下载]

[链接] http://www.52im.net/thread-1233-1-1.html

[摘要] 今天为大家带来的是，可以在锁屏下弹窗显示消息来提醒用户，可用于移动端IM或消息推送应用中。

[- 8 -] 高仿iOS版手机QQ录音及振幅动画完整实现 [源码下载]

[链接] http://www.52im.net/thread-1301-1-1.html

[摘要] 高仿iOS版手机QQ聊天界面中录音及振幅动画。

[- 9 -] Android端社交应用中的评论和回复功能实战分享[图文+源码]

[链接] http://www.52im.net/thread-1584-1-1.html

[摘要] 页面整体采用了CoordinatorLayout来实现详情页的顶部视差效。同时，这里我采用ExpandableListView来实现多级列表，然后再解决它们的嵌套滑动问题。

[- 10 -] Android端IM应用中的@人功能实现：仿微博、QQ、微信，零入侵、高可扩展[图文+源码]

[链接] http://www.52im.net/thread-2165-1-1.html

[摘要] 网上已经有一些文章分享了类似功能实现逻辑，但是几乎都是扩展EditText类，这种实现方式肯定不能进入我的首发阵容。你以为是因为它不符合面向对象六大原则？错，只因为它不够优雅！不够优雅！不够优雅！

[- 11 -] 仿微信的IM聊天时间显示格式(含iOS/Android/Web实现)[图文+源码]

[链接] http://www.52im.net/thread-2371-1-1.html

[摘要] 作为移动端IM的王者，微信无疑处处是标杆，所以本次的消息时间显示格式，直接参照微信的实现逻辑准没错（随大流虽然没个性，但不至于非主流）。

[- 12 -] Android版仿微信朋友圈图片拖拽返回效果 [源码下载]

[链接] http://www.52im.net/thread-2673-1-1.html

[摘要] 目前的app的动画效果是越来越炫了，很多主流app的图片预览返回都有类似功能，比较常见的是ios自带相册，微信朋友圈等等。自己项目中也有类似功能，最近整理了一下这个功能的代码，做个笔记记录，有兴趣的朋友可以在文末附件下载源码。

[- 13 -] 手把手教你实现网页端社交应用中的@人功能：技术原理、代码示例等

[链接] http://www.52im.net/thread-3767-1-1.html

[摘要] 本文分享的@人功能是针对Web网页前端的，跟移动端原生代码的实现，从技术原理和实际实现上，还是有很大差异，所以如果想了解移动端IM这种社交应用中的@人实现功能，可以读一下《Android端IM应用中的@人功能实现：仿微博、QQ、微信，零入侵、高可扩展[图文+源码]》这篇文章。

[- 14 -] SpringBoot集成开源IM框架MobileIMSDK，实现即时通讯IM聊天功能

[链接] http://www.52im.net/thread-3894-1-1.html

[摘要] MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持UDP 、TCP 、WebSocket 三种协议，支持iOS、Android、H5、标准Java平台，服务端基于Netty编写。

[- 15 -] 基于Netty，徒手撸IM(一)：IM系统设计篇

[链接] http://www.52im.net/thread-3963-1-1.html

[摘要] 本篇主要是徒手撸IM系列的开篇，主要讲解的是的IM设计思路，不涉及实践编码，希望给你带来帮助。

👉52im社区本周新文：《总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-05-22 13:53 Jack Jiang 阅读(102) | 评论 (0) | 编辑收藏

B站千万级长连接实时消息系统的架构设计与实践

本文由哔哩哔哩资深开发工程师黄山成分享，原题“千万长连消息系统”，本文进行了排版和内容优化等。

1、引言

在当今数字娱乐时代，弹幕已经成为直播平台上不可或缺的互动元素之一。

用户通过发送弹幕、送礼等，可以实时在直播画面上展现自己的想法、评论和互动内容，从而丰富了用户观看体验。在这个过程中，实时向终端推送互动信息，就需要用到长连接。

长连接，顾名思义，是应用存活期间和服务端一直保持的网络数据通道，能够支持全双工上下行数据传输。其和请求响应模式的短连接服务最大的差异，在于它可以提供服务端主动给用户实时推送数据的能力。

本文将介绍B站基于golang实现的千万级长连接实时消息系统的架构设计与实践，包括长连接服务的框架设计，以及针对稳定性与高吞吐做的相关优化。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4647-1-1.html）

2、关联文章

3、架构设计

3.1概述

长连接服务是多业务方共同使用一条长连接。

因为在设计时，需要考虑到不同业务方、不同业务场景对长连接服务的诉求，同时也要考虑长连接服务的边界，避免介入业务逻辑，影响后续长连接服务的迭代和发展。

长连接服务主要分为三个方面：

1）长连接建立、维护、管理；
2）下行数据推送；
3）上行数据转发（目前只有心跳，还没实际业务场景需求）。

3.2整体架构

长连接服务整体构架如上图所示，整体服务包含以下几个部分。

1）控制层：建连的前置调用，主要做接入合法性校验、身份校验和路由管控。

主要职责：

1）用户身份鉴权；
2）加密组装数据，生成合法token；
3）动态调度分配接入节点。

2）接入层：长连接核心服务，主要做卸载证书、协议对接和长连接维护。

主要职责：

1）卸载证书和协议；
2）负责和客户端建立并维护连接，管理连接id和roomid的映射关系；
3）处理上下行消息。

3）逻辑层：简化接入层，主要做长连的业务功能。

主要职责：

1）在线人数上报记录；
2）记录连接ID各属性和各节点的映射关系。
4）消息分发层：消息推送到接入层。

主要职责：

1）消息封装、压缩和聚合推送给相应的边缘节点；

5）服务层：业务服务对接层，提供下行消息推送入口。

主要职责：

1）管控业务推送权限；
2）消息检测和重组装；
3）消息按一定策略限流，保护自身系统。

3.3核心流程

长连接主要是3个核心流程：

1）建立连接：由客户端发起，先通过控制层，获取该设备合法的token和接入点配置；
2）维持连接：主要是客户端定时发起心跳，来保证长连接活跃；
3）下行推送：下行推送由业务Server发起，经由服务层根据相关标识确定连接标识和接入节点，经过消息分发层，把推送到对应的接入层，写入到指定连接上，然后下发到客户端。

3.4功能列表

结合B站业务场景，下行数据推送，提供如下通用功能：

1）用户级消息：指定推送给某些用户（比如给某个主播发送邀请pk消息）；
2）设备级消息：制定推送给某些设备（比如针对未登陆的设备，推送客户端日志上报指令）；
3）房间级消息：给某房间内的连接推送消息（比如给直播间的所有在线用户推送弹幕消息）；
4）分区消息：给某分区的房间推送消息（比如给某个分区下，所有开播的房间，推送某个营收活动）；
5）全区消息：给全平台用户推送消息（比如给全部在线用户推送活动通知）。

4、高吞吐技术设计

随着业务发展壮大，在线用户越来越多，长连系统的压力越来越大，尤其是热门赛事直播，比如s赛期间，全平台在线人数快达到千万，消息吞吐量有上亿，长连系统消息分发平均延迟耗时在1s左右，消息到达率达到99%，下面具体分析下长连做了哪些措施。

4.1网络协议

选择合适的网络协议对于长连接系统的性能至关重要：

1）TCP协议：可以提供可靠的连接和数据传输，适用于对数据可靠性要求较高的场景；
2）UDP协议：是一个不可靠的协议，但是传输效率高，适用于对数据可靠性要求不高的场景；
3）WebSocket协议：也是实现双向通信而不增加太多的开销，更多的用于web端。

接入层拆分成协议模块和连接模块：

1）协议模块：和具体的通讯层协议交互，封装不同通讯协议的接口和逻辑差异。
2）连接模块：维护长连接业务连接状态，支持请求上行、下行等业务逻辑，维护连接各属性，以及和房间id的绑定关系。

针对以上第 1）点，协议模块同时给连接模块提供统一的数据接口，包括连接建立、数据读取、写入等。后续增加新协议，只要在协议模块做适配，不影响其他模块的长连业务逻辑。

优势在于：

1）业务逻辑和通讯协议做了隔离，方便迭代增加通讯协议，简化兼容多通讯协议的实现难度；
2）控制层可以根据客户端的实际情况，下发更优的通讯协议。

4.2负载均衡

采用负载均衡技术可以将请求分发到不同的服务器节点上处理，避免了单一节点的负载过高，提高了系统的扩展性和稳定性。

长连增加控制层，做负载均衡。控制层提供http短连接口，基于客户端和各边缘节点实际情况，根据就近原则，动态选择合适的接入节点。

接入层支持水平扩展，控制层可以实时增加、减少分配节点。在S赛期间，在线人数快到达千万时，平衡调度各接入节点，保障了各节点的CPU和内存都在稳定的范围内。

4.3消息队列

消息推送链路是：业务发送推送，经过服务层推到边缘节点，然后下发给客户端。

服务层实时分发到各边缘节点，如果是房间类型消息，需要推到多个边缘节点，服务层同时还要处理业务逻辑，很影响消息的吞吐量。

所以增加消息队列和消息分发层，消息分发层维护各边缘节点信息和推送消息，提高了系统的并发处理能力和稳定性，避免了因消息推送阻塞而导致的性能问题。

4.4消息聚合

当有热门赛事时，同时在线可能达到千万级别，一条弹幕消息就要扩散到千万个终端，假如在线的每个人每秒发一条，需要发送消息量就是1kw*1kw，消息量非常大，此时消息分发层和接入层，压力都会很大。

分析发现：这些消息都是同一个房间的，属于热点房间，比如s赛房间，观众数量是无法减少的，那只能在消息数上做文章。业务消息推送不能减少，又要减少扩散的消息数，就想到了消息聚合。

针对房间消息，按照一定的规则进行消息聚合，批量推送：

消息聚合上线后，消息分发层对接入层调用QPS下降60%左右，极大的降低了接入层和消息分发层的压力。

4.5压缩算法

消息聚合后，降低了消息的数量，但是增加了消息体的大小，影响了写入IO，需要减少消息体大小，就想到了消息压缩。

压缩算法，选了市面上比较常用的两个：zlib和brotli，进行比较。

抓取了线上业务推送的数据，选择最高等级的压缩等级，进过压缩验证：

由此可见，brotli相比zlib有很大的优势，最后选择了brotli压缩算法。

选择在消息分发层进行消息压缩，避免在各接入节点多次重复压缩，浪费性能。上线后提升吞吐量的同时，也降低的宽带使用成本。

5、服务保障技术设计

现在有些业务是强依赖长连推送消息，消息丢失，轻则影响用户体验，重则阻塞业务后续流程，进而影响业务流水。针对长连服务消息保障，做了如下工作。

5.1多活部署

多活部署，通过在不同地理位置部署相同的系统架构和服务，实现了系统在单一地域故障时的快速故障转移，从而提高了系统的稳定性和可用性。

长连服务部署，主要做了以下几点：

1）长连接在国内华东、华南、华北地域均部署了接入点，支持三大运营商；华南和华中自建机房也部署了接入点；为支持海外用户，增加了新加坡机房独立接入点；
2）针对业务场景不同，在云上节点和自建节点之间，实时切换，因为云上节点和自建机房的成本是不一样的，在保证服务质量的前提下，尽可能的控制成本。

目前线上运行过程中，偶尔会遇到单节点或机房的网络抖动，通过控制层，对有问题的节点，进行秒级摘流，大大减少了对业务的影响。

5.2高低消息通道

多业务消息接入长连接，但不同消息之间的重要性是不一样的，比如弹幕消息和邀请pk消息，丢失几条弹幕对用户体验不会影响很大，但如果邀请pk消息丢失，则会导致pk业务无法进行后续的流程。

针对不同等级的消息，采用了高低优消息通道。重要消息走高优通道，普通消息走低优通道。这样重要和普通消息进行了物理隔离，消息分发优先保证重要消息。

针对高优通道，做了双投递的保障，在接入层做幂等去重。首先重要消息是针对用户级别的，量不会很大，所以对接入层的压力不会增加很大。另外双投递的job是部署在多机房的，这也就降低单机房网络抖动造成的影响。

高低优通道上线后，遇到过内网出网抖动，当时内网部属的job节点推送消息异常，而云上高优job节点可正常推送，很好的保障了高优消息的到达，进而保障了高优业务不受影响。

5.3高达功能

高低优通道解决的是job到接入层的这一个环节，但消息推送联路涉及到多个环节，比如服务层到job、接入层到客户端。

针对整个链路，通过实现必达机制来确保终端的到达率，简称高达功能。

功能实现：

1）每条消息引入msgID，客户端收到消息后进行幂等去重和ack回执；
2）服务端针对msgid进行ack检测，针对未ack的，有效期内再次重试下发。

最终到达率 = (1-(1-r)^(n+1))，其中：r为广播单次到达率，n为最大重试次数。

例如：r = 97%、n=2，那么最终到达率可以达到(1-(1-0.97)^(2+1)) = 99.9973%

6、进出”房“消息的送达保证设计

有些业务场景，需要用到用户进出房消息，比如用户A进入直播间，页面会显示欢迎用户A进入房间，或者是加入在线榜单。

1）进房消息会存在丢失，需要有补偿机制。想到可以通过连接心跳来补偿进房消息，但心跳是持续不断的，连接在线期间，业务希望只收到一次进房消息，所以进房消息需要有幂等机制。

2）出房消息也会存在丢失，如果丢失了，业务无法从在线榜单剔除用户，此时也需要有补偿机制。此时就需要增加连接的状态机，通过心跳维护状态机，当心跳丢失时，认为连接断开，用户退房。

7、未来规划

统一长连接服务经历数次迭代后，目前基本功能已经趋于稳定，后续对长连接服务进行改善和优化。

主要集中在以下几个方向：

1）数据化：进一步完善长连接全链路网络质量数据统计和高价值消息全链路追踪的能力；
2）智能化：端上建联、接入点选择等能够根据实际环境进行自动化调整；
3）性能优化：接入层的连接模块中，处理上下行消息的携程进行共享，减少接入层的携程数，进一步提升单机性能和连接数；
4）功能扩展：新增离线消息功能等。

8、参考资料

[1] 手把手教你写基于TCP的Socket长连接

[2] 正确理解IM长连接、心跳及重连机制，并动手实现

[3] 万字长文：手把手教你实现一套高效的IM长连接自适应心跳保活机制

[4] 用JWT技术解决IM系统Socket长连接的身份认证痛点

[5] TCP/IP详解 - 第11章·UDP：用户数据报协议

[6] TCP/IP详解 - 第17章·TCP：传输控制协议

[7] WebSocket从入门到精通，半小时就够！

[8] 快速理解TCP协议一篇就够

[9] 快速理解TCP和UDP的差异

[10] 一泡尿的时间，快速搞懂TCP和UDP的区别

[11] 到底什么是Socket？一文即懂！

[12] 我们在读写Socket时，究竟在读写什么？

[13] 假如你来设计TCP协议，会怎么做？

[14] 深入操作系统，一文搞懂Socket到底是什么

[15] 通俗易懂，高性能服务器到底是如何实现的

（本文已同步发布于：http://www.52im.net/thread-4647-1-1.html）

posted @ 2024-05-16 11:44 Jack Jiang 阅读(106) | 评论 (0) | 编辑收藏

开源即时通讯IM框架 MobileIMSDK v6.5 发布

一、更新内容简介

本次更新为次要版本更新，进行了bug修复和优化升级（更新历史详见：码云 Release Notes、Github Release Notes）。

MobileIMSDK 可能是市面上唯一同时支持 UDP+TCP+WebSocket 三种协议的同类开源IM框架。轻量级、高度提炼，历经10年、久经考验。客户端支持iOS、Android、Java、H5、微信小程序、Uniapp，服务端基于Netty。

二、MobileIMSDK简介

MobileIMSDK 是一套专为移动端开发的原创IM通信层框架：

历经10年、久经考验；
超轻量级、高度提炼，lib包50KB以内；
精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
客户端支持 iOS、Android、标准Java、H5、小程序、Uniapp；
服务端基于Netty，性能卓越、易于扩展；
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

MobileIMSDK工程始于2013年10月，历经10年，起初用作某产品的即时通讯底层实现，完全从零开发，技术自主可控！

您可能需要：查看关于MobileIMSDK的详细介绍。

三、源码托管同步更新

OsChina.net

源码托管： http://git.oschina.net/jackjiang/MobileIMSDK
项目资料：点击查看更多资料

GitHub.com

源码托管： https://github.com/JackJiang2011/MobileIMSDK
项目资料：点击查看更多资料

四、MobileIMSDK设计目标

让开发者专注于应用逻辑的开发，底层复杂的即时通讯算法交由SDK开发人员，从而解偶即时通讯应用开发的复杂性。

五、MobileIMSDK框架组成

整套MobileIMSDK框架由以下7部分组成：

Android客户端SDK：用于Android版即时通讯客户端，支持Android 4.0及以上，查看API文档；
iOS客户端SDK：用于开发iOS版即时通讯客户端，支持iOS 12.0及以上，查看API文档；
Java客户端SDK：用于开发跨平台的PC端即时通讯客户端，支持Java 16及以上，查看API文档；
H5客户端SDK：查看精编注释版；
微信小程序端SDK：查看精编注释版；
Uniapp端SDK：查看精编注释版；
服务端SDK：用于开发即时通讯服务端，支持Java 1.7及以上版本，查看API文档。

整套MobileIMSDK框架的架构组成：

另外：MobileIMSDK可与姊妹工程 MobileIMSDK-Web 无缝互通，从而实现Web网页端聊天或推送等。

六、MobileIMSDK v6.5更新内容

【重要说明】：

MobileIMSDK v6.5 为次要版本，进行了若干优化！查看详情（github）

【新增重要特性】：

1. [Android端] 新增了Demo中当APP处于后台时，收到消息时显示系统通知的功能。

【解决的Bug】：

1. [服务端] 尝试解决极小几率下Android端会误把“自已”踢掉的问题。

【其它优化和提升】：

1. [服务端] 升级了log4j2等基础库，解决基础库低版中带来的安全漏洞风险；
2. [服务端] 服务端SDK和Demo工程已迁移至IDEA；
3. [Java端] Java桌面端的TCP和UDP两种协议的SDK和Demo工程已迁移至IDEA；
4. [Android端] 提升targetSdkVersion至34（即Android 14）；
5. [Android端] 解决了Demo中绑定前台服务在Android 14中崩溃等问题。
6. [iOS端] 提升最低系统支持版本为iOS 12；
7. [iOS端] 优化了JSON解析库中的一处过时API调用。

【最新版本源码地址】：

Gitee：https://gitee.com/jackjiang/MobileIMSDK/releases/tag/6.5
Github：https://github.com/JackJiang2011/MobileIMSDK/releases/tag/6.5

七、Demo运行演示

八、技术应用示例

8.1 示例1：基于MobileIMSDK的移动端IM RainbowChat（更多运行截图）：

8.2 示例2：基于MobileIMSDK-Web的Web端IM RainbowChat-Web（更多运行截图）：

posted @ 2024-05-09 11:34 Jack Jiang 阅读(97) | 评论 (0) | 编辑收藏

即时通讯技术文集（第37期）：IM代码入门实践(Part1) [共16篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第37 期。

[- 1 -] 一种Android端IM智能心跳算法的设计与实现探讨（含样例代码）

[链接] http://www.52im.net/thread-783-1-1.html

[摘要] 本文将与大家一起探讨一种更加简单易行和实用的心跳算法，不一定适合所有人，但希望能需要的同行带来一些启发。

[- 2 -] 详解Netty的安全性：原理介绍、代码演示（上篇）

[链接] http://www.52im.net/thread-426-1-1.html

[摘要] 作为一个高性能的NIO通信框架，基于Netty的行业应用非常广泛，不同的行业、不同的应用场景，面临的安全挑战也不同，下面我们根据Netty的典型应用场景，分析下Netty面临的安全挑战。

[- 3 -] 详解Netty的安全性：原理介绍、代码演示（下篇）

[链接] http://www.52im.net/thread-427-1-1.html

[摘要] 接上篇《详解Netty的安全性：原理介绍、代码演示（上篇）》。

[- 4 -] Java NIO基础视频教程、MINA视频教程、Netty快速入门视频 [有源码]

[链接] http://www.52im.net/thread-1244-1-1.html

[摘要] 本次分享的是自己收藏的Java nio、mima、netty的视频教程，现分享给各位，希望对大家有帮助。

[- 5 -] 轻量级即时通讯框架MobileIMSDK的源码

[链接]http://git.oschina.net/jackjiang/MobileIMSDK

https://github.com/JackJiang2011/MobileIMSDK

[摘要] 如Github下载慢，请往：https://gitee.com/jackjiang/MobileIMSDK，代码完全同步，请放心下载

[- 6 -] 开源IM工程“蘑菇街TeamTalk”2015年5月前未删减版完整代码 [附件下载]

[链接] http://www.52im.net/thread-777-1-1.html

[摘要] 本次分享的源码来自即时通讯群群友的个人分享，因可能涉及网易泡泡源码版权纠纷，请开发者保证仅用于个人学习和研究之用，切勿用于商业用途。

[- 7 -] NIO框架入门(四)：Android与MINA2、Netty4的跨平台UDP双向通信实战 [附件下载]

[链接] http://www.52im.net/thread-388-1-1.html

[摘要] 本文中，服务端将分别用MINA2和Netty4进行实现，但在你实际的项目中服务端实现只需选其一就行了。

[- 8 -] NIO框架入门(三)：iOS与MINA2、Netty4的跨平台UDP双向通信实战 [附件下载]

[链接] http://www.52im.net/thread-378-1-1.html

[摘要] 本文将演示一个iOS客户端程序，通过UDP协议与两个典型的NIO框架服务端，实现跨平台双向通信的完整Demo。

[- 9 -] NIO框架入门(二)：服务端基于MINA2的UDP双向通信Demo演示 [附件下载]

[链接] http://www.52im.net/thread-373-1-2.html

[摘要] 本文将演示的是一个基于MINA2的UDP服务端和一个标准UDP客户端（Java实现）双向通信的完整例子。

[- 10 -] NIO框架入门(一)：服务端基于Netty4的UDP双向通信Demo演示 [附件下载]

[链接] http://www.52im.net/thread-367-1-2.html

[摘要] 本文将演示的是一个基于Netty4的UDP服务端和一个标准UDP客户端（Java实现）双向通信的完整例子。

[- 11 -] 用于IM中图片压缩的Android工具类源码，效果可媲美微信 [附件下载]

[链接] http://www.52im.net/thread-701-1-2.html

[摘要] 本文要分享的工具类源码来自IM产品 RainbowChat，压缩效果可媲美微信，详情请参见源码。

[- 12 -] 高仿Android版手机QQ可拖拽未读数小气泡源码 [附件下载]

[链接] http://www.52im.net/thread-922-1-2.html

[摘要] 本文分享的源码高仿了手机QQ的这个效果，希望可以为有相同需求的IM开发者同行节省点撸码时间。

[- 13 -] 一个WebSocket实时聊天室Demo：基于node.js+socket.io [附件下载]

[链接] http://www.52im.net/thread-516-1-2.html

[摘要] 本文将基于HTML5规范中的WebSocket技术，使用Node.js和Socket.io（关于Socket.io介绍，请参见《Socket.IO介绍：支持WebSocket、用于WEB端的即时通讯的框架》）来实现一个可用于Web端的简易实时聊天室，源码可从文末附件中下载到。

[- 14 -] Android聊天界面源码：实现了聊天气泡、表情图标(可翻页) [附件下载]

[链接] http://www.52im.net/thread-409-1-2.html

[摘要] Android聊天界面源码：实现了聊天气泡、表情图标。

👉52im社区本周新文：《即时通讯安全篇（十四）：网络端口的安全防护技术实践》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-05-08 12:24 Jack Jiang 阅读(110) | 评论 (0) | 编辑收藏

即时通讯安全篇（十四）：网络端口的安全防护技术实践

摘要: 本文由vivo互联网技术Peng Qiankun分享，原题“vivo 网络端口安全建设技术实践”，本文进行了排版和内容优化等。1、引言随着互联网业务的快速发展，网络攻击的频率和威胁性也在不断增加，端口是互联网络通信中的门户，它是数据进出的必经之路，因此端口安全也逐渐成为了企业内网的重要防线之一。然而网络端口因其数量庞大、端口开放和关闭的影响评估难度大，业务影响程度高、以及异... 阅读全文

posted @ 2024-05-06 12:35 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

长连接网关技术专题(十一)：揭秘腾讯公网TGW网关系统的技术架构演进

本文由腾讯技术团队peter分享，原题“腾讯网关TGW架构演进之路”，下文进行了排版和内容优化等。

1、引言

TGW全称Tencent Gateway，是一套实现多网统一接入，支持自动负载均衡的系统，是公司有10+年历史的网关，因此TGW也被称为公司公网的桥头堡。

本文从腾讯公网TGW网关系统的应用场景、背景需求讲起，重点解析了从山海1.0架构到山海2.0架构需要解决的问题和架构规划与设计实现，以及对于未来TGW山海网关的发展和演进方向。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4641-1-1.html）

2、专题目录

本文是专题系列文章的第11篇，总目录如下：

3、TGW网关系统的重要性

TGW全称Tencent Gateway，是一套实现多网统一接入、支持自动负载均衡的系统，是公司有10+年历史的网关，因此TGW也被称为公司公网的桥头堡。它对外连接了各大运营商并支撑公有云上EIP、CLB等产品功能，对内提供了公网网络的接入功能，如为游戏、微信等业务提供公网接入服务。

TGW主要有两大产品：

1）弹性EIP（比如购买一台虚拟机CVM或是一个NAT实例后，通过EIP连通外网）；
2）四层CLB。

四层CLB一般分为内网CLB和外网CLB：

1）内网CLB是在vpc内创建一个CLB实例，把多个CVM服务挂在了内网CLB上，为后端RS提供负载均衡的能力；
2）外网CLB面对的是公网侧负载均衡的需求。

当在内部部署CLB集群时，可分为IPV4或者IPV6两大类，根据物理网络类型又细分为BGP和三网两类。三网指这些IP地址是静态的，不像BGP一样能够在多个运营商之间同时进行广播。

以上就是四层TGW产品及功能，山海网关在原有产品基础上做了网络架构方面的演进。

4、Region EIP的引入

具体介绍下EIP和CLB两个产品。

过去CLB和EIP使用不同的IP地址池，导致资源池上的隔离问题。使得我们无法把EIP地址绑定到公有云CLB实例上。

例如：一个创业公司最初只购买一台虚拟机并挂载一个公网EIP来提供服务。随着用户量的增长，如果想将这个EIP地址迁移到一个公网CLB实例上，在原有架构下是无法实现这种迁移的。

此外：EIP和CLB部署在每个机房，因此在每个机房都需要建立EIP出口。但是各个机房的公网出口之间缺无法相互容灾。

所以这种情形下，我们确定了产品的目标：

1）希望将所有公网出口整合到一到两个机房之内，以避免重复建设，节省成本；
2）通过将出口集中，我们可以将对应的网关服务器也进行集中，进而提高设备的利用率；
3）通过这样的布局可实现跨机房的容灾方案。

因此：最早的Region EIP（REIP）计划应运而生。

以北京这类大型region为例的：我们将EIP专区建设到位于两个城市的超核机房。这两个机房通常会放置物理网络的交换设备，并为各自设立了一个REIP专区。在REIP专区内部署Region EIP集群。为了实现跨AZ容灾，两个机房的集群之间借助大小网段实现互相备份容灾的能力。一旦其中一个机房的集群发生故障或出现网络问题，另一个机房的集群可以立即承担起容灾任务。

同时：因为新的Region EIP的网络架构跟原来的网络架构不一样，通过网络架构升级以及机型升级，我们能够把单台Region EIP的性能做到原有单台EIP性能的5倍。这样我们通过容量的提升进一步提升了设备利用率，在完成全量Region EIP后，设备数量会从3000+台缩减至700+台。同时原有的CLB集群还保留在各个机房不变，这些CLB集群的外网接入能力由Region EIP承担。

5、公网CLB的演进

5.1概述

公网CLB最早是有公网接入能力的。引入到Region EIP之后，当初设想是公网CLB不再演进，尽量让存量用户迁移到另外一种形式，上层是Region EIP，下层是内网CLB。用户先买一个内网CLB，如果需要对公网提供服务就再买一个弹性EIP，把EIP跟内网CLB绑定在一起，提供CLB公网的能力，替代原有的公网CLB，这是最早公网CLB的替代方案。

两个方案的区别是：原有公网CLB，用户仅看到一个CLB实例。新的模式下，用户看到的是两个实例：一个EIP+一个内网CLB，两个实例都可以独立运营管理。这就是我们最早的两层架构设想，想把公网CLB跟外网解耦。

但是，真正去跟用户或产品交流时，这个想法遇到了比较大的挑战：

1）用户体验的改变：以前公网CLB用户看到是一个实例，但是现在用户看到两个实例，必然会给用户带来一些适配工作。比如用户进行创建、管理实例时，API不一样了。以前使用通过自动化脚本创建公网CLB实例的，现在脚本还要改变去适配新的API。

2）用户习惯改变：以前用户习惯在一个实例下，点击页面，就能够查看流量、链接数等监控信息。现在EIP流量需要到REIP查看，而链接数还需在CLB产品上看。

3）存量客户无法迁移：原来客户买的公网CLB实例，是无法直接无感知迁移到内网CLB+REIP这种新形式的。

在这些挑战下，这个替代方案没能真正落地。结合用户的要求，我们最终跟产品定下的策略是：公网CLB保持不变。原有的公网CLB继续保留，同时如果用户新增的公网CLB需求，也要继续支持。

5.2公网CLB模型

那么，公网CLB到底怎么演变？

我们的初衷并不是把公网CLB这个产品摒弃掉，而是要收敛公网入口。所以我们针对这个初始需求，提出了上面这个两级架构模型。

首先：用REIP将公网流量先引进来，再将这个流量通过隧道报文的形式转发给原有的公网CLB集群，这样公网CLB不需要原有外网接入的能力，不需要再跟外网打交道，可以演变成只在机房内部的集群；同时因为公网CLB的流量都会经过REIP，REIP自然也就是公网CLB的流量入口。从而达到我们最初收敛公网入口的目的。这样的架构升级，可实现用户无感知。架构升级切换过程中，用户在访问公网CLB，不会出现卡顿或者重连的现象。

这个架构模型也有一定的局限性的。公网CLB实例只能承载公网的流量，无法像上文提到的两层RERP+CLB那样，内外网随时进行转化。REIP+CLB实例中的CLB既承载内网侧CLB的流量，又承载公网侧CLB的流量。

6、山海架构 1.0

借助这个两级架构模型，我们能够把公网CLB保留下来，并且通过REIP把公网入口收敛。

进一步思考并完善，我们提出了下面的想法：跟产品进行解耦。

以前我们一个地区上线公网CLB产品，底层就要搭建有一个公网CLB的集群去支持。用户需要内网CLB服务，就要对应搭建个内网CLB的集群。底层集群类型跟产品是强耦合，有IPv4/IPv6，公网/内网、BGP/三网组合出的多个产品形态。

这种模式在小地域部署，因为产品业务的流量小，集群利用率低，就会造成很大的成本压力。

为了应对这种小带宽低成本的诉求，我们将CLB+REIP的模型进一步抽象，引入山海架构：我们只建设CLB和REIP两类集群。通过这两类集群上的不同实例组合，满足多个产品形态的要求。从而实现产品形态和底层物理网络集群类型解耦。

解耦合的方式是：CLB和REIP通过不同的实例类型，组合出不同的产品形态。

山海架构在TGW内部做闭环，不涉及到产品侧和用户侧的改动。整个过程升级，对产品侧不做任何接口上的更新。因为产品侧的API接口保持不变，对用户侧就可以做到完全无感知。在产品侧保持不变，就需要我们在内部管控，识别接入用户实例是哪种形态的产品，拆分成不同形式的CLB和REIP的实例。其他的相关功能的比如流量统计、限速等模块也都要适配不同的产品形态，通过模块的适配，做到山海架构对上层产品侧应用的透明。

山海架构1.0归纳起来有两个重点：收敛公网入口和集群类型归一。

1）REIP：部署在城核机房，同时承载的是CLB和REIP两类产品的公网流量。之前EIP，在物理网络上有BGP+三网、v4/v6等多种集群类型。REIP借助vlan的隔离支持，把所有的网络类型都集中到一种REIP集群上来，我们称之为全通集群。在物理网络层面实现网络类型的归一，然后再通过软件层的适配，实现REIP支持多通类型的网络接入能力。

2）CLB：在山海两级架构下，REIP集群处理公网侧的各种场景组合，CLB集群通过隧道与REIP处理公网流量。之前一个机房如果要把所有的产品能力支持起来，大概有7种集群类型。现在CLB集群可以用一种集群类型来支持所有的产品的公网CLB产品，以及内网CLB产品的能力。我们把三网+BGP以及内外网还有V4V6等集群类型都用一种类型来支持，山海架构完全落地后，开区的最小服务器数量可以降低到8台服务器，来承载所有的EIP和CLB产品需求。

归纳起来一句话：对于用户来说，产品形态没有改变，用户使用习惯也没有改变。而在底层，我们把集群类型收敛到一个CLB集群和一个REIP集群上。

7、山海架构1.0限速技术

在山海架构演进中，有许多技术点，本文选取限速技术进行分享。

首先Region EIP支持三网。以前BGP跟三网分开独立支持，山海网关统一用Region EIP支持。Region EIP本身的网络架构分成两个机房，每个机房放4台TGW设备，每个EIP只会走左边或者右边。一个EIP进来的流量经过上面这层交换机时，经过了ECMP分流，然后分到了4台设备上。这样对每个EIP其实是采用了分布式限速。

限速有两个要求：

1）精确性，限速上下浮动要小，要限得准；
2）要有容灾能力。

限速最极端的精准就是把它放到单点上去做限速，但是单点限速就会面临单点故障和容灾的问题。在X86服务器上，使用的是分布式限速，一个EIP均分到4台服务器上，每五秒钟做一次流量的的汇总统计，通过流量比例计算将这个EIP的带宽配额，重新分配并分发到4台设备上，以此来实现集群上的限速。在单台设备上，也是没隔一段时间，就重新计算配额并分配到每个CPU核上，我们目前用的是300毫秒周期。

需要说明的是：在限速的实现上，业务有多重实现方式，我们了解到有的实现的是静态分配，比如120兆的带宽，4台设备，我们每台设备分40M(三分之一)的带宽。1/3而不是1/4的带宽，目的是防止某一台设备断了之后，用户总带宽不达标，影响用户体验。在单台设备上限速，也有另外一种实现方式，大小桶。比如限速1M的带宽，那么每个核第一次取回100K或者200K配额。后续报文处理时候，先消耗上次取回的配额，如果带宽配额消耗光了，再重新取。周期调整跟大小桶这两种实现方式各有优缺点。从资源消耗来说，300毫秒周期的资源消耗相对会更少一些，两者大概有10%左右的性能偏差。

限速上另一诉求：小带宽的限速的精准限速。

大带宽比如100兆，分到每个核上相对富裕。小带宽如一M带宽，一秒钟100k字节等，分到四台机器再分到几十个核上，每个核都可能不到一个大报，这时候再去做精准限速就会非常困难，因为既然要提前分配资源，资源那么少，分配到单核上，可能一个包都过不去，但凡有一个报文过去了，又可能超了。所以在小带宽限速时，我们把它退化成类似于单点限速的模式。由于入方向带宽最小也是100兆，因此保持原有的分布式限速不变。只对出方向小带宽，使用单点限速。方案是这样的：

每台REIP有自己一个独享的内网地址，只有这台服务器故障时候，这个地址的流量才被分发到其他三台服务器。

入方向流量被分到四台REIP服务器后，REIP处理完通过tunnel转发给母机。隧道的外层源地址，只使用其中一台REIP服务器的独享的IP地址。每个外网IP地址在挂载到集群下管理时候，就确定下来了。

母机在接受到网关发过去的流量，解析外层报文地址，并记录在本地会话表里，我们称之为母机的自学习能力。当母机侧转发出方向报文时，就只会使用本地学习并记录的外层地址去封装隧道。这样出方向的流量，就回到单台TGW设备上，实现了单点限速。

独享的内网地址本身是有容灾能力：

1）当其服务器故障了，流量就被分散到集群其他服务器，放弃单点限速；
2）当服务器被修复上线后，又可以重新变成精准的单点限速。

这样保证小带宽精准限速的同时，又避免了单点故障。

在限速过程中，还有一个问题，因为CLB集群原来的限速是在CLB集群上自己做的，引入山海之后，REIP上有限速能力，那么公网CLB的限速要不要挪到REIP上？

我们经过多次讨论，最终还是维持**这个限速在公网CLB上不变。

这里有几种场景考量：

1）内外网攻击：如果我们把它放到REIP上，这里可以扛住外网的攻击，但同时内网的攻击我们是防不住的，因为公网CLB上没有限速后，流量内网的攻击就会先把CLB上压过载，导致丢包，影响业务的稳定性。

2）有效流量的准确统计：原有架构下，从公网流量首先到达CLB，我们需要检查公网CLB上与port对应的服务是否已配置规则并启用。如果没有启用，则将报文直接丢弃且不记录为公网CLB的带宽使用量。山海架构下，如果先经过Region EIP限速，这类无服务访问流量（如恶意攻击和垃圾流量）也将占用限速资源。尽管这部分限速流量会送达至CLB集群，但由于缺乏相应服务支持，它们最终还是将被丢弃。结果导致用户带宽不及预期。比如用户购买10M带宽，实际有效运行的仅有8M流量，而其余2M被无服务流量占用了。

3）多重限速的影响：还有一个这个场景中，当Region EIP实施带宽限速后，这些流量最终可能进入公网CLB。然而，由于CLB的规格限制，例如新建连接数或并发连接数已达到上限，部分数据包可能会被丢弃。这些丢失的数据包已经消耗了购买的公网带宽，从而导致用户观察到的公网CLB流量带宽未达到预期。因此，我们保留公网CLB限速功能不变，仅进行引流调整。

8、山海架构1.0的优势

CLB产品及REIP产品，在使用山海1.0之后的几点优势。

1）CLB产品本身支持热迁移，扩容到山海热迁移，不会引起用户的断流，有助于运维做用户产品升级迭代。这方面有个典型案例，比如某台设备坏了或者发现某台设备上有问题，需要把流量迁走的时候，我们可以不用中断用户的流量的。我们了解到，以前有的竞品，因为热迁移做的不是特别完善，在设备出现问题或者是需要升级版本的时候，常选择低峰期做升级。

2）EIP在做限速的时候，在出方向时是小带宽，可以做到比较精准的限速。好处是用户做压测或测试的时，带宽不会抖动影响自己的业务的稳定性。

3）高低优先级限速。用户买一些比较小的比如10M带宽或者5M带宽，用来服务本身业务，同时也会ssh或者远程桌面登录EIP；因为一起我们是做无差别的限速丢包的话，这样会造成它本身的控制流量，如远程桌面的流量也会被丢包，造成登录的卡顿。用户需要在不超限速的前提下，优先保证远程桌面不卡，然后再提供其他的下载服务。我们把流量根据端口进行区分，比如22端口或者是远程桌面的3389端口的流量，标记为高优先级。在做限速时，只要高优先流量不超限速，就全部放行。当高优先级流量再叠加上低优先级的流量超限速时，把低优先级的流量丢掉，这样ssh访问服务器的时候能够非常顺畅。

4）山海架构上线后，基于vip粒度的调度，可以让调度更加灵活。比如原来一个集群为了节省路由条目，我们按照一个网段发路由，不是每个VIP都发路由的。山海两级架构之后，没有了这个限制，就可以按照VIP，把CLB实例调度到不同CLB集群。这样如果用户需要一个特别大规格的VIP的时候，我们可用一个集群的能力去扛用户一个VIP，从而满足超大规格实例的诉求。当然真实使用产品时，很少有客户把上百G的流量用一个VIP来承载。用户出于容灾考虑，通常不会把所有的鸡蛋放到一个篮子里。

9、山海架构 2.0

9.1概述

如前所述：山海 1.0 主要目标是整合公共网络并将所有公网出口集中在城市核心机房内。至于剩余的 CLB 群集，我们会继续将其保存在原有各机房的专区里。这是因为网关设备有其与服务器不同的网络诉求，例如普通服务器不能提供发布动态路由，并通过动态路由引流处理业务流量。

再比如：网关专区的收敛比1:1，而服务器虽然带宽也是100G，但其收敛比率往往小于1：1。

在这种情况下，我们不能简单地将 CLB 网关群集群平移放置到服务器区。因此，CLB 网关群集通常在构建每个机房时，预先规划并预留相应的网关专区。机房建设起来后，如业务量小，又会因预留资源空置造成浪费。目前专区闲置机位也是一笔较大的费用。

同时，还有一种临时扩容的需求场景，例如VIP大客户，临时会有大流量的转发需求，这时常态运营水位没法满足需要，需要调配设备做集群扩容。如果本机房的设备不够还需要跨机房搬迁，搬迁周期比较长，对我们运营压力会很大。

所以，我们希望通过山海2.0能把专区建设的空置率降下来，同时提升弹性，能够低成本的快速扩缩容。

9.2引流交换机

在山海 2.0里，我们采用了“引流交换机”。在每个机房的建设时，我们可以放置两组共四台引流交换机。

考虑到单个交换机的容量可以达到 1 T 以上，有四台交换机工作，一个机房能够承受大约 4T~ 6T 的流量峰值。这意味着后续无需再额外扩容，一次性的建设和布局就可以满足长期的需求。相比于 CLB 群集占用的机位空间，四台交换机所需的机位显著减少。

我们把原来CLB集群对外声明路由的能力放到了引流交换机上，把CLB服务器用用通用服务器区的设备来代替。考虑收敛比和容灾，不会把一个集群放到一两个机架上，会相对分散些，更不会把整个机架全部再用成CLB集群。这样CLB集群不再单独建设网关专区，引流交换机把路由声明发出去，通过隧道跟CLB设备转发流量。

9.3山海2.0的变化

我们以内网CLB为例，原来一台虚拟机访问CLB集群，CLB集群把它的流量转到对应的RS。

引入交换机之后，其进出两个方向都会有变化：入方向（访问LB方向），虚拟机的流量先被引流到了引流交换机，交换机把报文做一次封装，然后发送给对应的服务器，进行负载均衡转换。最后处理后的结果，被转发给真正的RS。原来的两跳访问变成了现在的三跳。同样反方向流量返回时，RS的流量先回到引流交换机，然后被分发到对应的LD设备上。LD处理完之后，再把报文直接转到client虚拟机上。借助引流交换机的中转，我们就能够让负载均衡的专区设备的放到普通的服务器区里。

另外：这里的CLB服务器，可以跟其他的网关包括母机复用一些相同机型的服务器，当需要扩容时，就可以使用通用服务器。而不像以前CLB既有自己独立的机型，又对服务器的物理位置有要求。有了引流交换机跟LD之间是做隧道传输，LD具体的物理位置就没有像原来一样有硬性的要求。这样CLB可以通过通用服务器区域，调配服务器。

最后一项是：原有跟REIP类似的，CLB设备做路由通告时，也是按照网段通告，有引流交换机之后，我们可以在引流交换机上去做细粒度的调度，一个VIP或是几个vip放到一个集群。还可以在引流交换机上做更细粒度的调度，如IP+port这样的五元组的粒度的调度。

10、未来展望

目前网关设备最重要也是最大的一个方向就是做高性能、硬件卸载。依赖硬件来实现高性能的转发。

网关设备分为有状态和无状态两种：

1）无状态设备就像IP转换一样，只要依据规则，任何时刻来了报文，转换出来的形式都是固定的；
2）有状态设备是需要记录TCP、 UDP状态，记录转发到后端设备，当不同的时间转发即使相同的类型的流量，它转发的目的地也不一样，转换的格式也可能不一样。

硬件卸载在有状态和无状态时，基本上用到的设备都是DPU和交换机，用到的介质几乎都是FPGA。

FPGA和ASIC本质上是一个东西，无论友商还是我们自己内部研发，更多的是FPGA上做功能，并小规模的灰度上线验证，一旦稳定下来，就转化成批量的ASIC，以此来降低成本。

DPU和交换机在无状态设备上，交换机相对更有优势，因为无状态设备对容量的要求相对小些，像EIP网关以及内部无状态的网关大多用交换机形态实现。DPU目前更多的用在母机侧，做有状态类的网络处理。当然，采用DPU不仅仅局限网络诉求，还有存储安全等其他需求。去年英特尔宣布已不再进行交换机tf芯片的演进迭代，大家对交换机的质疑会增大。

所以，也衍化了另一种方案：在一台额外的服务器中插入 DPU 网卡以实现卸载功能。

但不同方案有不同的优缺点：

1）使用交换机的最大优势在于其强大的交换性能（可达 1T或几个T及更高），可支持很大的接入容量。但是，交换机仅能是一个底座，若要扩展容量仍需依赖 FPGA 技术。

2） DPU 的优点则包括成熟的产业链、庞大的产量以及稳定的供应保障；此外，由于 DPU 在母机侧已被广泛验证和采用，许多功能的实现都相对固定。

这是两种方案各自的优缺点。

在两个产品运用负载均衡状态的交换上，业内不同的厂家也有不同的玩法，有的是交换机，有的是DPU。当前，无论是交换机还是 DPU，都依赖FPGA(ASIC)来做大容量的会话管理，同时越来越多的设备或多或少的支持P4。在 X86 上进行编程时，通常选择 DPDK。

相较之下：使用 P4 进行编程的门槛较低。P4 编写一般功能需求的代码非常简单快捷，只需一两周时间即可完成，甚至对于熟练者来说，可以在几个小时就开发出一个小功能。虽然充分发挥硬件的性能，P4类芯片还需要进行很深入细节的研究，但P4还是大大降低了数据面编程的门槛，特别是在高性能转发的需求方面。

另一个特点是：小型化。大家过去比较关注数据中心和海量数据的优化问题，随着业务发展，逐步转向降低运营成本和提高效率的场景，开设小型站点。这类小型站点，是典型的“麻雀虽小，五脏俱全”，希望用尽量少的设备成本来满足各种功能需求。所以我们将设备设计为具有较小规格的产品系列，并在易用性上进行改进，通过集群合并、虚拟机等承担更多的任务负载。这样在业务规模和流量不大，也能以较少的资源应对较高的功能性需求。一旦业务规模扩大，我们可将这些小型站点升级为传统的数据中心级物理设备。

以上未来网关两个主要的方向。

11、相关资料

[1] IPv6技术详解：基本概念、应用现状、技术实践（上篇）

[2] 网络编程入门从未如此简单(三)：什么是IPv6？漫画式图文，一篇即懂！

[3] 网络编程懒人入门(十五)：外行也能读懂的网络硬件设备功能原理速成

[4] 脑残式网络编程入门(六)：什么是公网IP和内网IP？NAT转换又是什么鬼？

[5] 脑残式网络编程入门(七)：面视必备，史上最通俗计算机网络分层详解

[6] 以网游服务端的网络接入层设计为例，理解实时通信的技术挑战

[7] 百度统一socket长连接组件从0到1的技术实践

[8] 淘宝移动端统一网络库的架构演进和弱网优化技术实践

[9] 百度APP移动端网络深度优化实践分享(二)：网络连接优化篇

[10] 新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践

[11] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

（本文已同步发布于：http://www.52im.net/thread-4641-1-1.html）

posted @ 2024-04-18 11:06 Jack Jiang 阅读(126) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.5版已发布

关于MobileIMSDK

MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持UDP 、TCP 、WebSocket 三种协议，支持iOS、Android、H5、小程序、Uniapp、标准Java平台，服务端基于Netty编写。

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v11.5 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容：

1）[bug] 解决了“@”提醒在客户端新消息时未持久化的问题；
2）[bug] 解决了首页“一键已读”功能不清除“@”提醒标记的问题；
3）[bug] 解决了消息转发时，“最近消息”列表中的表情内容没有被转义成表情图标的问题；
4）[bug] 解决了查看iOS端发的引用的文件消息时，无法跳转到文件下载界面的问题；
5）[bug] 解决了查看iOS端发的引用的短视频消息时，无法跳转到短视频下载界面的问题；
6）[升级] 提升targetSdkVersion至34，全面兼容Android 14；
7）[升级] 解决了绑定前台服务在Android 14中崩溃的问题；
8）[升级] 升级权限管理框架XXPermissions至18.62，全面兼容Android 14；
9）[升级] 其它基础库升级等。

（2）服务端主要更新内容：

1）[bug] 修复一处跟RainbowChat-Web产品联合部署时，Web端无法成功加载历史记录的问题；
2）[升级] 升级了包括log4j2等在内的一些基础库版本；
3）[升级] 优化了iOS离线推送时苹果手机端的桌面未读数角标显示；

部分功能运行截图（更多截图点此查看）：

posted @ 2024-04-17 11:51 Jack Jiang 阅读(143) | 评论 (0) | 编辑收藏

即时通讯技术文集（第36期）：《跟着源码学IM》系列专题 [共12篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第36 期。

[-1-] 跟着源码学IM(一)：手把手教你用Netty实现心跳机制、断线重连机制

[链接] http://www.52im.net/thread-2663-1-1.html

[摘要] 说到用Netty来开发IM或推送系统，以一个生产级产品的标准来说，最基本的心跳机制、断线重连机制肯定得有吧？好，如果你还不清楚这些，那就看看本文吧！

[-2-] 跟着源码学IM(二)：自已开发IM很难？手把手教你撸一个Andriod版IM

[链接] http://www.52im.net/thread-2671-1-1.html

[摘要] 本文适合没有任何即时通讯（IM）开发经验的小白开发者阅读，文章将教你从零开始，围绕一个典型即时通讯（IM）系统的方方面面，手把手为你展示如何基于Netty+TCP+Protobuf来开发出这样的系统。非常适合从零入门的Android开发者。

[-3-] 跟着源码学IM(三)：基于Netty，从零开发一个IM服务端

[链接] http://www.52im.net/thread-2768-1-1.html

[摘要] “文适合IM新手阅读，但最好有一定的网络编程经验，必竟实践性的代码上手就是网络编程。如果你对网络编程，以及IM的一些理论知识知之甚少，请务必首先阅读：《新手入门一篇就够：从零开发移动端IM》，该文为IM小白分类整理了详尽的理论资料，请按需补充相关知识。

[-4-] 跟着源码学IM(四)：拿起键盘就是干，教你徒手开发一套分布式IM系统

[链接] http://www.52im.net/thread-2775-1-1.html

[摘要] 本文记录了我开发的一款面向IM学习者的 IM系统——CIM（全称：CROSS-IM），同时提供了一些组件帮助开发者构建一款属于自己可水平扩展的 IM。

[-5-] 跟着源码学IM(五)：正确理解IM长连接、心跳及重连机制，并动手实现

[链接] http://www.52im.net/thread-2799-1-1.html

[摘要] 本文正好借着在CIM系统中有这样两个需求（CIM是本文作者从零开发的一个学习性质的IM系统，详见《拿起键盘就是干：跟我一起徒手开发一套分布式IM系统》），正好来聊一聊我是如何理解IM长连接的心跳及重连机制，以及又是怎么踩坑已及填坑的。

[-6 -] 跟着源码学IM(六)：手把手教你用Go快速搭建高性能、可扩展的IM系统

[链接] http://www.52im.net/thread-2988-1-1.html

[摘要] 本文适合有一定网络通信技术基础的IM新手阅读。如果你对网络编程，以及IM的一些理论知识知之甚少，请务必首先阅读：《新手入门一篇就够：从零开发移动端IM》，按需补充相关知识。

[-7-] 跟着源码学IM(七)：手把手教你用WebSocket打造Web端IM聊天

[链接] http://www.52im.net/thread-3483-1-1.html

[摘要] 本文将基于Tomcat和Spring框架实现一个逻辑简单的入门级IM应用，对于即时通讯初学者来说，能找到一个简单直接且能顺利跑通的实例代码，显然意义更大，本文正是如此。希望能给你的IM开发和学习带来启发。

[-8-] 跟着源码学IM(八)：万字长文，手把手教你用Netty打造IM聊天

[链接] http://www.52im.net/thread-3489-1-1.html

[摘要] 上篇《跟着源码学IM(七)：手把手教你用WebSocket打造Web端IM聊天》中，我们使用 WebSocket 实现了一个简单的 IM 功能，支持身份认证、私聊消息、群聊消息。然后就有人发私信，希望使用纯 Netty 实现一个类似的功能，因此就有了本文。

[-9 -] 跟着源码学IM(九)：基于Netty实现一套分布式IM系统

[链接] http://www.52im.net/thread-3789-1-1.html

[摘要] 接下来的内容，我会为你介绍如何开发一个IM的方方面面，包括系统架构、通信协议、单聊群聊、表情发送、UI事件驱动等，以及全套的实践源码让你可以上手学习。

[-10-] 跟着源码学IM(十)：基于Netty，搭建高性能IM集群（含技术思路+源码）

[链接] http://www.52im.net/thread-3816-1-1.html

[摘要] 本文将根据笔者这次的业余技术实践，为你讲述如何基于Netty+Zk+Redis来搭建一套高性能IM集群，包括本次实现IM集群的技术原理和实例代码，希望能带给你启发。

[-11 -] 跟着源码学IM(十一)：一套基于Netty的分布式高可用IM详细设计与实现(有源码)

[链接] http://www.52im.net/thread-4257-1-1.html

[摘要] 本文将要分享的是如何从零实现一套基于Netty框架的分布式高可用IM系统，它将支持长连接网关管理、单聊、群聊、聊天记录查询、离线消息存储、消息推送、心跳、分布式唯一ID、红包、消息同步等功能，并且还支持集群部署。

[-12 -] 跟着源码学IM(十二)：基于Netty打造一款高性能的IM即时通讯程序

[链接] http://www.52im.net/thread-4530-1-1.html

[摘要] 原本打算做个多人斗地主练习程序，但那需要织入过多的业务逻辑，因此一方面会带来不必要的理解难度，让案例更为复杂化，另一方面代码量也会偏多，所以最终依旧选择实现基本的IM聊天程序，既简单，又能加深对Netty的理解。

👉52im社区本周新文：《微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗》《移动端IM产品RainbowChat[专业版] iOS端 v9.0版已发布！》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-04-12 12:06 Jack Jiang 阅读(80) | 评论 (0) | 编辑收藏

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

本文由微信技术团队分享，原题“十年前的微信消息收发架构长啥样？”，下文进行了排版和内容优化等。

1、引言

2023 年，微信及 WeChat 的 DAU（月活用户）达到 13.4 亿，微信已经是很多人工作、生活中不可或缺的一个环节。从 2011 年 1 月 21 日上线至今，微信已经走过了 13 个年头，其背后的技术基座与架构也发生了巨大的变化。这些变化背后，所折射的也正是中国互联网高速发展的黄金年代。

好的架构是迭代出来的，却也少不了良好的设计，本文将带大家回顾微信背后最初的也是最核心的IM消息收发技术架构，愿各位读者能从中获得启发。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4636-1-1.html）

2、微信技术起步

微信诞生于 QQMail 团队，初始的整个微信后台架构都带着浓重的邮箱气息，消息收发架构作为微信最为核心的部分，同样是基于邮箱的存储转发机制演变而来。

微信定位为即时通讯IM软件，对消息的收发有2个基本的要求：

1）消息尽可能的实时送达；
2）不丢消息。

在邮箱的存储转发机制上做了改良后，微信的消息收发实现了以上2个基本要求。

3、消息发送架构

首先通过手机 A 给手机 B 发送一条微信消息来看消息发送的整体架构是怎样的（如下图所示）。

微信消息发送在整体架构上可以分为2个部分。

第一部分：手机A发送消息到服务器（上图中1、2、3部分）：

1）1 - 手机A发送发消息请求到接入层 ConnnectSvr；
2）2 - 接入层收到请求后，将请求转到逻辑层 SendSvr 进行处理；
3）3 - 逻辑层处理完各种逻辑（如反垃圾，黑名单等等）之后，将消息存入存储层 MsgStore。

第二部分：服务器发送通知到手机B（上图中4、5.1、5.2、6、7部分）：

1）4 - 逻辑层 SendSvr 将给手机 B 的新消息到达通知发送到通知处理服务器 PushSvr。

2）5.1 - PushSvr 查询手机 B 在接入层所在长连接的 ConnectSvr，并将通知发给该 ConnectSvr。

3）5.2 - PushSvr 发送一个 Push tips 给手机操作系统自建的第三方 Push 系统（如苹果的 APNsPush，微软的 WPPush，黑莓的 BBPush 等）。像苹果的 IOS 系统，在 APP 退出到后台10分钟后就会释放掉该 APP 所持有的所有资源（如 CPU，网络，内存等），导致之前建立的长连接通道也会一并断掉，此时通过5.1的方式进行通知是不可达的，所以还需要依赖与苹果自身的 apns 通道来达到实时通知的目的。

4）6 - 接入层 ConnnectSvr 通过手机 B 建立的长连接通道将新消息达到通知发送给手机 B。

5）7 - 第三方 Push 服务器通过自建的 Push 通过发送 Push tips 到手机 B。

4、消息接收架构

手机 B 在收到新消息到达通知后进行消息收取的整体架构如下图所示：

消息收取的流程主要分为3个步骤：

1）手机 B 发起收取消息的请求到接入层服务器 ConnnectSvr；
2）接入层服务器 ConnnectSvr 接到请求后转给逻辑层服务器 ReceiveSvr 进行处理；
3）ReceiveSvr 从存储层 MsgStore 中获取到需要下发的消息。

5、消息收发架构小结

在上述第4、5两节中分享的消息收发架构保障之下，微信可以保证手机 A 在发出消息 100ms 级别内让手机 B 收取到该条消息。

当然，对于退出后台的苹果 iOS 的微信用户，在苹果的 APNs 服务器正常的情况下，也可以保证在秒级别内通知到手机 B 点开 APP 进入前台来收取消息。

6、消息防丢失机制

虽然消息收发架构保证了消息收发双方能够及时收发消息，但该架构不能保证消息在传输过程中不发生丢弃。

当然为了达到任意一条消息都不丢的状态，最简单的方案是手机端对收到的每条消息都给服务器进行一次 ack 确认，但该方案在手机端和服务器之间的交互过多，并且也会遇到在弱网络情况下 ack 丢失等问题。

为了完美的做到消息不丢，微信消息系统对消息收发引入了 sequence 机制。

PS：感兴趣的话，以下是更多与IM消息送达保证有关的文章，可以一并阅读：

7、消息防丢失机制技术实现

7.1sequence 机制

1）每个用户都有42亿的 sequence 空间（从1到 UINT_MAX），从小到大连续分配；
2）每个用户的每条消息都需要分配一个 sequence；
3）服务器存储有每个用户已经分配到的最大 sequence；
4）手机端存储有已收取消息的最大 sequence。

PS：微信sequence序列号生成的具体算法和实现详见《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》。

7.2消息收取sequnece确认机制

当服务器和手机端都拥有了一个 sequence 之后，服务器和手机端之间就可以根据两者 sequence 的差异来收取消息，同时保证手机端未收取下去的消息最终能够收取下去。

具体流程如下图表示：

1）根据服务器和手机端之间 sequence 的差异，可以很轻松的实现增量下发手机端未收取下去的消息。

2）对于在弱网络环境差的情况，丢包情况发生概率是比较高的，此时经常会出现服务器的回包不能到达手机端的现象。由于手机端只会在确切的收取到消息后才会更新本地的 sequence，所以即使服务器的回包丢了，手机端等待超时后重新拿旧的 sequence 上服务器收取消息，同样是可以正确的收取未下发的消息。

3）由于手机端存储的 sequence 是确认收到消息的最大 sequence，所以对于手机端每次到服务器来收取消息也可以认为是对上一次收取消息的确认。一个帐号在多个手机端轮流登录的情况下，只要服务器存储手机端已确认的 sequence，那就可以简单的实现已确认下发的消息不会重复下发，不同手机端之间轮流登录不会收到其他手机端已经收取到的消息。

如上图4所示：假如手机 A 拿 Seq_cli = 100 上服务器收取消息，此时服务器的 Seq_svr = 150，那手机 A 可以将 sequence 为[101 - 150]的消息收取下去，同时手机 A 会将本地的 Seq_cli 置为150。

如上图5所示：手机 A 在下一次再次上来服务器收取消息，此时 Seq_cli = 150，服务器的 Seq_svr = 200，那手机 A 可以将 sequence为[151 - 200]的消息收取下去。

如上图6所示：假如原手机 A 用户换到手机 B 登录，并使用 Seq_cli = 120 上服务器收取消息，由于服务器已经确认 sequence <= 150 的消息已经被手机收取下去了，故不会再返回 sequence 为[121 - 150]的消息给手机 B，而是将 sequence 为[151 - 200]的消息下发给手机 B。

这里虽然 sequence 为[151 - 200]的消息有可能是被手机 A 和手机 B 都收取到，但由于手机 A 在收到 sequence 为[151 - 200]的消息时并没有给服务器进行确认或者这些消息手机 A 压根就没有收取到，所以为了防止消息丢失，sequence 为[的消息也是需要下发给手机 B 的。

8、本文小结

以上简单文字描述的就是微信最初的IM消息收发的架构。

该架构实现了即时通讯软件对消息收发所需的两个基本要求：

1）消息尽可能的实时送达；
2）不丢消息。

以上：是 2014 年微信古早时期的消息收发架构的基本介绍，时过境迁，微信的消息收发架构已经发生了巨大的变化，但我们还是可以从中看到技术演变的价值与力量。

程序员最大的成就与幸福，或许就是自己的代码跑在千万人的设备上，默默支撑着海量的需求。

9、参考资料

[1] iOS的推送服务APNs详解：设计思路、技术原理及缺陷等

[2] 了解iOS消息推送一文就够：史上最全iOS Push技术详解

[3] 消息推送技术干货：美团实时消息推送服务的技术演进之路

[4] 微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）

[5] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[6] 一套亿级用户的IM架构技术干货(上篇)：整体架构、服务拆分等

[7] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等

[8] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[9] 一套分布式IM即时通讯系统的技术选型和架构设计

[10] 从客户端的角度来谈谈移动端IM的消息可靠性和送达机制

[11] IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递

[12] IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

[13] 零基础IM开发入门(一)：什么是IM系统？

[14] 理解IM消息“可靠性”和“一致性”问题，以及解决方案探讨

[15] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制

10、微信团队的其它文章

《还原真实的腾讯：从最不被看好，到即时通讯巨头的草根创业史》