<a id="Header1_HeaderTitle" class="headermaintitle" href="http://www.blogjava.net/jb2011/">Jack Jiang

《开发往事：深度讲述2010到2015，微信一路风雨的背后》

《开发往事：微信千年不变的那张闪屏图片的由来》

《开发往事：记录微信3.0版背后的故事（距微信1.0发布9个月时）》

《一个微信实习生自述：我眼中的微信开发团队》

《首次揭秘：QQ实时视频聊天背后的神秘组织》

《为什么说即时通讯社交APP创业就是一个坑？》

《QQ现状深度剖析：你还认为QQ已经被微信打败了吗？》

《QQ的成功，远没有你想象的那么顺利和轻松》

《QQ和微信止步不前，意味着即时通讯社交应用创业的第2春已来？》

《还原真实的腾讯：从最不被看好，到即时通讯巨头的草根创业史》

《QQ设计团队分享：新版 QQ 8.0 语音消息改版背后的功能设计思路》

《微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！》

posted @ 2025-02-05 11:47 Jack Jiang 阅读(144) | 评论 (0) | 编辑收藏

社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践

本文为CSDN的《程序员》杂志原创文章，下文有修订和改动”。

1、引言

南方企业一直有过年找老板“逗利是”的习俗，每年春节后开工的第一天，腾讯大厦都会排上长长的队伍，集体上楼找老板们领红包。按照广东习俗，已经结婚的同事也要给未婚同事发红包，这一天腾讯员工就在春茗和寻找红包中度过。

由此孵化了一个内部项目，通过微信来收发红包，把这个公司全员娱乐活动与最活跃的IM平台微信结合起来。最初这个项目并没有预期对外，但是入口不小心开放后，成为了现象级产品。2014年开始爆发性增长，每年的发放量都是上一年的若干倍。根据腾讯公布的数据，到2016年春节，已经是每秒十万次支付，每天近十亿订单的系统。

微信红包本质是小额资金在用户帐户流转，有发、抢、拆三大步骤。在这个过程中对事务有高要求，所以订单最终要基于传统的RDBMS，这方面是它的强项，最终订单的存储使用互联网行业最通用的MySQL数据库。支持事务、成熟稳定，我们的团队在MySQL上有长期技术积累。但是传统数据库的扩展性有局限，需要通过架构解决。

补充说明：本文对应的演讲PPT详见《微信红包数据架构演变(PPT) [附件下载]》。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-2568-1-1.html）

二、分享者

莫晓东：微信支付高级DBA，拥有丰富的数据架构和运维实战经验，擅长大规模MySQL数据库集群的架构、优化和高可用。2010年起在腾讯从事DBA工作，目前专注于微信社交支付的存储层运维和架构优化。

三、系列文章

❶ 系列文章目录：

《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》

《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》

《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》

《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》

《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》

《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》（* 本文）

《社交软件红包技术解密(七)：支付宝红包的海量高并发技术实践》

《社交软件红包技术解密(八)：全面解密微博红包技术方案》

《社交软件红包技术解密(九)：谈谈手Q春节红包的设计、容灾、运维、架构等》

《社交软件红包技术解密(十)：手Q客户端针对2020年春节红包的技术实践》

《社交软件红包技术解密(十一)：最全解密微信红包随机算法(含演示代码)》

《社交软件红包技术解密(十二)：解密抖音春节红包背后的技术设计与实践》

《社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元》

❷ 其它相关文章：

《QQ 18年：解密8亿月活的QQ后台服务接口隔离技术》

《月活8.89亿的超级IM微信是如何进行Android端兼容测试的》

《开源libco库：单机千万连接、支撑微信8亿用户的后台框架基石 [源码下载]》

《微信技术总监谈架构：微信之道——大道至简(演讲全文)》

《微信技术总监谈架构：微信之道——大道至简(PPT讲稿) [附件下载]》

《如何解读《微信技术总监谈架构：微信之道——大道至简》》

《微信海量用户背后的后台系统存储架构(视频+PPT) [附件下载]》

《微信异步化改造实践：8亿月活、单机千万连接背后的后台解决方案》

《微信朋友圈海量技术之道PPT [附件下载]》

《架构之道：3个程序员成就微信朋友圈日均10亿发布量[有视频]》

《快速裂变：见证微信强大后台架构从0到1的演进历程（一）》

《快速裂变：见证微信强大后台架构从0到1的演进历程（二）》

《微信“红包照片”背后的技术难题》

《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》

《微信技术分享：微信的海量IM聊天消息序列号生成实践（容灾方案篇）》

4、前端流量控制

发十亿红包，难在哪里？

1）大量用户在同一时间发抢红包，瞬间产生每秒数万次的请求，除夕可能成百千万次；
2）这个量级的请求如果不加以疏导处理直接到达后台，必定会导致后端服务过载甚至崩溃。

主要思路是缩短关键业务流程，分离可以通过异步、缓存等方式解决的问题，减轻系统压力，加快响应速度，在存储层前面建上一座大坝。

CGI无状态：

接入层无状态，逻辑层也无状态，可以方便地水平扩展。但依赖MySQL事务保证交易完整，保证红包系统的精简，减少瓶颈的存在。

资源静态化：

利用腾讯强大的基础资源优化部署，尽量把动态内容转为静态资源。静态资源和CGI分离，静态资源通过CDN就近接入，减少用户和CGI的交互，减少内网、访问延时和数据请求。

业务流程异步化：

微信红包的发、抢、拆背后都有多个内部环境，关键流程精简，非关键流程和后续业务逻辑进入异步队列进行处理，减少了用户的等待时间，也极大降低了峰值雪崩的概率。繁多的非关键链路也不会影响到主流程。

过载保护：

前端保护后端，能在前端处理，就不传递到后端：

1）前端需要按后端能力做削峰限流；
2）客户端、接入层、逻辑层逐层控制流量；
3）前端更容易容错处理，全力保护存储层。

微信的过载保护在客户端已提前预埋了策略，在连接失败或超时情况下会有相应提示，减少用户重复请求次数。接入层针对频繁发出请求的客户端限制响应速度，并对系统负载划分出若干等级，达到不同阈值时引导客户端使用不同限速速率；在异常情况出现时，异步限流降速减轻服务器端压力防止过载。

多级读缓存：

发一个群红包，抢红包的请求量远大于发红包，如果已经领过完全可以拒绝。逻辑层增加缓存，类似可以缓存的请求都缓存起来，进一步减少存储层流量。

订单写缓存：

订单系统有很多请求不会真正完成全流量，创建这些废单不但浪费存储资源，还会挤占逻辑层和数据层的处理能力，影响其他交易。订单在完成支付前可以先落在缓存中，完成支付后再持久化。

5、存储层的高可用设计

在数百倍千倍的业务增长下，存储层很难简单无限扩容，一方面设备成倍增加的成本巨大，另一方面存储层瓶颈堆积不一定能解决问题。

读写分离：

写请求需要在主机上，实时读也需要走主机。有大量对延时不那么敏感，又影响性能的查询，完全可以放到从机。读写分离策略是MySQL分布式的入门，简洁地提高了系统容量。

水平切分：

数据的水平切分，实质就是分库分表；选取一张数据表按照主要纬度把数据拆分开。实现存储层的平行扩展。有效降低了单台数据库机器的负载，也减小了服务不可用的可能性。单台数据库宕机只会导致部分数据不能访问。主要需要考虑路由规则的选定，方便扩缩容以及数据的均衡分布。

垂直切分：

数据表除了水平切分，行内数据可以按属性进一步分开。核心表只保留最关键的字段，保证数据文件短小紧凑。以红包为例，昵称和祝福语这类较长的信息，不属于核心数据，完全可以切分到别的机器上，进一步提升核心数据库的容量。不同数据适合的存储类型也不一样，这类重复率高的长字符串更适合NoSQL存储，对存储空间和性能都是节约极大。

空间换时间：

按不同维度组织表，比如按订单属性和用户属性进行组织；适应不同的请求场景，避免复杂的查询。不同维度的表可以通过对账对齐，非核心表可以适当冗余，减少多次请求。

锁的优化：

多人争抢红包通过数据库事物来保证，必然存在竞争MySQL行锁。核心事物必须尽量精简，避免死锁。同一个订单的所有请求，尽量在逻辑层进程预排队后通过一个连接发送请求到数据库。

冷热分离：

核心数据库存放高频数据，其他数据可以定时移到成本低的冷数据库中。这样可以为核心数据库使用最好的SSD设备，快速设备容量较小较贵，不可能在全量数据上使用。同时可以保证数据表的容量不会一直积累，大表也会导致性能下降。

6、异地多活

当系统足够大时，就必须开始考虑异地部署的问题，让数据尽可能离用户更近。而且进一步的高可用不能局限在同一地域，必须跨数据中心跨城多活才能抵御系统性风险。因为跨城的几十毫秒延时，微信红包的异地活动设计为多数据中心相互独立。非灾难灰度不会将其他数据中心的数据导入到线上。

就近接入：

以微信红包系统的异步部署为例，第一个好处是用户就近接入，减少跨城的穿越流量。根据发送者的地域标志数据落地到不同数据中心，在不同地域实现业务闭环。

数据分离：

当前的网络技术限制，使用光纤也无法保证跨城数据的同步延时问题。所以微信红包的跨城数据中心并不进行数据实时同步。不同区域各自承载业务流量，地域上实现平衡，各地的订单数据各自独立存储。

异地容灾：

如果出现地域性故障，我们需要有机制去保证服务可用性。有了异步部署，假如深圳出现系统性故障，那么我们可以直接把请求接入上海。各数据中心独立部署，如果某地系统达到最大容量，可以进行跨地域分流。

7、有损服务和柔性降级

我们遇到最多的问题就是海量请求，通过分布式系统来实现海量请求，根据CAP理论不能同时保证一致性和高可用，必须有取舍。我们首先保证可用性，同时实现最终一致性。有以下原则。

有损服务：

要追求高可用性，可以牺牲部分数据一致性和完整性从而保证核心功能。在资源一定的前提下，满足用户的核心需求。微信红包的核心点是抢、拆红包，系统必须尽最大可能保证核心步骤流畅，但在瓶颈时立即降级防止引起系统雪崩。但是要保证数据能最终对齐，金融属性的系统数据安全硬要求。

柔性可用：

柔性可用是在有损服务价值观支持下的方法，结合具体场景提供不同级别的用户体验，保证尽可能成功返回关键数据。把握用户在每一个场景中的核心需求，设计不同层次满足核心诉求的办法。系统首先要实现容灾和自动切换；其次逻辑资源应该隔离；服务过载时必须自动快速拒绝。

8、结束语

本文简单介绍了微信红包的存储层服务设计准则，在业务从起步到小跑再到腾飞的过程中，背后的海量服务能力将对其最终成败有着越来越深远的影响。在互联网爆发性增长中，海量服务能力决定项目成败，必须在项目初期就做好海量服务的准备。

附录1：有关微信、QQ的文章汇总

《微信朋友圈千亿访问量背后的技术挑战和实践总结》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》

《微信团队分享：微信移动端的全文检索多音字问题解决方案》

《腾讯技术分享：Android版手机QQ的缓存监控与优化实践》

《微信团队分享：iOS版微信的高性能通用key-value组件技术实践》

《微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？》

《腾讯技术分享：Android手Q的线程死锁监控系统技术实践》

《微信团队原创分享：iOS版微信的内存监控系统技术实践》

《让互联网更快：新一代QUIC协议在腾讯的技术实践分享》

《iOS后台唤醒实战：微信收款到账语音提醒技术总结》

《腾讯技术分享：社交网络图片的带宽压缩技术演进之路》

《微信团队分享：视频图像的超分辨率技术原理和应用场景》

《微信团队分享：微信每日亿次实时音视频聊天背后的技术解密》

《QQ音乐团队分享：Android中的图片压缩技术详解（上篇）》

《QQ音乐团队分享：Android中的图片压缩技术详解（下篇）》

《腾讯团队分享：手机QQ中的人脸识别酷炫动画效果实现详解》

《腾讯团队分享：一次手Q聊天界面中图片显示bug的追踪过程分享》

《微信团队分享：微信Android版小视频编码填过的那些坑》

《微信手机端的本地数据全文检索优化之路》

《企业微信客户端中组织架构数据的同步更新方案优化实战》

《微信团队披露：微信界面卡死超级bug“15。。。。”的来龙去脉》

《QQ 18年：解密8亿月活的QQ后台服务接口隔离技术》

《月活8.89亿的超级IM微信是如何进行Android端兼容测试的》

《以手机QQ为例探讨移动端IM中的“轻应用”》

《一篇文章get微信开源移动端数据库组件WCDB的一切！》

《微信客户端团队负责人技术访谈：如何着手客户端性能监控和优化》

《微信后台基于时间序的海量数据冷热分级架构设计实践》

《微信团队原创分享：Android版微信的臃肿之困与模块化实践之路》

《微信后台团队：微信后台异步消息队列的优化升级实践分享》

《微信团队原创分享：微信客户端SQLite数据库损坏修复实践》

《腾讯原创分享(一)：如何大幅提升移动网络下手机QQ的图片传输速度和成功率》

《腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗（下篇）》

《腾讯原创分享(三)：如何大幅压缩移动网络下APP的流量消耗（上篇）》

《微信Mars：微信内部正在使用的网络层封装库，即将开源》

《如约而至：微信自用的移动端IM网络层跨平台组件库Mars已正式开源》

（本文已同步发布于：http://www.52im.net/thread-2568-1-1.html）

posted @ 2025-01-24 16:28 Jack Jiang 阅读(60) | 评论 (0) | 编辑收藏

QQ设计团队分享：手Q语音消息改版背后的功能设计思路

本文来自腾讯ISUX设计团队，下文有修订和改动。

1、引言

2019年4月16日QQ语音消息新特性突然登上微博热搜，QQ铁粉瞬间集结。是什么让129万人为QQ花式彩虹屁？为何微信却被吃瓜群众疯狂艾特？现在，让我为你揭秘QQ语音消息改版的设计旅程。

关于腾讯ISUX团队：

腾讯社交用户体验设计，简称ISUX (Internet Social User Experience)，成立于2011年1月11日，是腾讯集团核心、全球最具规模的UX设计团队，专业成员包括用户研究、交互设计、视觉设计、品牌设计、视频动画设计、UI开发、产品设计与市场研究等，至今ISUX分布于中国深圳总部、北京、上海、成都及韩国首尔。ISUX主要负责腾讯社交通讯与娱乐类产品服务的用户体验设计与研究，包括主要服务平台如QQ、QQ空间、QQ音乐、腾讯云、腾讯企点、QQ物联、腾讯课堂、兴趣部落、花样直播、全民K歌、全民影帝、企鹅FM、企鹅MV、天天P图、微云和来电等。

即时通讯网整理另一篇来自ISUX团队的文章，也可以一读：《感悟分享：在腾讯的八年，我的成长之路和职业思考》。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-2568-1-1.html）

2、回归沟通：语音消息能否更方便

QQ已经陪伴了大家20年，但是我们仍然在持续思考怎样让用户的沟通更加高效。语音作为人与人之间最自然的交流方式，也不断引起我们对现有体验的反思。

是否语音消息只能采取这种经典的气泡体验？

现有的这些点击播放的语音气泡真的满足了所有用户需求吗？emm…

总结一下：发送语音一时爽，接收语音想撞墙。

针对这些用户声音，业内已有一些解决方案。但是其目标用户量和场景远没有QQ这样丰富。在此次改版中，我们回归QQ本身，探索在QQ语音消息场景中存在的那些痛点。

面对这些痛点，此次改版将需求聚焦在：

1）长语音被打断可以重听；
2）识别有效的语音片段；
3）重点语音片段反复收听。

对于QQ 8.0此次对语音消息功能的改进目标：

1）功能层面上，我们将通过提供语音的暂停和进度拖拽能力，并可视化音量，以满足语音接收者的使用效率需求；
2）在体验层面上，语音作为用户的高频沟通操作，其设计必须满足QQ8.0中精致这一设计原则，给用户带来极致体验。

3、美好体验，从第一眼开始

3.1 易学性：让功能更加直觉化

“这么简单的操作，用户试一次就知道怎么用了吧！”

QQ拥有广泛的用户群，所有功能都要尽量降低用户的学习成本。更何况由于没有其他国民级APP的相似特性可以类比，对用户来说语音进度调节不只是一个新功能，更是一种新模式。在这种背景下，功能的易学性显得尤为重要。怎样让用户一眼就明白语音消息可以暂停并拖动呢？怎样让操作更加直觉化？我们不妨从用户熟悉的事物入手，进行联想。

暂停和拖动在语音中不常见，但它却是播放器的通用功能。在播放器设计中，有三个用户行为引导的关键元素：a.按钮—播放和暂停的指示 b.游标—拖动指示 c.颜色—进度指示。本次语音气泡的设计中，我们依旧沿用了按钮、游标、色彩作为指示性元素。

但是这些元素的加入无疑会加重气泡内的信息负担。并且当同时出现多个语音气泡时，我们更加需要保证聊天页面有适当的信息密度。因此在声纹样式设计中，降噪成为了关键。在发散了多种样式后，我们最终选择了这种简约的声纹形态。它既能很好的展示进度信息，又可以平衡气泡内的信息密度，让QQ多样化的用户群都能对语音进度拖拽有更直觉化的操作。

3.2 准确or美：直观体验至上

“声纹是程序直接生成的，难道还需要设计？”

盆友，买家秀和卖家秀了解一下？

呈现准确音量的声纹无法满足我们预期中的流畅视觉体验，反而会让用户感觉到多变声纹信息带来的压力。回归设计目标，声纹是为了帮助用户识别有效语音片段，因此有声音和无声音的声纹对比很重要。这也意味着对于正常音量区间的声音，我们可以适当牺牲准确性以确保良好的视觉体验。

在收集了大量用户真实语音声纹后，我们发现最“丑”声纹来自于两类声音。一类是当用户语音连续达到最大音量时，大量声纹达到最高高度并撑满语音气泡。这种现象常发生在用户对着手机收音孔处说话的场景中。为了解决这个问题，我们将达到最大音量的声纹高度进行削减。被削减的高度按照正弦曲线做随机值，再加回到这些声纹的上方。经过这样的优化后，所有达到最高值的声纹都能够在顶部产生流畅的曲线。

另一类“丑”声纹则来自于音量忽高忽低造成的声纹高度跳变。这是由于人们说话是非连续的，会存在语气词和用户思考的沉默点。解决这个问题的关键是让高声纹和低声纹之间的落差减少。因此我们定义当相邻声纹高度差超过50%时，就对这两个声纹高度做平滑处理，保证所有音量的声纹都有流畅的过渡。

经过与产品和开发团队的多轮参数调整后，这些精心优化后的声纹可以让用户无论怎样说话都能“看到”自己最美的语音。

4、不止拖拽，更要畅快感受

4.1 更大的响应区域

“点击拖拽是常规操作，调用系统交互就好了吧？”

拖拽的确常规，但是在功能之外，我们能否让用户的操作体验更畅快呢？

畅快意味着无拘无束，翻译成交互语言就是要赋予用户更大的操作区域。但是我们的手指宽度和控件大小有时难以匹配。例如，8.0UI改版后的语音气泡高度为118px，而成人手指的宽度范围则在110px-180px。如果拖拽只能在气泡范围内进行，就意味着用户需小心翼翼地去操作。为了实现“无拘无束”的拖拽体验，我们根据用户的行为阶段对响应范围进行了两次放大。

第一次放大：开始拖动阶段，放大触发拖动的范围。拖拽事件的触发范围由气泡本身扩大到气泡的外边缘区域。

第二次放大：拖拽中，拖动行为的响应范围扩大到全屏。一旦用户触发拖拽，系统将屏蔽聊天页面的所有操作，包括右滑返回、上下滚动和页面内的所有点击操作。确保用户在手指未离开屏幕的前提下，可以在整个页面范围内控制进度拖拽。一方面用户不再需要沿着气泡的小小区域去拖拽，体验更加顺畅；另一方面这也可以减少手指对于气泡的遮挡，让用户更好的看清楚当前进度。

4.2 更合理的气泡长度变化规则

-“语音越长，气泡越长，so easy~”

气泡越长代表语音越长。但你可能没注意过，其实气泡长度是随着语音时长呈线性变化。这个本来运行良好的规则在加入了拖拽功能后却出现了问题。从灰度用户的数据来看，大部分用户的语音时长在10s以内。此时语音气泡较短，十分不易于进行拖拽。所以我们既需要短语音气泡变长，又要保证用户可以感知到气泡始终随着时长增长而变长。在气泡最大长度无法改变的前提下，必须改变原有的线性变化规律，转变为更精细的分阶段的曲线变化。

[阶段1] 斜率逐渐增加的曲线。此阶段对应着短时长语音，也是用户的高频使用场景。因此该阶段气泡长度随语音时长的增长需要更加明显；
[阶段2] 斜率逐渐减小的曲线。此阶段对应的长语音是低频场景，此时气泡长度随语音时长变化的反馈可以适当放缓；
[阶段3] 达到气泡长度最大值，不再变化。此时为超长语音阶段，用户已经不需要通过气泡长度来判断语音时长。

运用更加精细的气泡长度变化规律，让用户的高频语音消息更好拖拽。

5、懂你所需，为你设计

-“结束了吗，有没有one more thing？”

至此，语音消息的改版设计似乎已经结束，但我们对于设计的追求不止于此。语音进度调节只是语音消息体验中的一个小小功能。我们希望通过这些精致贴心的体验设计，让用户产生一种感觉——QQ懂我。因为懂你，所以希望为你的沟通做更多事情。

关于语音消息，设计团队也在发散更多贴近用户真实生活的场景：

1）更加贴近场景的体验：未来我们是否可以利用传感器检测到用户所处的环境和状态，根据不同的环境和用户行为状态，确定这些消息是以语音还是文本显示；
2）更加丰富的语音表达：语音比文本承载了更多的情感信息，基于这个属性，我们能否通过特殊声音编辑、视觉化表达、手机触感等方式，帮助发送方传达更加丰富的信息；
3）无障碍化体验：对于视障人群、运动障碍人群、老年人群体来说，语音是很好的沟通选择。我们是否能够更进一步，通过语音指令更好的协助他们使用QQ…

做最懂你的语音消息，我们还在继续。

6、未来可期：最美的QQ正在路上

QQ新版语音气泡iOS上线当天喜提微博热搜。看到用户们的花式夸奖，我们的心情美滋滋。但同时网络上也出现了一些负面的评价，这些声音也在鞭策设计团队持续打磨语音消息体验。

一花一世界，一树一菩提。语音消息气泡改版只是体验升级的第一步，但它可以折射出整个QQ8.0版本所遵循的设计原则：降噪、生机和精致。沿着这些原则，我们依旧在打造最美QQ的路上奋力前行。

什么，你还没有下载手机QQ8.0？那你岂不是没法体验到史上最简洁的QQ页面，也不能发现底部tab小惊喜了？你更没法知道我们的语音消息马上就支持<(ˉ^ˉ)><(ˉ^ˉ)><(ˉ^ˉ)>和(>▽<)(>▽<)(>▽<)两个超赞功能（顶级机密，手动打码）。

附录：更多即时通讯产品的实践总结、感悟分享

《技术往事：微信估值已超5千亿，雷军曾有机会收编张小龙及其Foxmail》

《QQ和微信凶猛成长的背后：腾讯网络基础架构的这些年》

《闲话即时通讯：腾讯的成长史本质就是一部QQ成长史》

《2017微信数据报告：日活跃用户达9亿、日发消息380亿条》

《腾讯开发微信花了多少钱？技术难度真这么大？难在哪？》

《技术往事：创业初期的腾讯——16年前的冬天，谁动了马化腾的代码》

《技术往事：史上最全QQ图标变迁过程，追寻IM巨人的演进历史》

《开发往事：深度讲述2010到2015，微信一路风雨的背后》

《开发往事：微信千年不变的那张闪屏图片的由来》

《开发往事：记录微信3.0版背后的故事（距微信1.0发布9个月时）》

《一个微信实习生自述：我眼中的微信开发团队》

《首次揭秘：QQ实时视频聊天背后的神秘组织》

《为什么说即时通讯社交APP创业就是一个坑？》

《QQ现状深度剖析：你还认为QQ已经被微信打败了吗？》

《QQ的成功，远没有你想象的那么顺利和轻松》

《QQ和微信止步不前，意味着即时通讯社交应用创业的第2春已来？》

《还原真实的腾讯：从最不被看好，到即时通讯巨头的草根创业史》

《QQ设计团队分享：新版 QQ 8.0 语音消息改版背后的功能设计思路》

《微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！》

posted @ 2025-01-21 16:08 Jack Jiang 阅读(125) | 评论 (0) | 编辑收藏

社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的

本文来自微信团队工程师方乐明的技术分享，由InfoQ编辑发布，下文有修订和改动。

一、引言

微信红包业务量级的高速发展，对后台系统架构的可用性要求越来越高。在保障微信红包业务体验的前提下，红包后台系统进行了一系列高可用方面的优化设计。

本次分享介绍了微信红包后台系统的高可用实践经验，主要包括后台的 set 化设计、异步化设计、订单异地存储设计、存储层容灾设计与平行扩缩容等。听众可以了解到微信红包后台架构的设计细节，共同探讨高可用设计实践上遇到的问题与解决方案。

补充说明：本文对应的演讲PPT详见《微信红包系统可用性设计实践(PPT) [附件下载]》。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-2564-1-1.html）

二、分享者

方乐明：现任微信支付应用产品系统负责人，主要从事微信红包、微信转账、微信群收款等支付应用产品的系统设计、可用性提升、高性能解决方案设计等，曾连续多年负责春节微信红包系统的性能优化与稳定性提升，取得良好的效果。

三、系列文章

系列文章目录：

四、微信红包介绍

微信红包从 2014 年开始发展到现在，中间经历了几年时间。在这几年的时间里，整个系统可用性产生了很大的提升。2015 年年初的时候，每天晚上九点钟是微信红包的业务高峰期，系统经常性地出现性能问题。到了今天，即使在节假日高峰期，系统也不会出现问题。

▲ 红包印象 – 产品形态（点此查看本图出处）

如上图所示，微信红包的业务包含包、发、抢、拆、查询发送红包和收红包数量，其中最关键的步骤是发红包和抢红包。

微信红包是微信支付的商户，微信红包这个商户出售的是钱。发红包用户在微信红包平台使用微信支付购买一份钱，微信红包将钱发放到相对应的微信群。群里的用户抢红包得到微信零钱。这个过程中，微信红包和微信支付之间的关系是商家和第三方支付平台的关系。

微信红包和微信支付之间的交互，与普通商家与微信支付的交互一样，需要经过六个步骤。用户发红包时，进入微信红包下一笔订单，系统记录发红包用户、发红包金额、红包数量和要发送到的用微信群。然后微信红包系统请求微信支付服务器进行下单，用户使用微信支付进行支付。

支付成功后，微信支付后台系统通知微信红包后台系统支付成功结果，微信红包后台系统收到通知后推送微信红包消息到微信群。微信群里用户便可抢红包。这就是微信红包和微信支付的关系以及交互过程。

五、微信红包系统架构

5.1 微信红包的系统流程

▲ 微信红包的系统流程（点此查看本图出处）

上图是微信红包系统角度上的流程，业务主流程是包、发、抢、拆四个操作，每个操作包括几个关键步骤。

包红包：系统为每个红包分配一个唯一 ID，即红包发送订单号，然后将发红包用户、红包个数、红包数额写入存储，最后去微信支付下单。

发红包：用户使用微信支付完成付款，微信红包后台系统收到微信支付系统的支付成功通知。红包系统将红包发送订单状态更新为用户已支付，并写入用户发红包记录（用户发红包记录，就是微信钱包中，查看到的用户每一年总共发出及收到的红包记录）。最后微信红包后台系统发送微信红包消息到微信群。

抢红包：指微信群里的用户收到微信红包消息后，点开红包消息。这个过程，微信红包后台系统会检查红包是否已被抢完，是否已过期，是否已经抢过。

拆红包是最复杂的业务是操作，包括：

1）查询这个红包发送订单，判断用户是否可拆，然后计算本次可拆到的红包金额；
2）然后写入一条抢红包记录。如果把拆红包过程，类比为一个秒杀活动的过程，相当于扣库存与写入秒杀记录的过程；
3）更新库存对应于更新红包发送订单，写入秒杀记录对应于写入这个红包的领取红包记录；
4）另外，还要写入用户整体的红包领取记录；
5）最后请求微信支付系统给拆到红包用户转入零钱，成功后更新抢红包的订单状态为已转账成功。

5.2 微信红包的整体架构

▲ 微信红包的系统架构（点此查看本图出处）

上图所示，是微信红包的系统架构。包括微信统一接入层，下面是微信红包系统 API，包括发、抢、拆、查红包详情、查红包用户列表。再下面是封装微信红包关键业务的逻辑服务；最下面一层是数据存储层，微信红包最主要的数据是订单数据，包括发红包订单和拆红包订单两部分。业务逻辑和存储服务器之间是数据接入层，它最重要的作用是封装数据库操作的领域逻辑，使得业务逻辑服务不需要感知对 MySQL 的连接管理、性能、容灾等问题。

微信红包数据的访问热度，随着时间流逝会急剧降低，也就是数据的访问时间段非常集中，一般红包发出三天后，99% 的用户不会再去点开这个红包了。因此微信红包系统采取按时间做冷热数据分离，降低数据的存储成本，同时提升了热数据的访问性能。

数据平台用于对红包数据的分析计算，比如朋友圈里的文章，统计从某年 1 月 1 日到 2017 年 1 月一个用户总共抢红包的金额，在全国的排名情况，发红包数最多的城市等。另外一个作用就是对账，红包的订单和微信支付的订单需要对账，以保证最终资金的一致性；订单的数据和订单的 cache 需要做对账，以保证数据的完整性；订单数据和用户的收发记录需要对账，以保证用户列表完整性。

六、微信红包系统可用性实践

6.1系统可用性影响因素

系统的可用性影响因素可分成两类：

一类计划外；
一类计划内。

计划外包含很多因素，系统用到的所有东西都可能产生故障，都可能成功影响可用性的因素。从这个角度上来讲，可以说故障是无法避免的，系统的运作一定会产生故障，尤其是服务器有成千上万个的时候。计划内的影响因素，主要有与升级相关、运维相关的操作，以及日常的备份等。这一类影响因素，通过精细地设计方案，是可以避免对可用性造成影响的。

6.2微信红包系统可用性设计方向

基于上面两个分析结论，可以总结出微信红包后台系统的可用性的设计方向。就是在不能避免意外故障的情况下，尽可能降低出现意外故障时对可用性的影响。另一方面，绝大多数计划内的日常维护可以通过方案的设计避免影响可用性，其中平行扩容特指关于存储层的平行扩容。

下面从降低故障影响和微信红包系统的平行扩容两方面进行分析。

首先是降低意外故障的影响，重点讲解订单存储层在订单 DB 故障的情况下如何降低对红包系统可用性的影响。

6.3业务逻辑层 - 部署方案设计

首先是业务逻辑层的部署方案。业务逻辑层是无状态的，微信红包系统的业务逻辑层，部署在两个城市，即两地部署，每一个城市部署至少三个园区，即三个 IDC。并且每个服务需要保证三个 IDC 的部署均衡。另外，三个 IDC 总服务能力需要冗余三分之一，当一个 IDC 出现故障时，服务能力仍然足够。从而达到 IDC 故障不会对可用性产生影响。

6.4业务逻辑层 - 异步化设计

▲ 业务逻辑层 – 异步化（点此查看本图出处）

第二是异步化设计。如上图所示，微信红包的某些步骤不实时完成也不会影响用户对红包业务可用性的体验。比如拆红包，正常的业务流程很长，但关键步骤只有订单相关的几步。至于转零钱、写红包记录等操作不需要实时。用户抢到红包时，一般不会实时去钱包查看微信零钱，而是在微信群中点开消息查看本次抢到金额和他人抢红包金额。所以拆红包时只需要从 cache 查询用户是否拆过红包，然后写入拆红包的订单记录，更新发红包订单，其他的操作都可以异步化。当然，不是每个业务都可以进行异步化设计，需要进行业务分析，判断是否存在非关键步骤之外的事情可以将其异步化，并通过异步对账保证最终一致。

▲ 订单存储层 – 早期架构（点此查看本图出处）

接下来是微信红包订单存储设计。上图是 2014 年微信红包存储层的模型。业务逻辑层请求数据层操作时，使用订单号 hash 路由到订单 SERVER。订单 SERVER 与每一组 MYSQL 数据库连接。

微信红包的订单号是在发红包时系统生成唯一标识，使用序列号服务生成唯一 ID，后面拼接三位微信红包的订单分库表的标识。所以，总共可以分一百个逻辑库，每个逻辑库含有十张表。一百个逻辑库均匀地分布到十组物理 DB，每组 DB 存十个逻辑库。

这个架构的最大问题是，一组 DB 故障时，会影响其他 DB。2014-2015 年期间，微信红包量涨得特别快，扩容速度跟不上业务增长速度。一组 DB 的性能出现瓶颈时，数据操作变慢, 拆红包的事务操作在 MYSQL 排队等待。由于所有十组 DB 机器与所有的订单 SERVER 连接，导致所有的订单 SERVER 都被拖住，从而影响红包整体的可用性。这个架构的另一个问题是扩容不方便，后面会介绍。

为解决 DB 间的相互影响，需要将 DB 间相互隔离，订单存储层 SET 化。SET 化指订单 DB 和订单接入 SERVER 垂直 stick 一起。业务逻辑层访问订单时，根据订单倒数第二、三位数字找到所属订单 SET，一个 SET 的请求不能路由到其他 SET。

找到对应的订单接入服务器之后，在服务器内的多个进程中找到指定进程，让同个红包的所有拆请求串行化。当一组 DB 出现故障，只会影响该组 DB 对应的 SERVER。

这里有一个问题，DB 故障拖住某些订单 SERVER，会不会也拖住更上层业务逻辑服务？业务逻辑层为什么不一起 SET 化？业务逻辑层承载了用户维度相关的业务操作，不可以按照订单的维度分业务逻辑，例如务逻辑层会请求用户的头像、昵称等，如果继续按照订单分业务逻辑，会导致跨地域调用。

微信红包系统采取的方案是，在订单 SERVER 服务端增加快速拒绝服务的能力。SERVER 主动监控 DB 的性能情况，DB 性能下降、自身的 CPU 使用升高，或者发现其他的监控维度超标时，订单 SERVER 直接向上层报错，不再去访问 DB，以此保证业务逻辑层的可用性。

一组 DB 故障不会影响整个系统的可用性。有影响的，只有十分之一，若扩成 100 组，影响便只有一百分之一。所以通过 SET 化得到的好处是，控制 DB 连接数、隔离故障影响和分流并发。

▲ 订单存储层 – 故障自愈（点此查看本图出处）

完成 SET 化之后，DB 故障仍对业务有十分之一影响，那么这十分之一该怎么解决？通过对系统进行研究分析之后，发现 DB 可以做到故障自愈。

如上图所示，所设尾号 90-99 的 SET 故障时，如果业务逻辑服务后续不再生成属于这个 SET 的订单，那后续的业务就可以逐渐恢复。

也就是在发生故障时，业务逻辑层发布一个版本，屏蔽故障号段的单号生成，就可以恢复业务。进一步想，除了人为发版本，有没有方法可以让 DB 故障时自动恢复？在 DB 故障导致业务失败时，业务逻辑层可获取到故障 DB 的号段，在发红包时，将这些故障的号段，换一个可用的号段就可恢复业务。订单号除了最后三位，前面的部分已能保证该红包唯一性，后面的数字只代表着分库表信息，故障时只需要将最后三位换另外一个 SET 便可自动恢复。

完成这个设计后，即使 DB 出现故障，业务的可用性也不会有影响。这里还有一点，新的发红包请求可避免 DB 故障的影响，但那些故障之前已发出未被领取的红包，红包消息已发送到微信群，单号已确定，拆红包时还是失败。对这种情况，由于不会有增量，采用正常的主备切换解决即可。

6.5平行扩缩容设计

▲ 平行扩缩容 – 早期方案（点此查看本图出处）

上图是微信红包早期的扩缩容方式。这个扩容方式，对扩容的机器数有限制。前面讲到，红包系统按红包单号后面两个数字分多 SET，为了使扩容后数据保持均衡，扩容只能由 10 组 DB 扩容到 20 组、50 组或者 100 组。另外，这个扩容方式，过程也比较复杂。首先，数据要先从旧数据库同步复制到新扩容的 DB，然后部署 DB 的接入 SERVER，最后在凌晨业务低峰时停服扩容。

这个扩容方式的复杂性，根本原因是数据需要从旧 SET 迁到新 SET。如果新产生数据与旧数据没关系，那么就可以省掉这部分的迁移动作，不需停服输。分析发现，需要把旧数据迁出来的原因是订单号段 00-99 已全部被用，每个物理数据库包含了 10 个逻辑库。如果将订单号重新设计，预留三位空间，三位数字每一个代表独立的物理 DB，原来 10 组 DB 分别为 000-009 号段。

这种设计，缩容时，比如要缩掉 000 这组，只需在业务逻辑服务上不生成订单号为 000 的红包订单。扩容时，比如扩为 11 组，只需多生成 010 的订单号，这个数据便自动写入新 DB。当然，缩容需要一个前提条件，也就是冷热分离，缩容后数据变为冷数据，可下线热数据机器。以上就是红包的平行扩缩容方案。

▲ 改进后的平行扩容（点此查看本图出处）

七、写在最后

微信红包系统的可用性实践，主要包括了部署设计、SET 化设计、异步化设计、DB 故障自愈能力建设、平行扩容设计。在完成这些设计后，微信红包系统的可用性得到了很大提升，在近几年的春节实现了 0 故障，在平常的运行中达到 99.99% 可用性。

（原文链接：点此进入）

八、更多鹅厂技术文章汇总

《微信朋友圈千亿访问量背后的技术挑战和实践总结》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》

《IM全文检索技术专题(二)：微信移动端的全文检索多音字问题解决方案》

《腾讯技术分享：Android版手机QQ的缓存监控与优化实践》

《微信团队分享：iOS版微信的高性能通用key-value组件技术实践》

《微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？》

《腾讯技术分享：Android手Q的线程死锁监控系统技术实践》

《微信团队原创分享：iOS版微信的内存监控系统技术实践》

《让互联网更快：新一代QUIC协议在腾讯的技术实践分享》

《iOS后台唤醒实战：微信收款到账语音提醒技术总结》

《腾讯技术分享：社交网络图片的带宽压缩技术演进之路》

《微信团队分享：视频图像的超分辨率技术原理和应用场景》

《微信团队分享：微信每日亿次实时音视频聊天背后的技术解密》

《腾讯信鸽技术分享：百亿级实时消息推送的实战经验》

《IPv6技术详解：基本概念、应用现状、技术实践（上篇）》

《IPv6技术详解：基本概念、应用现状、技术实践（下篇）》

《腾讯技术分享：GIF动图技术详解及手机QQ动态表情压缩技术实践》

《微信团队分享：Kotlin渐被认可，Android版微信的技术尝鲜之旅》

《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》

《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》

《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》

《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》

《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》

《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》

《社交软件红包技术解密(九)：谈谈手Q红包的功能逻辑、容灾、运维、架构等》

《社交软件红包技术解密(十)：手Q客户端针对2020年春节红包的技术实践》

《社交软件红包技术解密(十一)：解密微信红包随机算法(含代码实现)》

《社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元》

（本文已同步发布于：http://www.52im.net/thread-2564-1-1.html）

posted @ 2025-01-15 11:19 Jack Jiang 阅读(147) | 评论 (0) | 编辑收藏

社交软件红包技术解密(四)：微信红包系统是如何应对高并发的

本文来自微信团队工程师方乐明的技术分享，由InfoQ编辑发布，下文收录时有修订和改动。

一、引言

每年节假日，微信红包的收发数量都会暴涨，尤以除夕为最。如此大规模、高峰值的业务需要，背后需要怎样的技术支撑？百亿级别的红包规模，如何保证并发性能与资金安全？

本文将为读者介绍微信百亿级别红包背后的高并发设计实践，内容包括微信红包系统的技术难点、解决高并发问题通常使用的方案，以及微信红包系统的所采用高并发解决方案。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4776-1-1.html）

二、分享者

方乐明：现任微信支付应用产品系统负责人，主要从事微信红包、微信转账、微信群收款等支付应用产品的系统设计、可用性提升、高性能解决方案设计等，曾连续多年负责春节微信红包系统的性能优化与稳定性提升，取得良好的效果。

三、系列文章

❶ 系列文章目录：

❷ 其它相关文章：

四、微信红包的两大业务特点

微信红包（尤其是发在微信群里的红包，即群红包），业务形态上很类似网上的普通商品“秒杀”活动。

就像下面这样：

1）用户在微信群里发一个红包，等同于是普通商品“秒杀”活动的商品上架；
2）微信群里的所有用户抢红包的动作，等同于“秒杀”活动中的查询库存；
3）用户抢到红包后拆红包的动作，则对应“秒杀”活动中用户的“秒杀”动作。

不过除了上面的相同点之外，微信红包在业务形态上与普通商品“秒杀”活动相比，还具备自身的特点。

首先：微信红包业务比普通商品“秒杀”有更海量的并发要求。

微信红包用户在微信群里发一个红包，等同于在网上发布一次商品“秒杀”活动。假设同一时间有 10 万个群里的用户同时在发红包，那就相当于同一时间有 10 万个“秒杀”活动发布出去。10 万个微信群里的用户同时抢红包，将产生海量的并发请求。

其次：微信红包业务要求更严格的安全级别。

微信红包业务本质上是资金交易。微信红包是微信支付的一个商户，提供资金流转服务。

用户发红包时，相当于在微信红包这个商户上使用微信支付购买一笔“钱”，并且收货地址是微信群。当用户支付成功后，红包“发货”到微信群里，群里的用户拆开红包后，微信红包提供了将“钱”转入折红包用户微信零钱的服务。

资金交易业务比普通商品“秒杀”活动有更高的安全级别要求。普通的商品“秒杀”商品由商户提供，库存是商户预设的，“秒杀”时可以允许存在“超卖”（即实际被抢的商品数量比计划的库存多）、“少卖”（即实际被抢的商户数量比计划的库存少）的情况。但是对于微信红包，用户发 100 元的红包绝对不可以被拆出 101 元；用户发 100 元只被领取 99 元时，剩下的 1 元在 24 小时过期后要精确地退还给发红包用户，不能多也不能少。

以上是微信红包业务模型上的两大特点。

五、微信红包系统的技术难点

在介绍微信红包系统的技术难点之前，先介绍下简单的、典型的商品“秒杀”系统的架构设计，如下图所示。

该系统由接入层、逻辑服务层、存储层与缓存构成：

1）Proxy 处理请求接入；
2）Server 承载主要的业务逻辑；
3）Cache 用于缓存库存数量；
4）DB 则用于数据持久化。

一个“秒杀”活动，对应 DB 中的一条库存记录。当用户进行商品“秒杀”时，系统的主要逻辑在于 DB 中库存的操作上。

一般来说，对 DB 的操作流程有以下三步：

1）锁库存；
2）插入“秒杀”记录；
3）更新库存。

其中，锁库存是为了避免并发请求时出现“超卖”情况。同时要求这三步操作需要在一个事务中完成（所谓的事务，是指作为单个逻辑工作单元执行的一系列操作，要么完全地执行，要么完全地不执行）。

“秒杀”系统的设计难点就在这个事务操作上。商品库存在 DB 中记为一行，大量用户同时“秒杀”同一商品时，第一个到达 DB 的请求锁住了这行库存记录。在第一个事务完成提交之前这个锁一直被第一个请求占用，后面的所有请求需要排队等待。同时参与“秒杀”的用户越多，并发进 DB 的请求越多，请求排队越严重。因此，并发请求抢锁，是典型的商品“秒杀”系统的设计难点。

微信红包业务相比普通商品“秒杀”活动，具有海量并发、高安全级别要求的特点。

在微信红包系统的设计上，除了并发请求抢锁之外，还有以下两个突出难点：

首先，事务级操作量级大：

上文介绍微信红包业务特点时提到，普遍情况下同时会有数以万计的微信群在发红包。这个业务特点映射到微信红包系统设计上，就是有数以万计的“并发请求抢锁”同时在进行。这使得 DB 的压力比普通单个商品“库存”被锁要大很多倍；

其次，事务性要求严格：

微信红包系统本质上是一个资金交易系统，相比普通商品“秒杀”系统有更高的事务级别要求。

六、解决高并发问题通常使用的方案

普通商品“秒杀”活动系统，解决高并发问题的方案，大体有以下几种。

6.1方案一：使用内存操作替代实时的 DB 事务操作

如图 2 所示，将“实时扣库存”的行为上移到内存 Cache 中操作，内存 Cache 操作成功直接给 Server 返回成功，然后异步落 DB 持久化。

这个方案的优点是用内存操作替代磁盘操作，提高了并发性能。

但是缺点也很明显，在内存操作成功但 DB 持久化失败，或者内存 Cache 故障的情况下，DB 持久化会丢数据，不适合微信红包这种资金交易系统。

6.2方案二：使用乐观锁替代悲观锁

所谓悲观锁，是关系数据库管理系统里的一种并发控制的方法。它可以阻止一个事务以影响其他用户的方式来修改数据。如果一个事务执行的操作对某行数据应用了锁，那只有当这个事务把锁释放，其他事务才能够执行与该锁冲突的操作。对应于上文分析中的“并发请求抢锁”行为。

所谓乐观锁，它假设多用户并发的事务在处理时不会彼此互相影响，各事务能够在不产生锁的情况下处理各自影响的那部分数据。在提交数据更新之前，每个事务会先检查在该事务读取数据后，有没有其他事务又修改了该数据。如果其他事务有更新的话，正在提交的事务会进行回滚。

商品“秒杀”系统中，乐观锁的具体应用方法，是在 DB 的“库存”记录中维护一个版本号。在更新“库存”的操作进行前，先去 DB 获取当前版本号。在更新库存的事务提交时，检查该版本号是否已被其他事务修改。如果版本没被修改，则提交事务，且版本号加 1；如果版本号已经被其他事务修改，则回滚事务，并给上层报错。

这个方案解决了“并发请求抢锁”的问题，可以提高 DB 的并发处理能力。

但是如果应用于微信红包系统，则会存在下面三个问题：

1）如果拆红包采用乐观锁：那么在并发抢到相同版本号的拆红包请求中，只有一个能拆红包成功，其他的请求将事务回滚并返回失败，给用户报错，用户体验完全不可接受；
2）如果采用乐观锁：将会导致第一时间同时拆红包的用户有一部分直接返回失败，反而那些“手慢”的用户，有可能因为并发减小后拆红包成功，这会带来用户体验上的负面影响；
3）如果采用乐观锁的方式：会带来大数量的无效更新请求、事务回滚，给 DB 造成不必要的额外压力。

基于以上原因，微信红包系统不能采用乐观锁的方式解决并发抢锁问题。

七、微信红包系统的高并发解决方案

综合上面的分析，微信红包系统针对相应的技术难点，采用了下面几个方案，解决高并发问题。

7.1系统垂直 SET 化，分而治之

微信红包用户发一个红包时，微信红包系统生成一个 ID 作为这个红包的唯一标识。接下来这个红包的所有发红包、抢红包、拆红包、查询红包详情等操作，都根据这个 ID 关联。

红包系统根据这个红包 ID，按一定的规则（如按 ID 尾号取模等），垂直上下切分。切分后，一个垂直链条上的逻辑 Server 服务器、DB 统称为一个 SET。

各个 SET 之间相互独立，互相解耦。并且同一个红包 ID 的所有请求，包括发红包、抢红包、拆红包、查详情详情等，垂直 stick 到同一个 SET 内处理，高度内聚。通过这样的方式，系统将所有红包请求这个巨大的洪流分散为多股小流，互不影响，分而治之，如下图所示。

这个方案解决了同时存在海量事务级操作的问题，将海量化为小量。

7.2逻辑 Server 层将请求排队，解决 DB 并发问题

红包系统是资金交易系统，DB 操作的事务性无法避免，所以会存在“并发抢锁”问题。但是如果到达 DB 的事务操作（也即拆红包行为）不是并发的，而是串行的，就不会存在“并发抢锁”的问题了。

按这个思路，为了使拆红包的事务操作串行地进入 DB，只需要将请求在 Server 层以 FIFO（先进先出）的方式排队，就可以达到这个效果。从而问题就集中到 Server 的 FIFO 队列设计上。

微信红包系统设计了分布式的、轻巧的、灵活的 FIFO 队列方案。其具体实现如下：

首先，将同一个红包 ID 的所有请求 stick 到同一台 Server。

上面 SET 化方案已经介绍，同个红包 ID 的所有请求，按红包 ID stick 到同个 SET 中。不过在同个 SET 中，会存在多台 Server 服务器同时连接同一台 DB（基于容灾、性能考虑，需要多台 Server 互备、均衡压力）。

为了使同一个红包 ID 的所有请求，stick 到同一台 Server 服务器上，在 SET 化的设计之外，微信红包系统添加了一层基于红包 ID hash 值的分流，如下图所示。

其次，设计单机请求排队方案。

将 stick 到同一台 Server 上的所有请求在被接收进程接收后，按红包 ID 进行排队。然后串行地进入 worker 进程（执行业务逻辑）进行处理，从而达到排队的效果，如下图所示。

最后，增加 memcached 控制并发。

为了防止 Server 中的请求队列过载导致队列被降级，从而所有请求拥进 DB，系统增加了与 Server 服务器同机部署的 memcached，用于控制拆同一个红包的请求并发数。

具体来说，利用 memcached 的 CAS 原子累增操作，控制同时进入 DB 执行拆红包事务的请求数，超过预先设定数值则直接拒绝服务。用于 DB 负载升高时的降级体验。

通过以上三个措施，系统有效地控制了 DB 的“并发抢锁”情况。

7.3双维度库表设计，保障系统性能稳定

红包系统的分库表规则，初期是根据红包 ID 的 hash 值分为多库多表。随着红包数据量逐渐增大，单表数据量也逐渐增加。而 DB 的性能与单表数据量有一定相关性。当单表数据量达到一定程度时，DB 性能会有大幅度下降，影响系统性能稳定性。采用冷热分离，将历史冷数据与当前热数据分开存储，可以解决这个问题。

处理微信红包数据的冷热分离时，系统在以红包 ID 维度分库表的基础上，增加了以循环天分表的维度，形成了双维度分库表的特色。

具体来说，就是分库表规则像 db_xx.t_y_dd 设计，其中，xx/y 是红包 ID 的 hash 值后三位，dd 的取值范围在 01~31，代表一个月天数最多 31 天。

通过这种双维度分库表方式，解决了 DB 单表数据量膨胀导致性能下降的问题，保障了系统性能的稳定性。同时，在热冷分离的问题上，又使得数据搬迁变得简单而优雅。

综上所述：微信红包系统在解决高并发问题上的设计，主要采用了 SET 化分治、请求排队、双维度分库表等方案，使得单组 DB 的并发性能提升了 8 倍左右，取得了很好的效果。

八、本文小结

微信红包系统是一个高并发的资金交易系统，最大的技术挑战是保障并发性能与资金安全。

这种全新的技术挑战，传统的“秒杀”系统设计方案已不能完全解决。在分析了业界“秒杀”系统解决方案的基础上，微信红包采用了 SET 化、请求排队串行化、双维度分库表等设计，形成了独特的高并发、资金安全系统解决方案，并在平时节假日、春节红包雨实践中充分证明了可行性，取得了显著的效果。以2017 鸡年除夕夜为例，微信红包收发峰值达到 76 万每秒，收发微信红包 142 亿个，微信红包系统的表现稳定，实现了除夕夜系统零故障。

九、更多鹅厂技术文章汇总

《微信朋友圈千亿访问量背后的技术挑战和实践总结》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》

《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》

《IM全文检索技术专题(二)：微信移动端的全文检索多音字问题解决方案》

《腾讯技术分享：Android版手机QQ的缓存监控与优化实践》

《微信团队分享：iOS版微信的高性能通用key-value组件技术实践》

《微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？》

《腾讯技术分享：Android手Q的线程死锁监控系统技术实践》

《微信团队原创分享：iOS版微信的内存监控系统技术实践》

《让互联网更快：新一代QUIC协议在腾讯的技术实践分享》

（本文已同步发布于：http://www.52im.net/thread-2548-1-1.html）

posted @ 2025-01-13 11:39 Jack Jiang 阅读(126) | 评论 (0) | 编辑收藏

微信纯血鸿蒙版正式发布，295天走完微信14年技术之路！

本文由腾讯技术团队原创分享于鹅厂黑板报，下文有排版优化。

1、写在前面

直至现在，「微信鸿蒙版」这五个字，依然被赋予着太多意义。

这是一款产品，也不仅仅是一款产品。开发它的本质，是让两个高速前进，相互影响的复杂系统，彼此磨合和熟悉，像是执行一场空中加油任务。

不管外界如何评价和鞭策，这款产品本身，依然需要研发团队一个键一个键敲出来，从内核，到架构，到内测，到公测，再到一轮一轮的 debug，他们要在不到一年的时间里，走完微信14 年的路。

回顾鹅厂所做过的产品里，也许从未有过一款，被如此放在放大镜下凝视。每一次上架，每一个 bug，乃至于每一个里程碑，几乎都预定当天热搜。

站在正式版发布的1 月 9 日，或许这一切都可以风轻云淡地说：the show must go on。但这过去的 295 天里，他们的经历，我们认为值得记录下来，分享给关心微信鸿蒙版的用户朋友们。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4776-1-1.html）

2、2024年3月，集结

鹅厂指派了从塞班（Symbian）时期就负责微信开发工作的团队，来主导微信鸿蒙版。从塞班到智能手表、车机、Linux PC 端的微信，这个团队在内部素以擅长攻克不同环境、不同语言的开发工作著称。

同样很重要的一点是，得益于智能手表端微信的研发工作，微信和华为的两个团队是老相识，这也让双方的对接更加顺畅紧密起来。从三月贯穿到四月，两边通过拉通会、分享会学习鸿蒙系统研发框架，不定时组织技术专题讨论。

双方都很清楚，这不是一场三天两夜就能解决的小规模战斗，而是旷日持久的兵团级战役。兵马未动，粮草先行，敲下第一行代码之前，还有许许多多的工作需要准备。

3、2024年4月，基建

万丈高楼平地起，基建是最重要的第一步。

搞基建，“三通一平”（通电/通路/通水/土地平整）是基本要求，进取一些，可以做到“五通一平”（加入通讯/排污），再进一步，还有“七通一平”（加入通气/有线电视），乃至于“十通一平”（加入宽带/铁路/暖气）。通得越多，越有利于后期扩展和长远发展。

经过塞班、手机、手表等各种终端上的长期打磨，这个团队积累了一套名为Alita（阿丽塔）的跨平台内核。这也为鸿蒙版微信的基建打下了基础。这个阶段的重中之重是，快速熟悉鸿蒙系统，移植基础库，让 Alita 内核能够在鸿蒙系统上运行起来，和华为一边沟通、一边验证推进。

4、2024年5月，架构

接下来考验的是架构能力。开发团队需要设计好鸿蒙微信客户端的架构、编写好各模块文档，支撑各业务进场后能够高效开发。

这一步的难点，在于充分预判到业务之间的复杂解耦，既要降低各业务之间的依赖性，又要提高整体的稳定性，还要留出高可扩展性，属于典型的“我全都要”难题。

这就好比从零开始建设一座城市，要预估到这座百年之后超级都市的人口规模、交通状况、人居需求、产业结构、商业发展等因素，以及提前平衡这些因素之间的关系，需要具备极大的前瞻视角。

技术团队继续摇人，招聘也快马加鞭推进。TAPD（腾讯敏捷产品研发平台）流程图里，他们的首个目标是做出一个基础版本，保证用户能实现收发消息、语音通话等最基础、也是最重要的功能。

5、2024年6月，磨合

进入了真正的手搓环节。flutter（跨平台应用程序开发框架）、liteapp（专为移动端设计的跨平台开发框架）等，都是这个阶段的关键工作。

为了这桌“年夜饭”，技术小哥们一边在厨房切菜烧饭，一边去客厅招呼各方沏茶倒水，让支付和VoIP（语音通话技术）等基础能力陆续凑上一桌。

除了内外部密切的技术沟通，微信和华为团队对彼此的技术标准保持了互相尊重。以相册选图发送功能为例，在 Android 系统上，选图需要获取整个相册权限，也就是说应用可以访问用户的所有照片。在鸿蒙上的选图功能，为了保障用户隐私，微信采用的是 Picker 控件的方式，相册照片的展示和选择逻辑都由 Picker 控件提供，微信只能读取到用户勾选的照片。

6、第一个里程碑：bug 如约而至

赶在6月21日前，团队做好了第一个内部体验版本，包含收发消息、通话功能。和2011年1月21日发布的 iOS和安卓版的微信1.0版本相比，多了语音消息发送。

你可能会不以为然：大动干戈这么久，就整了个这毛坯房？

其实这里蕴含的开发思路，是验证最小可用的原则，本质上是对第一阶段研究鸿蒙语言和系统的成果验收。重要的是把基本功练好，才能为后续的开枝散叶打好底子。

但即便是如此普通的版本，也出了个闪退型 bug，最后查出来是系统的底层 API 问题：同样的代码逻辑，在 iOS 和安卓上能用，但在鸿蒙上行不通。两边团队为此绞尽脑汁，交了两个星期的学费，最后还是靠着某位技术小哥灵光一现想到的。

这个 bug也像是一场结业考试，经此一役，开发进入了快节奏。

微信集合了众多产品功能，各功能间又有复杂的交互和依赖关系，比如小程序的开发就涉及到与支付功能的打通，而支付能力又需要与基础会话功能打通。在完成基建的前提下，基础、支付、小程序……能进场的业务模块都陆续进了场。一个共同的目标是——10月8号鸿蒙公测那天，做出一个新版本。这个版本，将新增微信支付、朋友圈等功能。

7、2024年10月8日：喜欢您来

10月8日，微信鸿蒙原生版开启内测邀请，尝鲜版本包含基础社交通讯音视频通话、朋友圈、微信支付的二维码收/付款等功能。

内测开启，意味着微信和其他所有适配原生鸿蒙的第三方App一样，从内测到应用尝鲜再到公测，走上了鸿蒙系统第三方软件开发的三部曲。

为什么要限量内测而不是一口气开放下载呢？

在全新的平台上，要支撑海量用户、高并发通讯需求，同时涉及支付、小程序、视频等多个大功能模块，还要满足极高频使用下的稳定性，是很大的挑战。

所以，用内测 → 找bug → 修bug → 加大内测的方式，是一个更符合软件开发规律的方式。

经历了4天紧张的测试和debug，包括微信支付在内的多个功能经过严格测试流程后，合入大版本，10 月 12 日，微信鸿蒙原生版正式开始公测。

8、2024年10月～11 月：这都能遇到灰产啊啊啊

公测放量过程中，有一次实际登陆人数不到放量总数的十分之一？某平台上竟然有人公然售卖测试名额？

一系列插曲打破了原定的放量节奏，双方共同排查后发现，原来有人把安装包拿去二手平台牟利。应用商店完善机制后，把漏洞补上。

安装包都能拿来卖，也堪称是国产软件开发史上浓墨重彩的一笔。

微信鸿蒙版在尝鲜专区上线了2万测试名额，但后台显示，登录数据一直较低，我们和华为一同复盘发现，因为有人用脚本去抢名额，触发了应用商店的安全机制，同时扰乱了应用商店的计数逻辑，导致大概90% 的放量被拦截，最终实际下载的用户只有 10%左右。

又是浓墨重彩的一笔......

如何让用户尽可能体验到微信测试版本？

在基本保障尝鲜专区不断档的情况下，11 月 6 日，双方紧急协商，华为将微信鸿蒙版的测试名额大幅扩容，微信再次邀请扩容后的用户分批有序参与内测，共同完善新版本的各种体验。

在不断收集用户反馈、历经数次迭代后，目前的版本已经可以使用视频号、聊天引用、发文件等功能，所有鸿蒙用户也都可以直接下载，更多功能在持续上线。

9、2025年1月9日：不止是微信

吸收了广大用户的反馈和多轮debug后，鸿蒙版微信顺利结束公测，1月9日正式版本上线。你除了能稳定下载和使用微信外，还可以用到 QQ、腾讯视频、腾讯新闻、QQ 音乐等App。

自今年起，腾讯20多款产品通过敏捷开发，实现鸿蒙系统的适配工作，更多腾讯的产品适配也在路上。

一个发生在2024年10月29日的插曲，某种程度上，可以反映微信鸿蒙版开发团队的工作情形和协作流程：

19:20，项目组微信支付团队发现，即将要上架的最新尝鲜版的微信，小部分用户转账入口出现bug，点击后无反应。

20:15，客服团队同步后台客诉情况。

20:57，微信支付团队初步定位，有问题的代码是今日合入导致的，疑似是LiteApp（跨端的框架，微信转账是鸿蒙第一个使用这个框架的功能）的问题。

21:31，进一步定位问题，发现在一些极端情况下， LiteApp的文件缓存写入被系统提示权限不足，联系华为技术团队一起定位。

21:47，支付技术团队完成最新内测版微信的修复，合入后，提交版本给测试团队。

22:32，支付技术团队复盘问题，提出后续改进措施。

22:41，微信基础技术团队向华为应用商店提审新版本内测包。

22:54，向华为应用商店提审尝鲜版。

23:30，最新尝鲜版微信通过审核，上架尝鲜专区，转账问题修复。

微信公众平台曾有一句 slogan 深入人心：再小的个体，也有自己的品牌。同样的，再小的问题，放在微信上，都会被亿量级地扩大。

我们知道，永远等不来“完美交付”这一天。灰度测试、持续迭代，让产品在和用户的互动中得到改进，是腾讯一直以来的产品理念。

感谢微信用户、鸿蒙用户始终跟我们站在一起，7x24小时反馈bug、提出优化意见。如果把新产品开发比做一场足球赛，那希望你们一直都在，做我们敏捷开发“球队”的第12人。

10、微信的其它故事

《技术往事：微信估值已超5千亿，雷军曾有机会收编张小龙及其Foxmail》

《QQ和微信凶猛成长的背后：腾讯网络基础架构的这些年》

《2017微信数据报告：日活跃用户达9亿、日发消息380亿条》

《腾讯开发微信花了多少钱？技术难度真这么大？难在哪？》

《开发往事：深度讲述2010到2015，微信一路风雨的背后》

《开发往事：微信千年不变的那张闪屏图片的由来》

《开发往事：记录微信3.0版背后的故事（距微信1.0发布9个月时）》

《一个微信实习生自述：我眼中的微信开发团队》

《为什么说即时通讯社交APP创业就是一个坑？》

《QQ现状深度剖析：你还认为QQ已经被微信打败了吗？》

《QQ和微信止步不前，意味着即时通讯社交应用创业的第2春已来？》

（本文已同步发布于：http://www.52im.net/thread-4776-1-1.html）

posted @ 2025-01-10 11:13 Jack Jiang 阅读(60) | 评论 (0) | 编辑收藏

转转平台IM系统架构设计与实践(一)：整体架构设计

本文由转转王棕生分享，原题“IM系列(一)：转转IM系统架构探秘”，下文进行了排版和内容优化。

1、引言

转转是二手电商平台，在这个平台上，人人可以是买家，人人也可以是卖家。转转从最初的信息模式升级为一个闭环的交易模式，IM打通了买家与卖家之间的通道。本文描述了转转IM为整个平台提供的支撑能力，给出了系统的整体架构设计，分析了系统架构的特性。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4764-1-1.html）

2、系列文章

本文是系列文章中的第1篇，本系列文章的大纲如下：

转转平台IM系统架构设计与实践(一)：整体架构设计（* 本文)
转转平台IM系统架构设计与实践(二)：详细设计与实现（稍后发布..）

3、本文作者

王棕生：转转架构平台部高级研发工程师，负责IM系统、推送系统和分布式存储系统。

4、系统能力定义

转转IM需要提供如下的支撑能力：

1）有的用户习惯使用APP、有的用户习惯免安装的小程序；还有的用户习惯于在“58同城”APP上搜索二手；所以IM需要支持APP、小程序、M端等各种终端类型，以及由转转平台衍生出的其他垂类APP。

2）IM是转转平台中的一个独立系统，需要向平台中的其他系统（如客服系统、风控系统）提供“联系人”和“私信”等IM能力。

3）在转转平台的各种运营活动中，需要借助于IM通道将商品消息、订单消息、交易消息及活动通知等实时的发送给用户。

总之：IM为转转平台提供一个可靠和稳定的通道，为用户与用户之间、业务系统与用户之间、平台与用户之间打造一个可以即时通讯的环境。

5、系统架构概览

转转IM系统架构设计如下图所示，自上而下包括四层：用户层、入口层、逻辑层和原子存储层。

转转IM系统架构设计图：

6、系统架构之“用户层”

用户层是IM服务的调用者，用户层支撑各类业务应用，包括APP、小程序、M端、平台运营类业务系统和ZZRPC。

APP基于TCP协议与IM服务端进行消息传输，小程序和M端则是通过HTTP协议。

ZZRPC是转转平台使用Java语言自研的RPC框架，而转转IM系统是使用C++语言进行研发的，所以IM需要通过适配支持ZZRPC服务的相互调用。

7、系统架构之“入口层”

入口层是IM系统的入口网关，包括：

1）Entry
2）Http-Entry
3）转转自研的分布式消息中间件ZZMQ；
4）IMUI。

Entry：负责维护与APP之间的TCP连接，把APP发送的业务请求包向后直接转发到逻辑层进行处理。Entry逻辑较为简单，不参与具体的业务处理，这样设计的原因是为了避免Entry因业务改造升级进行模块重启，而丢失与APP之间的TCP连接，影响大量用户。

Http-Entry：是HTTP版的Entry实现，Http-Entry负责维护的是与小程序和M端之间通过HTTP协议模拟的“长连接”。

HTTP“长连接”的实现原理是：小程序发送http_request到Http-Entry，Http-Entry会hold住连接不返回、不释放；当产生了该用户的私信数据时或hold住连接超过一定时间（如15秒）时，Http-Entry则返回http_response到小程序；小程序收到http_response时需要立即再次发送http_request到Http-Entry......。

ZZMQ：是转转自研的分布式消息队列，接收平台各个运营类业务系统生产的系统消息、广播消息和推送类消息，然后由IM逻辑模块进行消费处理。ZZMQ解耦了平台业务系统和IM系统。

IMUI：用于IM系统适配ZZRPC的调用；IMUI作为ZZRPC服务的提供者，接收ZZRPC客户端的请求后，按照IM系统的内部协议格式同步访问逻辑层，再将逻辑层的操作结果按ZZRPC协议进行封装，然后返回到ZZRPC的客户端。

8、系统架构之“逻辑层”

逻辑层包括Logic和Extlogic两个模块组件：

1）Logic负责实现IM系统核心的和轻量级的业务逻辑，如用户登录、获取未读数、发送私信等；
2）非核心的和重量级的业务由Extlogic进行实现；
3）Logic和Extlogic两个逻辑模块通过ZZMQ进行解耦。

例如：在私信逻辑处理流程中，Logic接收私信和用户在线时的私信推送，而对于离线私信Logic则会通过ZZMQ通知Extlogic进行离线消息的召回逻辑处理。

9、系统架构之“原子存储层”

IM需要持久化存储的数据包括私信消息、系统消息和联系人等。

这些数据通过传统的关系型数据库MySQL和NewSQL数据库TiDB进行保存：

1）TiDB是分布式数据库，具有天然的弹性扩容特性；
2）MySQL通过通用的分库分表策略来应对存储和查询负载。

Das接收逻辑层对持久化数据的读写请求，将请求放入本地队列中，然后按顺序对数据库进行同步读写操作。

ZZRedis是转转自研的分布式缓存系统，负责对用户的在线信息进行缓存。

Jtransit与IMUI类似，用于适配ZZRPC服务；Jtransit作为ZZRPC服务的调用，接收逻辑层的请求后，按照ZZRPC协议格式访问平台其他系统提供的服务，获取数据后封装成IM系统的协议数据返回到逻辑层。

10、架构特性1：伸缩性

对转转IM系统架构设计，从伸缩性、高可用、可靠性、可扩展性和高性能分别进行分析。

当转转并发访问的用户量不断增加，IM系统资源紧张时，需要通过增加机器进行水平弹性扩容，主要是通过服务管理平台控制中心进行实施的。入口层、逻辑层和原子层服务之间相互调用的关系如下表所示。

Entry和Http-Entry会作为调用方调用Logic的服务，Logic和Extlogic会作为调用方调用Das的服务和Entry与Http-Entry的服务，这些服务之间的关系通过控制中心进行管理。

首先：

1）服务方组件与控制中心建立TCP长连接，将服务内容包括本实例ip、端口、服务接口等等注册到控制中心；
2）调用方组件与控制中心建立TCP长连接，从控制中心轮询服务列表；
3）服务方组件增加机器弹性扩容时，新的实例会注册到控制中心，进而被调用方实时拉取到。

另外：

1）App通过域名连接Entry时会首先访问TGW，由TGW转发请求到Entry，所以增加Entry实例时需要在TGW进行注册；
2）小程序到Http-Entry的HTTP请求都是由Nginx进行中转，所以增加Http-Entry机器需要在Nginx上进行配置；
3）Extlogic作为ZZMQ的消费者，可以自由增加实例。

存储层扩容：

1）数据库MySQL通过分库和分表的方式进行扩容；
2）分布式数据库TiDB以及分布式缓存ZZRedis；
3）还有分布式消息队列ZZMQ自身具有天然的弹性伸缩特性。

11、架构特性2：高可用

1）入口层高可用：入口层Entry和Http-Entry的可用性分别由TGW和Nginx进行探活和迁移。

2）Logic高可用：Logic的可用性由入口层实例进行控制；为了保证同一用户消息的顺序性，Entry和Http-Entry会将同一个用户的请求通过哈希算法打到相同的Logic实例；若一索引号为x的Logic实例挂掉以后，Entry和Http-Entry会在重试后将请求打到索引号为(x+p)%n的Logic实例上（n为Logic实例数目，p的取值区间为[1,n) ）；注意p的取值不能固定，否则很容易将瞬时流量打到固定的Logic实例，引起雪崩效应。

3）Extlogic高可用：Extlogic负责消费消息队列ZZMQ中的消息，挂掉任意一个实例后，不影响业务的正常处理。

4）Das高可用：Das的高可用由Logic和Extlogic进行控制，原理与Logic高可用一致，在挂掉任意一个Das实例后，Logic和Extlogic会将请求打到索引号为(x+p)%n的Das实例上。

5）存储层高可用：MySQL通过一主两备模式保证其高可用，在主库挂掉以后，其中的一个备库变为主库继续对Das提供服务；分布式数据库TiDB、分布式缓存ZZRedis，分布式消息队列ZZMQ自身具有天然的高可用特性。

12、架构特性3：可靠性

程序的正确处理保证系统的可靠性，影响IM系统可靠性的因素主要是瞬时高峰导致的逻辑层Logic实例的系统资源被用光和原子层Das对数据库的访问超时。

1）Logic可靠性：逻辑层实例的系统资源被用光发生在业务的相互影响；例如瞬时大量用户登录IM系统时，Logic大部分或全部线程被调度用于处理用户登录业务，而没有足够的资源去处理私信等业务。提高Logic可靠性的方案，可以根据微服务思想对Logic按功能职责进行拆分，如拆分成Login_Logic、Msg_Logic、Contact_Logic等。

2）Das可靠性：对数据库的访问超时发生在数据库负载较高时，例如推送千万级广播系统消息时，会有大量的更新操作落到数据库上，此时数据库响应较慢或超时；因为Das对数据库的操作是同步的，所以会造成Das内部队列请求的堆积，其他业务请求也会被堆积而导致超时。提高Das可靠性的方案，可以根据业务类型在Das内部分别创建不同的请求队列，从而避免业务的相互影响。

13、架构特性4：可扩展性和高性能

1）可扩展性：转转IM系统架构的可扩展性体现在逻辑层，逻辑层Logic和Extlogic通过消息队列ZZMQ进行解耦，定制类的功能需求在Extlogic中进行实现，避免对核心业务Logic的影响。

ZZMQ除了解耦Logic和Extlogic外，还对平台的业务系统和IM系统进行解耦。

2）高性能：分析IM系统架构，入口层和逻辑层主要是计算模块，原子存储层主要是IO模块，系统的性能瓶颈集中在数据库端。提升性能方案有：通过增强机器配置、增加机器、研究和新的存储方式，如用户联系人可以通过KList引擎进行存储。

14、本文小结

转转IM为用户与用户之间、客服与用户之间、平台与用户之间打造了一个高效和可靠的通讯通道。

按微服务私信和分层模式对IM系统架构进行分布式设计，架构中每个组件模块的功能职责明确。

具体的功能职责如下：

1）Entry负责维护TCP连接；
2）Http-Entry负责维护HTTP连接；
3）Logic负责处理核心的轻量级业务，Logic要求服务稳定；
4）Extlogic负责处理非核心的重量级业务，Extlogic要求服务可扩展；
5）Das负责对数据库进行读写访问；
6）IMUI和Jtransit负责对平台的RPC框架ZZRPC进行适配；
7）MySQL、TiDB和ZZRedis负责持久化和缓存数据；
8）ZZMQ负责对平台的业务系统和IM系统，以及Logic和Extlogic之间进行解耦。

转转IM的系统架构具有伸缩性、高可用、可靠性、功能扩展性和高性能。

15、参考资料

[1] 浅谈IM系统的架构设计

[2] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[3] 一套海量在线用户的移动端IM架构设计实践分享(含详细图文)

[4] 一套原创分布式即时通讯(IM)系统理论架构方案

[5] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[6] 蘑菇街即时通讯/IM服务器开发之架构选择

[7] 现代IM系统中聊天消息的同步和存储方案探讨

[8] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[9] 马蜂窝旅游网的IM系统架构演进之路

[10] 瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）

[11] 阿里钉钉技术分享：企业级IM王者——钉钉在后端架构上的过人之处

[12] 一套亿级用户的IM架构技术干货(上篇)：整体架构、服务拆分等

[13] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[14] 闲鱼亿级IM消息系统的架构演进之路

[15] 基于实践：一套百万消息量小规模IM系统技术要点总结

[16] 一套十万级TPS的IM综合消息系统的架构实践与思考

[17] vivo直播系统中IM消息模块的架构实践

[18] 一套分布式IM即时通讯系统的技术选型和架构设计

[19] 微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

[20] 携程技术分享：亿级流量的办公IM及开放平台技术实践

（本文已同步发布于：http://www.52im.net/thread-4764-1-1.html）

posted @ 2025-01-09 12:42 Jack Jiang 阅读(56) | 评论 (0) | 编辑收藏

开源IM聊天程序HarmonyChat：基于鸿蒙NEXT的WebSocket协议

摘要: 1、HarmonyChat是什么？HarmonyChat是一个简洁的鸿蒙NEXT上的基于WebSocket协议的聊天客户端，它基于MobileIMSDK通信库，有完善的网络通信通力、简洁的聊天界面UI、合理的代码拆分和逻辑实现，非常适合学习研究或直接用于简单的鸿蒙NEXT单页聊天项目中。HarmonyChat的源码下载请见本文：“5、源码的开源仓库地址”。2... 阅读全文

posted @ 2025-01-02 11:21 Jack Jiang 阅读(78) | 评论 (0) | 编辑收藏

开源即时通讯IM框架MobileIMSDK的鸿蒙NEXT端开发快速入门

相关链接：

① MobileIMSDK-鸿蒙端的详细介绍
② MobileIMSDK-鸿蒙端的开发手册new（* 精编PDF版）

一、理论知识准备

您需要对鸿蒙Next和ArkTS开发有所了解：

您需要对WebSocket技术有所了解：

HTML5的标准WebSocket协议文档、API手册：

1）WebSocket 的 API 手册
2）WebSocket 的标准文档

鸿蒙Next的WebSocket文档和手册：

1）鸿蒙Next的WebSocket官方文档

小提示：鸿蒙Next中的WebSocket API跟标准HTML5中的WebSocket接口及用法略有不同，但主要API都能一一对应，相差不大。

二、开发工具准备

1）DevEco-Studio：

（JackJiang 使用的版本号如上图所示，为了方便直接引用工程，建议你也使用此版或较新版本）

2）一站式下载地址：鸿蒙官网下载地址点此进入。（需要注册成为开发者才能下载哟！）

3）DevEco-Studio效果预览：

三、SDK 文件用途说明

3.1文件概览

纯ArkTS实现，无任何第3方库依赖，更无本地原生代码混编：

MobileIMSDK-鸿蒙端SDK本身只是ets文件源码的集合，自带的Demo代码只是为了方便随时测试SDK代码，目的主要是用于演示SDK的API调用，Demo代码不属于SDK框架的一部分。

大致的目录说明：

3.2详细说明

SDK 各模块/文件作用说明：

四、主要API接口和用途说明

* 主要API文档地址是：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/

1）ClientCoreSDK.getInstance().loginHasInit：

用途：是否已经完成过首次登陆。
说明：用户一旦从自已的应用中完成登陆IM服务器后，本方法就会一直返回true（直到退出登陆IM）。
返回值：{boolean}，true表示已完成首次成功登陆（即已经成功登陆过IM服务端了，后面掉线时不影响此标识），否则表示尚未连接IM服务器。

2）ClientCoreSDK.getInstance().connectedToServer：

用途：是否在线。
说明：表示网络连接是否正常。
返回值：{boolean}，true表示网络连接正常，否则表示已掉线，本字段只在this._logined=true时有意义（如果都没有登陆到IM服务器，怎么存在在线或掉线的概念呢）。

3）ClientCoreSDK.getInstance().currentLoginInfo：

用途：保存登陆时提交的登陆信息（用户名、密码/token等）。
说明：格式形如：{loginUserId:'',loginToken:''}，此返回值的内容由调用登陆函数 loginImpl()时传入的内容决定。字段定义详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1697l。

4）ClientCoreSDK.getInstance().init(eventHub: common.EventHub): void：

用途：初始化SDK核心。
说明：不同于MobileIMSDK的iOS和Java客户端，本方法需要由开发者调用，以确保MobileIMSDK核心已被初始化完成。
本方法被调用后， #isInitialed() 将返回true，否则返回false。

5）ClientCoreSDK.getInstance().release(): void：

用途：保释放MobileIMSDK框架资源统一方法。
说明：本方法建议在退出登陆（或退出APP时）时调用。调用时将尝试关闭所有MobileIMSDK框架的后台守护线程并同设置核心框架init=false、loginHasInit=false、connectedToServer=false。

6）LocalDataSender.getInstance().sendLogin(loginInfo: PLoginInfo | undefined): number：

用途：发送登陆(连接)信息给服务端。
说明：不同于其它IM框架，本框架的登录和连接高度封装在了一个sendLogin方法中，无需单独再去connect服务器，大大简化了SDK的使用。loginInfo登陆信息各字段定义见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1697。

7）LocalDataSender.getInstance().sendLoginout(): number：

用途：发送注销登陆信息。
说明：此方法的调用将被本库理解为退出库的使用，本方法将会额外调用资源释放方法 ClientCoreSDK#release() ，以保证资源释放。本方法调用后，除非再次进行登陆过程，否则核心库将处于初始未初始化状态。

8）LocalDataSender.getInstance().sendCommonDataPlain(dataContentWidthStr: string, to_user_id: string, QoS: boolean = true, fingerPrint: string = '', typeu: number = -1): number：

用途：向某人发送一条消息。
参数dataContentWidthStr：要发送的数据内容（字符串方式组织）。
参数to_user_id：要发送到的目标用户id。
参数QoS ：true表示需QoS机制支持，否则不需要。
参数fingerPrint：QoS机制中要用到的指纹码（即消息包唯一id），可设为null，生成方法见 Protocal.genFingerPrint()。
参数typeu：应用层专用字段——用于应用层存放聊天、推送等场景下的消息类型。注意：此值为-1时表示未定义。MobileIMSDK框架中，本字段为保留字段，不参与框架的核心算法，专留作应用层自行定义和使用。
返回值：0表示数据发出成功，否则返回的是错误码，see ErrorCode。

9）LocalDataSender.getInstance().sendCommonData(p: Protocal): number：

用途：通用数据协议包的发送根方法。
参数p：{Protocal} 要发送的消息协议包对象，Protocal详情请见“/module/mb_constants.js”下的createCommonData函数说明。
返回值：0表示数据发出成功，否则返回的是错误码，see ErrorCode。

10）SocketEvent.SOCKET_EVENT_ON_RECIEVE_MESSAGE事件通知：

用途：以便收到聊天消息时在UI上展现出来（事件通知于收到IM消息时）。
推荐用法：开发者可在此通知中处理收到的各种IM消息。
参数1： {Protocal}：详情请见Protocal类定义：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1350。

11）SocketEvent.SOCKET_EVENT_ON_LOGIN_RESPONSE事件通知：

用途：本地用户的登陆结果回调事件通知（此事件发生时表示客户端已登陆/连接或重连完成）。
推荐用法：开发者可在此事件中处理登录连接和掉线重连响应反馈。
参数1： {PLoginInfoResponse}：API文档详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1434。

12）SocketEvent.SOCKET_EVENT_ON_LINK_CLOSE事件通知：

用途：与服务端的通信断开的回调事件通知（此事件发生时表示客户端已掉线）。
该消息只有在客户端连接服务器成功之后网络异常中断之时触发。导致与与服务端的通信断开的原因有（但不限于）：无线网络信号不稳定、WiFi与2G/3G/4G/5G等同开情况下的网络切换、手机系统的省电策略等。
推荐用法：开发者可在此通知中处理掉线时的界面状态更新等，比如设置将界面上的“在线”文字更新成“离线”。

13）SocketEvent.SOCKET_EVENT_PING事件通知：

用途：本地发出心跳包后的回调通知（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

14）SocketEvent.SOCKET_EVENT_PONG事件通知：

用途：收到服务端的心跳包反馈的回调通知（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

15）SocketEvent.SOCKET_EVENT_KICKOUT事件通知：

用途：收到服务端反馈的错误信息指令（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数1：{PKickoutInfo}：非空，详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1428。

16）SocketEvent.SOCKET_EVENT_ON_ERROR_RESPONSE事件通知：

用途：收到服务端反馈的错误信息指令（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数1：{PErrorResponse}：非空，详见：http://docs.52im.net/extend/docs/api/mobileimsdk/harmony/#1430。

17）SocketEvent.SOCKET_EVENT_RECONNECT_ATTEMPT事件通知：

用途：“自动重连尝试中”事件（本回调并非MobileIMSDK-鸿蒙端核心逻辑，开发者可以不需要实现！）。
参数 code ：{numeric}：0：已停止，1：持续运行中，2：单次脉搏

18）SocketEvent.SOCKET_EVENT_MESSAGE_LOST事件通知：

用途：消息未送达的回调事件通知。
发生场景：比如用户刚发完消息但网络已经断掉了的情况下，表现形式如：就像手机qq或微信一样消息气泡边上会出现红色图标以示没有发送成功）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送失败”以便即时告之用户。
参数1：{Array}：由框架的QoS算法判定出来的未送达消息列表。

19）SocketEvent.SOCKET_EVENT_MESSAGE_BE_RECIEVED事件通知：

用途：消息已被对方收到的回调事件通知。
说明：目前，判定消息被对方收到是有两种可能：1) 对方确实是在线并且实时收到了；2) 对方不在线或者服务端转发过程中出错了，由服务端进行离线存储成功后的反馈（此种情况严格来讲不能算是“已被收到”，但对于应用层来说，离线存储了的消息原则上就是已送达了的消息：因为用户下次登陆时肯定能通过HTTP协议取到）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送成功”以便即时告之用户。
参数1：{String}：已被收到的消息的指纹特征码（唯一ID），应用层可据此ID找到原先已发的消息并可在UI是将其标记为”已送达“或”已读“以便提升用户体验。

五、如何引入SDK库文件

5.1方法一：源码形式

第一步：先将整个sdk源码module复制到您的鸿蒙工程中：

第二步：配置您的工程，确保正确引用了MobileIMSDK鸿蒙SDK的源码module：

5.2方法二：.har包形式

第一步：先将MobileIMSDK鸿蒙端SDK的.har包放入您的鸿蒙Next主module中（比如新建的libs目录下）：

第二步：配置您的工程，确保正确引用了MobileIMSDK鸿蒙SDK的.har包：

六、如何调用SDK代码

6.1第一步：设置ws/wss连接URL

设置您自已部署的MobileIMSDK服务端IP或域名的（示例详见Demo中的 IMClientManager.ets 文件）：

提示：MobileIMSDK的服务端Demo部署指南请见 http://www.52im.net/thread-63-1-1.html。

6.2第二步：初始化SDK

调用ClientCoreSDK中的init()方法进行初始化（示例详见Demo中的I MClientManager.ets 文件）：

6.3第三步：注册框架事件

注册MobileIMSDK框架级的事件监听（示例详见Demo中的 IMClientManager.ets 文件）：

6.4第四步：调用登录方法（框架内部会自动启动connect全过程）

调用登录方法（示例详见Demo中的 LoginPage.ets 文件）：

提示：不同于其它IM框架，本框架的登录和连接高度封装在了一个sendLogin方法中，无需单独再去connect服务器，大大简化了SDK的使用。

七、Demo运行效果和功能说明

八、Demo运行方法

8.1重要说明

特别说明：MobileIMSDK的鸿蒙端工程（包括Demo代码），不依赖任何第3方库，也不存在任何Native代码混编，完全使用ArkTS、ArkUI官方标准API实现，所以你在拿到MobileIMSDK的鸿蒙端工程后直接开箱即可运行，切莫搞复杂、不要私自加戏！

8.2配置要连接的MobileIMSDK服务器IP

注意：下图中登陆连接的IP地址请设置为您自已的MobileIMSDK服务器地址哦。

友情提示： MobileIMSDK的服务端该怎么部署就不是本手册要讨论的内容了，你可以参见《即时通讯框架MobileIMSDK的Demo使用帮助：Server端》。

▲ 配置要连接的服务器IP（以上代码详见IMClientManager.ets文件）

8.3启动模拟器

注意：如果没有新建模拟器可以自已新建一个。另外也可以使用支持鸿蒙Next的真机，打开“开发者模式”并插入USB线即可使用。

▲ 点击绿色箭头，立即启动模拟器！

8.4一键运行

如下图所示，点击绿色“运行”按钮后，将自动在模拟器或真机里显示自带的Demo界面了：

8.5运行效果

1）Demo的登陆界面运行截图：

2）Demo的主界面运行截图：

3）Demo运行的同时，可以查看详细的log输出（方便调试）：

九、引用资料

[1] 鸿蒙Next官方开发资料

[2] MobileIMSDK开源框架的API文档

[3] MobileIMSDK开源IM框架源码（Github地址点此）

[4] MobileIMSDK-鸿蒙Next端发布公告

[5] MobileIMSDK-鸿蒙Next端详细介绍

[6] MobileIMSDK-鸿蒙Next端开发手册（* 精编PDF版）

[7] MobileIMSDK的Server端Demo使用帮助

posted @ 2024-12-30 12:08 Jack Jiang 阅读(79) | 评论 (0) | 编辑收藏

开源轻量级IM框架MobileIMSDK的鸿蒙NEXT客户端库已发布

一、基本介绍

MobileIMSDK-鸿蒙端是一套基于鸿蒙Next（纯血鸿蒙）系统的IM即时通讯客户端库：

1）超轻量级（编译后库文件仅50KB）、无任何第3方库依赖（开箱即用）；
2）纯ArkTS编写、无Native代码、高度提炼、简单易用；
3）基于鸿蒙Next标准WebSocket API，简洁优雅；
4）可运行于任何支持鸿蒙Next的平台；
5）能与 MobileIMSDK的各种客户端完美互通；
6）可应用于鸿蒙Next中的消息推送、客服聊天、企业OA、IM等场景。

二、与MobileIMSDK的关系

MobileIMSDK-鸿蒙端是基于鸿蒙Next标准WebSocketAPI的 MobileIMSDK配套客户端库。

以下是MobileIMSDK的最新通信架构图：

MobileIMSDK是一套专为移动端开发的原创开源IM通信层框架：

1）历经10年、久经考验；
2）超轻量级、高度提炼，lib包50KB以内；
3）精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
4）客户端支持iOS、Android、标准Java、H5(暂未开源)、微信小程序(暂未开源)、Uniapp(暂未开源)、鸿蒙Next(Demo工程源码)new；
5）服务端基于Netty，性能卓越、易于扩展；
6）可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
7）可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

PS：MobileIMSDK一直在持续开发和升级中，本鸿蒙客户端是MobileIMSDK工程的最新成果。

三、设计目标

直接使用鸿蒙Next的WebSocket API开撸，有以下问题和劣势：

1）功能有限：没有心跳保活、断线重连、消息送达保证（重传和去重）等即时通讯关键算法和逻辑；
2）API 简陋：在如此有限的API接口下，能逻辑清晰且健壮地实现并组合心跳保活、断线重连、消息送达保证等算法，需要相当高的技术掌控力；
3）逻辑耦合：经验欠缺的开发人员，会将WebSocket通信逻辑与前端ArkUI界面代码混在一起，使得UI界面的编写、维护、改版都非常困难。

针对以上问题，而MobileIMSDK-鸿蒙端库将让开发者专注于UI应用层的开发，网络通信层的专业代码交由SDK开发人员，从而解偶UI前端和通信层的逻辑耦合性，大大降低技术复杂度和应用门槛。

MobileIMSDK-鸿蒙端库的设计目标是为您的开发带来以下便利：

1）界面与通信解偶：UI界面与网络通信层代码解耦，UI界面的重构、维护、改版都非常容易和优雅；
2）轻量级和兼容性：受益于坚持使用鸿蒙Next的标准WebSocket API，简洁轻量，无需任何额外库依赖；
3）核心内聚和收敛：得益于长期的提炼和经验积累，SDK核心层高度封装，开发者无需理解复杂算法即可简单上手。
4）纯 ArkTS 实现：纯ArkTS编写，无重量级框架和库依赖（更无Native代码），可干净利落地对接各种既有系统；
5）跨平台运行能力：受益于鸿蒙系统的跨端特性，理论上本SDK可运行于任何支持鸿蒙Next的平台上。

四、技术亮点

1）超级轻量纯净：超轻量级——纯ArkTS编写且无任何第3方库依赖，编译后库文件仅50KB；
2）高内聚易使用：高度提炼——简单易用，所有核心类皆设计为单例——到手即用、高度容错；
3）跨端支持好：基于鸿蒙Next的标准WebSocket API（无Native代码依赖），理论上可很好地运行于任何支持最新鸿蒙的平台上；
4）断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；
5）送达保证机制：完善的QoS消息送达保证机制（自动重传、消息去重、状态反馈等），不漏过每一条消息；
6）通信协议封装：实现了一个对上层透明的即时通讯通信协议模型；
7）身份认证机制：实现了简单合理的身份认证机制；
8）完善的log信息：在开发调试阶段，确保每一个算法关键步骤都有日志输出，让您的运行调试更为便利；
9）界面代码解耦：实现了UI界面代码与SDK网络通信代码解偶，防止界面代码跟IM核心代码混在一起，不利于持续升级、重用和维护；
10）多端协议兼容：实现了与MobileIMSDK各种客户端完全兼容的协议模型。

五、文件组成

完整工程文件概览：

SDK代码文件用途说明：

精编注释级的源码：

六、Demo功能说明

（点击可看大图 ▲）

七、实际运行效果

1）Demo 的登陆界面运行截图（点击可看大图 ▼）：

2）Demo 的主界面运行截图（点击可看大图 ▼）：

3）Demo 运行的同时，可以查看详细的 log 输出（方便调试）：

八、详尽开发者手册

① 开发者手册（网页版）：点此进入 ◀

② 开发者手册（PDF精编版）：点此进入 ◀（* 推荐）

九、相关资料

[1] 鸿蒙Next官方开发资料

[2] MobileIMSDK开源框架的API文档

[3] MobileIMSDK开源IM框架源码（Github地址点此）

[4] MobileIMSDK-鸿蒙Next端发布公告

[5] MobileIMSDK-鸿蒙Next端开发手册（* 推荐）

posted @ 2024-12-23 11:31 Jack Jiang 阅读(75) | 评论 (0) | 编辑收藏

不为人知的网络编程(十九)：能Ping通，TCP就一定能连接和通信吗？

摘要: 本文由小白debug分享，原题“能 ping 通，TCP 就一定能连通吗？”，下文进行了排版和内容优化。1、引言平时，我们想要知道，自己的机器到目的机器之间，网络通不通，一般会执行ping命令。一般对于状况良好的网络来说，你能看到它对应的loss丢包率为0%，也就是所谓的能ping通。如果看到丢包率100%，也就是ping不通。▲ ping正常▲ p... 阅读全文

posted @ 2024-12-19 11:29 Jack Jiang 阅读(73) | 评论 (0) | 编辑收藏

网络编程懒人入门(十六)：手把手教你使用网络编程抓包神器Wireshark

本文由转转QA刘宝成分享，原题“抓包工具wireshark的使用”，下文进行了排版和内容优化。

1、引言

跟网络通信有关的应用场景下（比如Web系统、IM聊天应用、消息推送系统等），经常要用到网络抓包工具，用以验证客户端和服务器之间收发的数据包是否正确。以IM聊天系统为例，TLS/SSL加密开启到底有没有成功？加密效果怎么样？端到端加密后的聊天内容安全强度够不够？等等这些疑问，都需要通过网络抓包抓出样本来分析和验证。

Wireshark是一款开源和跨平台的抓包工具。它通过调用操作系统底层的API，直接捕获网卡上的数据包，因此捕获的数据包详细、功能强大。但Wireshark本身稍显复杂，本文将以用抓包实例，手把手带你一步步用好Wireshark，并真正理解抓到的数据包的各项含义。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4752-1-1.html）

2、系列文章

本文是系列文章中的第16篇，本系列文章的大纲如下：

网络编程懒人入门(一)：快速理解网络通信协议（上篇）

网络编程懒人入门(二)：快速理解网络通信协议（下篇）

网络编程懒人入门(三)：快速理解TCP协议一篇就够

网络编程懒人入门(四)：快速理解TCP和UDP的差异

网络编程懒人入门(五)：快速理解为什么说UDP有时比TCP更有优势

网络编程懒人入门(六)：史上最通俗的集线器、交换机、路由器功能原理入门

网络编程懒人入门(七)：深入浅出，全面理解HTTP协议

网络编程懒人入门(八)：手把手教你写基于TCP的Socket长连接

网络编程懒人入门(九)：通俗讲解，有了IP地址，为何还要用MAC地址？

网络编程懒人入门(十)：一泡尿的时间，快速读懂QUIC协议

网络编程懒人入门(十一)：一文读懂什么是IPv6

网络编程懒人入门(十二)：快速读懂Http/3协议，一篇就够！

网络编程懒人入门(十三)：一泡尿的时间，快速搞懂TCP和UDP的区别

网络编程懒人入门(十四)：到底什么是Socket？一文即懂！

网络编程懒人入门(十五)：外行也能读懂的网络硬件设备功能原理速成

网络编程懒人入门(十六)：手把手教你使用网络编程抓包神器Wireshark（* 本文)

3、Wireshak的安装和基本使用

安装：直接通过官方下载对应的安装包即可 https://www.wireshark.org/download.html。

使用：

如上图所示：

1）左上角为几个最常用的按钮：开始捕获、停止捕获、重新捕获、捕获选项；
2）中间为捕获过滤器，用于过滤需要捕获的数据包；
3）捕获过滤器下面可以选择需要捕获的网络连接。

下图是用Wireshark捕获的数据包：

可以看到，数据包结构是与OSI的七层模型相对应的，会详细显示每层的信息。

更多Wireshak的基本用法和手册，可以详读以下两篇：

4、快速理解Wireshak的过滤器

由于Wireshark直接捕获底层网络数据包，导致其捕获的数据包数量通常较大。为了便于筛选数据包，Wireshark提供了两种过滤器。

4.1捕获过滤器

用于设置什么样的数据包保存在捕获结果中，避免产生过大的日志文件。

需要在开始捕获之前设置，相对简单：

捕获过滤器语法如上，一般用于过滤协议、IP、端口等基本信息。

例如：

1）显示目的TCP端口为8080的包：tcp dst port 8080
2）显示来源IP地址为192.168.171.201的封包：ip src host 192.168.171.201

4.2显示过滤器

用于在捕获日志中查找数据包，可以在捕获过程中或者捕获后随时更改。

功能更加强大和复杂：

显示过滤器语法如上，比捕获过滤器更为强大，可以针对不同协议，过滤不同的字段。

例如：

1）源地址是192.168.171.0网段的数据包：ip.src == 192.168.171.0/24
2）所有的HTTP POST请求：http.request.method== "POST"
3）显示包含TCP SYN标志的包：tcp.flags.syn == 0×02
4）URL中包含baidu的http请求：http.request.uri contains "baidu"

5、用什么例子来动手学习Wireshak？

本来想借用RainbowChat 这种IM聊天中的TLS/SSL数据包来的分析来实战Wireshak，但考虑到IM通常都是私有协议，不利于理解。

因而接下来的内容将以HTTPS为例，来详细讲解如何借助Wireshak抓出的数据包（正好也顺验证之前那么多跟TLS/SSL加密有关的文章），详细理解和学习Wireshak的使用，同进加深对HTTPS协议本身的理解。

6、什么是HTTPS

SSL/TLS：SSL (Secure Sockets Layer)，最初由Netscape公司设计，后来逐渐演变为TLS(Transport Layer Security Protocol)，即“传输层安全协议”。

该协议工作在TCP层之上，应用层之下。在TCP连接完成后，进行通信双方的身份认证，并协商一些跟加密相关的工作。完成协商之后，就可以对双方发送的信息进行加密/解密了。

HTTPS：可以理解为HTTP over SSL/TLS。即在SSL/TLS协议之上运行HTTP协议，以保证通信的安全性。

更多深入的学习，可以从下面这几篇精选的资料开始：

7、HTTPS的SSL/TLS握手过程

SSL/TLS的握手过程主要需要解决两个问题：

1）证明通信双方身份的真实性；
2）协商后续通信过程中使用的密钥；

如下图所示：左侧是一个简单的握手流程，右侧为对应的抓包结果，我们可以对比分析一下SSL/TLS的握手过程。

1）C：ClientHello

客户端发送协议版本号、sessionid、随机数、加密算法列表、扩展字段等信息：

2）S：ServerHello

与客户端类似，不同之处在于确定了所使用的加密算法等：

3）S：Certificate

服务端向客户端发送自己的CA证书。客户端通过证书信任链查看该证书的真实性，以验证服务端的身份。其实SSL/TLS协议还支持客户端的CA证书验证，不过在实际中使用较少。

4）S：ServerKey Exchange

服务端根据之前选择的加密算法，传输密钥协商需要的参数。从之前的报文可以看到，这里选择的是EC-DH算法。

5）S：ServerHello Done

该报文表示服务端发送完成。

6）C：ClientKey Exchange

同理，客户端也要根据之前选择的加密算法，传输相应的参数。

7）C：ChangeCipher Spec

经过上述步骤，客户端和服务器双方已经完成了身份认证，并且交换了生成密钥的全部参数。双方会根据对应的算法，各自生成加密密钥，然后就可以进行加密通信了。这个报文表示切换到密文模式，后续消息都通过加密传输。

8）C：Finished

客户端表示握手完成。这里会发送一段Verify Data，是使用新生成的密钥加密后的一段信息。双方通过该信息验证加密算法、密钥是否有效。

9）S：Change Cipher Spec

10）S：Finished

服务段也会发送对应的两条消息作为回应，不再赘述。

8、解密HTTPS报文

握手完成之后，就可以查看客户端发出的HTTP请求了。但我们看到的只是一段加密后的字符串？那么如何对HTTPS报文进行解密呢？

要想解密HTTPS报文，就必须要获取到加密密钥。Chrome、Firefox等浏览器支持将访问网站时使用的密钥输出到文件中。仅需要配置环境变量SSLKEYLOGFILE 即可。

如下：

然后需要将该密钥文件导入到Wireshark中。打开编辑-首选项，选择Protocol-SSL，填写刚才设置的文件路径。

现在，就可以通过Wireshark查看HTTPS请求中的具体信息了！

9、参考资料

[1] TCP/IP详解 - 第17章·TCP：传输控制协议

[2] 理论经典：TCP协议的3次握手与4次挥手过程详解

[3] 理论联系实际：Wireshark抓包分析TCP 3次握手、4次挥手过程

[4] 网络通讯数据抓包和分析工具 Wireshark 使用教程(中文) [附件下载]

[5] 如果这样来理解HTTPS原理，一篇就够了

[6] 你知道，HTTPS用的是对称加密还是非对称加密？

[7] 为什么要用HTTPS？深入浅出，探密短连接的安全性

[8] 一分钟理解 HTTPS 到底解决了什么问题

[9] 一篇读懂HTTPS：加密原理、安全逻辑、数字证书等

[10] IM聊天系统安全手段之通信连接层加密技术

[11] IM聊天系统安全手段之传输内容端到端加密技术

[12] 传输层安全协议SSL/TLS的Java平台实现简介和Demo演示

[13] 微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[14] 手把手教你为基于Netty的IM生成自签名SSL/TLS证书

（本文已同步发布于：http://www.52im.net/thread-4752-1-1.html）

posted @ 2024-12-12 11:24 Jack Jiang 阅读(124) | 评论 (0) | 编辑收藏

Web端IM聊天消息该不该用浏览器本地存储？一文即懂！

摘要: 本文由转转技术团队刘筱雨分享，原题“一文读懂浏览器本地存储：Web Storage”，下文进行了排版和内容优化。1、引言鉴于目前浏览器技术的进步（主要是HTML5的普及），在Web网页端IM聊天应用的技术选型阶段，很多开发者都会纠结到底该不该像原生移动端IM那样将聊天记录缓存在浏览器的本地，还是像传统Web端即时通讯那样继续存储在服务端？本文将为你简洁明了地讲清楚浏览器本地... 阅读全文

posted @ 2024-11-28 11:00 Jack Jiang 阅读(94) | 评论 (0) | 编辑收藏

即时通讯技术文集（第44期）：微信、QQ技术精华合集(Part1) [共14篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第44 期。

[-1-] 微信朋友圈千亿访问量背后的技术挑战和实践总结

[链接] http://www.52im.net/thread-1569-1-1.html

[摘要] 朋友圈的数据是永远存储的，而且随着业务的快速发展，存储容量、带宽和设备的消耗大量增加，尤其重大节日带来的使用量增长，更加剧了消耗，也给运维人员的保障带来了巨大压力。

[-2-] 腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)

[链接] http://www.52im.net/thread-1559-1-1.html

[摘要] 本次文章跟大家分享如何在保障质量（指的是图片质量、音视频质量）前提下所做的带宽和网络流量压缩，进而达到运营成本的优化。

[-3-] 腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)

[链接] http://www.52im.net/thread-1560-1-1.html

[摘要] 本文接上篇《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》，继续腾讯公司分享如何在保障质量（指的是图片质量、音视频质量）前提下所做的带宽和网络流量压缩，进而达到运营成本的优化。

[-4-] IM全文检索技术专题(二)：微信移动端的全文检索多音字问题解决方案

[链接] http://www.52im.net/thread-1545-1-1.html

[摘要] 本文重点讲述微信安卓客户端在SQLite FTS5的基础上，多音字问题的解决方案。

[-5-] 腾讯技术分享：Android版手机QQ的缓存监控与优化实践

[链接] http://www.52im.net/thread-1524-1-1.html

[摘要] 对于Android应用来说，内存向来是比较重要的性能指标。内存占用过高，会影响应用的流畅度，甚至引发OOM，非常影响用户体验。因此，内存优化也向来是行业内的重点工作项和难点工作项。

[-6 -] 微信团队分享：iOS版微信的高性能通用key-value组件技术实践

[链接] http://www.52im.net/thread-1461-1-1.html

[摘要] 本文要分享的是iOS版微信内部正在推广和使用的一个高性能通用key-value 组件的技术实践过程，该组件在微信内部被命名为MMKV（以下简称MMKV）。

[-7-] 微信团队分享：iOS版微信是如何防止特殊字符导致的炸群、APP崩溃的？

[链接] http://www.52im.net/thread-1449-1-1.html

[摘要] 一般来说，特殊字符闪退是系统漏洞引起，只要更新系统就行。但大部分用户不愿意更新系统，而苹果也不一定第一时间解决问题。另外后台可以拦截恶意文本传递，但对于本地已下发的消息，后台没有办法让它删除。所以客户端还是要做些保护预防特殊字符闪退。

[-8-] 腾讯技术分享：Android手Q的线程死锁监控系统技术实践

[链接] http://www.52im.net/thread-1442-1-1.html

[摘要] 本文将详细介绍Android版手Q中这套线程卡死监控系统设计思路以及技术实践总结。

[-9 -] 微信团队原创分享：iOS版微信的内存监控系统技术实践

[链接] http://www.52im.net/thread-1422-1-1.html

[摘要] 二期版本以Instruments的Allocations为参考，着重四个方面优化，分别是数据收集、存储、上报及展现。

[-10-] 让互联网更快：新一代QUIC协议在腾讯的技术实践分享

[链接] http://www.52im.net/thread-1407-1-1.html

[摘要] 本文主要介绍 QUIC 协议在腾讯内部及腾讯云上的实践和性能优化，新一代的互联网协议需要大家一起努力推动，你准备好了吗？

[-11 -] iOS后台唤醒实战：微信收款到账语音提醒技术总结

[链接] http://www.52im.net/thread-1404-1-1.html

[摘要] 本文借此总结了iOS平台上的APP后台唤醒和语音合成、播放等一系列技术开发过程中遇到的坑和小技巧，希望与您分享。

[-12 -] 腾讯技术分享：社交网络图片的带宽压缩技术演进之路

[链接] http://www.52im.net/thread-1391-1-1.html

[摘要] 为了进一步降低运营带宽成本，减小用户访问流量及提升页面加载速度，社交网络 CDN运维紧跟行业图片优化趋势，创新引入WebP、SharpP、自适应分辨率、Guetzli等图像压缩技术到现网，经过三年多的多部门联合攻关，已逐渐形成一套覆盖全图片类型（JPEG、JPG、PNG、WebP、GIF）多场景的图片压缩运营体系，适用于各类型终端，每年节约外网带宽几百G。

[-13 -] 微信团队分享：视频图像的超分辨率技术原理和应用场景

[链接] http://www.52im.net/thread-1377-1-1.html

[摘要] 本文试着讲述超分辨率技术的正确打开方式，浅谈视频图像的超分辨率技术的基本概念和应用场景等问题。

[-14 -] 微信团队分享：微信每日亿次实时音视频聊天背后的技术解密

[链接] http://www.52im.net/thread-1311-1-1.html

[摘要] 本文将为大家介绍微信实时音视频聊天在不同发展阶段的各个关键视频技术环节采用的方案，同时分享在实时音视频聊天中的视频编码器研发的方法和经验。

👉52im社区本周新文：《Web端IM聊天消息该不该用浏览器本地存储？一文即懂！》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-11-27 11:06 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

Wasm在即时通讯IM场景下的Web端应用性能提升初探

摘要: 本文由得物技术WWQ分享，原题“基于IM场景下的Wasm初探：提升Web应用性能”，下文进行了排版和内容优化。1、什么是WasmWasm，全称 WebAssembly，官网描述是一种用于基于堆栈的虚拟机的二进制指令格式。Wasm被设计为一个可移植的目标，用于编译C/C++/Rust等高级语言，支持在Web上部署客户端和服务器应用程序。简单的来说，Wasm就是使用C... 阅读全文

posted @ 2024-11-21 12:56 Jack Jiang 阅读(90) | 评论 (0) | 编辑收藏

即时通讯技术文集（第43期）：直播技术合集(Part3) [共13篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第 43 期。

[-1-] 直播系统聊天技术(一)：百万在线的美拍直播弹幕系统的实时推送技术实践之路

[链接] http://www.52im.net/thread-1236-1-1.html

[摘要] 直播弹幕指直播间的用户，礼物，评论，点赞等消息，是直播间交互的重要手段。美拍直播弹幕系统从 2015 年 11 月到现在，经过了三个阶段的演进，目前能支撑百万用户同时在线。比较好地诠释了根据项目的发展阶段进行平衡演进的过程。这三个阶段分别是快速上线、高可用保障体系建设、长连接演进。具体我将在正文中展开，请继续往下阅读。

[-2-] 直播系统聊天技术(二)：阿里电商IM消息平台，在群聊、直播场景下的技术实践

[链接] http://www.52im.net/thread-3252-1-1.html

[摘要] 本文来自淘宝消息业务团队的技术实践分享，分析了电商IM消息平台在非传统IM应用场景下的高发并、强互动群聊和直播业务中的技术特点，总结并分享了在这些场景下实现大量多对多实时消息分发投递的一些架构方面的设计实践。

[-3-] 直播系统聊天技术(三)：微信直播聊天室单房间1500万在线的消息架构演进之路

[链接] http://www.52im.net/thread-3376-1-1.html

[摘要] 本文将回顾微信直播聊天室单房间海量用户同时在线的消息组件技术设计和架构演进，希望能为你的直播聊天互动中的实时聊天消息架构设计带来启发。

[-4-] 直播系统聊天技术(四)：百度直播的海量用户实时消息系统架构演进实践

[链接] http://www.52im.net/thread-3515-1-1.html

[摘要] 本文主要分享的是百度直播的消息系统的架构设计实践和演进过程。

[-5-] 直播系统聊天技术(五)：微信小游戏直播在Android端的跨进程渲染推流实践

[链接] http://www.52im.net/thread-3594-1-1.html

[摘要] 微信小游戏出于性能和安全等一系列考虑，运行在一个独立的进程中，在该环境中不会初始化视频号直播相关的模块。这就意味着小游戏的音视频数据必须跨进程传输到主进程进行推流，给我们实现小游戏直播带来了一系列挑战。

[-6-] 直播系统聊天技术(六)：百万人在线的直播间实时聊天消息分发技术实践

[链接] http://www.52im.net/thread-3799-1-1.html

[摘要] 本文将基于融云在直播技术实践的背景，分享了单直播间百万用户在线量的实时消息分发的技术经验总结，希望带给你启发。

[-7-] 直播系统聊天技术(七)：直播间海量聊天消息的架构设计难点实践

[链接] http://www.52im.net/thread-3835-1-1.html

[摘要] 本文将主要从高可用、弹性扩缩容、用户管理、消息分发、客户端优化等角度，分享直播间海量聊天消息的架构设计技术难点的实践经验。

[-8-] 视频直播技术干货(十一)：超低延时视频直播技术的演进之路

[链接] http://www.52im.net/thread-4587-1-1.html

[摘要] 本文将带您了解超低延时视频直播技术的优化和演进历程。

[-9 -] 视频直播技术干货(十二)：从入门到放弃，快速学习Android端直播技术

[链接] http://www.52im.net/thread-4714-1-1.html

[摘要] 本文详细介绍了Android端直播技术的全貌，涵盖了从实时音视频采集、编码、传输到解码与播放的各个环节。文章还探讨了直播中音视频同步、编解码器选择、传输协议以及直播延迟优化等关键问题。希望本文能为你提供有关Andriod端直播技术的深入理解和实践指导。

[-10-] 海量实时消息的视频直播系统架构演进之路(视频+PPT)[附件下载]

[链接] http://www.52im.net/thread-1562-1-1.html

[摘要] 本次主要分享的是融云视频直播互动平台的实时消息可靠性的设计方案,支撑无上限消息并发的架构演进,单机吞吐性能的优化历程。

[-11 -] YY直播在移动弱网环境下的深度优化实践分享(视频+PPT)[附件下载]

[链接] http://www.52im.net/thread-1379-1-1.html

[摘要] 本次分享介绍了 YY 直播针对质量较差网络（简称弱网）的环境，基于数据分析，在客户端和云端所采取的一系列技术手段。同时，就如何改善上下行网络环境，也给出自己的一些解决方案。

[-12 -] 从0到1：万人在线的实时音视频直播技术实践分享(视频+PPT) [附件下载]

[链接] http://www.52im.net/thread-213-1-1.html

[摘要] 本次分享由“跟谁学”CTO带来，介绍跟谁学的团队是怎样在很短的时间内，构建了一个支持万人实时音视频直播的在线教室。

[-13 -] 在线音视频直播室服务端架构最佳实践(视频+PPT) [附件下载]

[链接] http://www.52im.net/thread-196-1-1.html

[摘要] 本期演讲嘉宾将为大家带来金山视频云在社交直播场景的支撑技术架构和优化方案。

👉52im社区本周新文：《Wasm在即时通讯IM场景下的Web端应用性能提升初探》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-11-20 11:34 Jack Jiang 阅读(90) | 评论 (0) | 编辑收藏

移动端弱网优化专题(十四)：携程APP移动网络优化实践（弱网识别篇）

摘要: 本文由携程技术团队Aaron分享，原题“干货 | 携程弱网识别技术探索”，下文进行了排版和内容优化。1、引言网络优化一直是移动互联网时代的热议话题，弱网识别作为移动端弱网优化的第一步，受到的关注和讨论也是最多的。本文从方案设计、代码开发到技术落地，详尽的分享了携程在移动端弱网识别方面的实践经验，如果你也有类似需求，这篇文章会是一个不错的实操指南。技术交流：- 移动端IM开发... 阅读全文

posted @ 2024-11-14 11:14 Jack Jiang 阅读(93) | 评论 (0) | 编辑收藏

即时通讯技术文集（第42期）：直播技术合集(Part2) [共13篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第42 期。

[-1-] 实时音频的混音在视频直播中的技术原理和实践总结

[链接] http://www.52im.net/thread-1904-1-1.html

[摘要] 今天，我们就来聊一聊混音技术在视频直播应用中的实现原理、方案等，及其在创新玩法中的实践应用。

[-2-] 七牛云技术分享：使用QUIC协议实现实时视频直播0卡顿！

[链接] http://www.52im.net/thread-1406-1-1.html

[摘要] 不做任何开发，就能实现弱网环境下实现实时视频直播零卡顿，听上去是不是天方夜谭？看完这篇文章你就知道，我们是如何做到的。

[-3-] 近期大热的实时直播答题系统的实现思路与技术难点分享

[链接] http://www.52im.net/thread-1369-1-1.html

[摘要] 我们首先分析一下直播答题和传统直播在技术上的不同，然后深度解释一下直播答题解决方案的海量并发派题和收题。

[-4-] P2P技术如何将实时视频直播带宽降低75%？

[链接] http://www.52im.net/thread-1289-1-1.html

[摘要] 那整个系统是怎么设计的？使用了哪些技术来达成目标？接下来我来重点分享一下架构设计和技术细节。

[-5-] 网易云信实时视频直播在TCP数据传输层的一些优化思路

[链接] http://www.52im.net/thread-1254-1-1.html

[摘要] 网易云信的实时视频直播目前使用了TCP进行传输，且基于此，从编码动态适配、发送队列调整、协议优化、socket等做了全流程的优化，确保在限带宽、丢包、时延、抖动，无论单项还是复杂网络，都有非常不错的实际体验。

[-6 -] 首次披露：快手是如何做到百万观众同场看直播仍能秒开且不卡顿的？

[链接] http://www.52im.net/thread-1033-1-1.html

[摘要] 快手拥有5亿注册用户，单个直播间人数峰值已经超过180万，他们针对海量用户，基于大数据技术，在首屏和流畅度优化上做了大量的探索与实践。快手直播是如何设计全链路质量监控方案、如何搭建大数据处理Pipeline 、如何解决开播跳帧、首屏卡顿优化等问题的？本文干货满满，全面解密快手直播大数据技术架构与优化实践。

[-7-] 浅谈实时音视频直播中直接影响用户体验的几项关键技术指标

[链接] http://www.52im.net/thread-953-1-1.html

[摘要] 这两年互联网领域的一个热门关键词就是实时音视频直播，从刚开始的游戏直播和秀场娱乐开始，实时音视频直播带来了远超传统互动的用户体验，现在实时音视频直播已逐渐深入当今主流的互联网应用形态里。我们将逐一分析和总结实时音视频直播中的这几个重要技术指标。

[-8-] 技术揭秘：支持百万级粉丝互动的Facebook实时视频直播

[链接] http://www.52im.net/thread-541-1-1.html

[摘要] 在这篇文章中，我们将粗略地看一下我们在每次发布时解决的问题，我还将向你解释我们为负载均衡和 RTMP 实现问题所选择的解决方案。

[-9 -] 移动端实时视频直播技术实践：如何做到实时秒开、流畅不卡

[链接] http://www.52im.net/thread-530-1-1.html

[摘要] 本次分享将为大家揭开移动端实时音视频直播核心技术的神秘面纱。

[-10-] 实现延迟低于500毫秒的1080P实时音视频直播的实践分享

[链接] http://www.52im.net/thread-528-1-1.html

[摘要] 实时视频直播是很多技术团队及架构师关注的问题，在实时性方面，大部分直播是准实时的——存在 1-3 秒延迟。本文由袁荣喜分享其将1080P高清实时视屏直播延迟控制在 500ms 的背后的技术挑战以及实践结论等，期待与各同行共同讨论、学习和进步。

[-11 -] 浅谈开发实时视频直播平台的技术要点

[链接] http://www.52im.net/thread-475-1-1.html

[摘要] 现在大大小小的公司，甚至个人开发者，都想开发自己的直播网站或App，本文会帮你理清，开发视频直播平台，你需要注意哪些技术要点。

[-12 -] 海量用户IM聊天室的架构设计与实践

[链接] http://www.52im.net/thread-4404-1-1.html

[摘要] 本文将分享网易云信针对海量用户IM聊天室的架构设计与应用实践，希望能带给你启发。

[-13 -] 微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

[链接] http://www.52im.net/thread-4507-1-1.html

[摘要] 功耗优化一直是 app 性能优化中让人头疼的问题，尤其是在直播这种用户观看时长特别久的场景。怎样能在不影响主体验的前提下，进一步优化微信iOS端视频号直播的功耗占用，本文给出了一个不太一样的答案。

👉52im社区本周新文：《移动端弱网优化专题(十四)：携程APP移动网络优化实践（弱网识别篇）》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-11-13 11:58 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

微信后团队分享：微信后台基于Ray的分布式AI计算技术实践

摘要: 本文由微信后台Astra项目团队分享，原题“Ray在微信AI计算中的大规模实践”，下文进行了排版和内容优化。1、引言微信存在大量AI计算的应用场景，主要分为三种：流量分发、产品运营和内容创作。流量分发场景中的 AI 计算主要用于搜索、广告、推荐场景的核心特征生产，产品运营相关的 AI 计算主要用于产品功能相关和内容运营相关（低质、优质、生态建设），由于大模型的兴起，AIGC... 阅读全文

posted @ 2024-11-07 11:07 Jack Jiang 阅读(104) | 评论 (0) | 编辑收藏

社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节

摘要: 本文来自微信团队工程师张文瑞的技术分享，由InfoQ编辑发布，下文有修订和改动。原文地址：infoq.cn/article/1-billion-bonus-from-the-clouds，感谢原作者的分享。一、引言与传统意义上的红包相比，手机端的红包似乎更符合现在年轻一代的习惯。这其中，以春节发红包最为流行。以微信为例，除夕全天微信用户红包总发送量可以达到百亿个，红包峰值收发量为比百万个/秒。本文... 阅读全文

posted @ 2024-11-06 11:52 Jack Jiang 阅读(89) | 评论 (0) | 编辑收藏

不为人知的网络编程(十八)：UDP比TCP高效？还真不一定！

摘要: 本文由LearnLHC分享，原始出处：blog.csdn.net/LearnLHC/article/details/115268028，本文进行了排版和内容优化。1、引言熟悉网络编程的（尤其搞实时音视频聊天技术的）同学们都有个约定俗成的主观论调，一提起UDP和TCP，马上想到的是UDP没有TCP可靠，但UDP肯定比TCP高效。说到UDP比TCP高效，理由是什么呢？事实真是这样吗？跟着本文咱们一探究... 阅读全文

posted @ 2024-10-30 11:31 Jack Jiang 阅读(86) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat-iOS端v9.1版已发布

关于MobileIMSDK

MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持 UDP 、TCP 、WebSocket 三种协议，支持 iOS、Android、H5、标准Java、小程序、Uniapp，服务端基于Netty编写。

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

► 详细产品介绍：http://www.52im.net/thread-19-1-1.html
► iOS端更新记录：http://www.52im.net/thread-2735-1-1.html
► 全部运行截图：iOS端全部运行截图（另：Android端运行截图点此查看）
► 在线体验下载：App Store安装地址（另：Android端下载体验点此查看）

RainbowChat是一套基于开源IM聊天框架 MobileIMSDK 的产品级移动端IM系统。RainbowChat源于真实运营的产品，解决了大量的屏幕适配、细节优化、机器兼容问题（可自行下载体验：专业版下载安装）。

* RainbowChat可能是市面上提供im即时通讯聊天源码的，唯一一款同时支持TCP、UDP两种通信协议的IM产品（通信层基于开源IM聊天框架 MobileIMSDK 实现）。

v9.1 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] 解决了与Web产品互通时，收到撤回被引用消息的指令时会崩溃的问题；
2）[bug] 解决了“查换用户”界面中精确查找时，输入内容时会导致底部按钮等控件显示高度被错误改变的问题；
3）[bug] 解决了聊天输入框中自定义表情和数字、英文混输时，表情图标会消失的问题；
4）[优化] 更换了位置消息中的高德地图AppKey，解决每日调用量限制问题；
5）[优化] 优化了首页“消息”列表中单聊类型未正确同步时的收发消息和点击后的处理逻辑；
6）[优化] 聊天消息自动识别电话、网址、邮箱等内容，点击自动跳转到系统功能；
7）[优化] 优化了首页“消息”列表中同一好友和陌生人会话不能自动合并的问题。

部分功能运行截图（更多截图点此查看）：

posted @ 2024-10-29 12:23 Jack Jiang 阅读(74) | 评论 (0) | 编辑收藏

不为人知的网络编程(十七)：冰山之下，一次网络请求背后的技术秘密

摘要: 1、引言当你在浏览器输入 qq.com 按下回车键，到页面呈现在你面前，整个过程发生了什么？我以前思考过这个问题，从最前面的浏览器到最后的 db 都梳理的一遍，触发了一次技术顿悟，将很多散落的知识点贯通起来了。本文将抛弃千篇一律的计网知识理论，从现实的互联网技术实践角度，一步步为你分享一次网络请求背后的技术秘密。技术交流：- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端I... 阅读全文

posted @ 2024-10-24 11:34 Jack Jiang 阅读(127) | 评论 (0) | 编辑收藏

Web网页端IM产品RainbowChat-Web的v7.2版已发布

一、关于RainbowChat-Web

RainbowChat-Web是一套Web网页端IM系统，是RainbowChat的姊妹系统（RainbowChat是一套基于开源IM聊天框架 MobileIMSDK (Github地址) 的产品级移动端IM系统）。

► 详细介绍：http://www.52im.net/thread-2483-1-1.html

► 版本记录：http://www.52im.net/thread-2480-1-1.html

► 运行截图：http://www.52im.net/thread-2470-1-1.html

► 运行视频：http://www.52im.net/thread-2491-1-1.html

二、v7.2 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] [前端] - 解决了加载首页聊天记录时，存在极小概率出现消息重复的问题；
2）[bug] [前端] - 解决了Firefox浏览器中右键无法复制文本消息的问题；
3）[bug] [服务端] - 升级了MobileIMSDK-Web库，解决了服务端QoS机制C2S消息路径时去重逻辑未起效的问题；
4）[优化] [前端] - 解决了引用的名片消息不会显示默认头像的问题；
5）[优化] [前端] - 重构了相关的类名、文件名等；
6）[优化] [服务端] - 优化了离线消息处理效率（异步化、无锁队列、批量处理、事务合并）；
7）[优化] [服务端] - 优化了聊天记录处理效率（异步化、无锁队列、批量处理、事务合并）；
8）[优化] [服务端] - 优化了“接口1008-26-8”，使按时间戳加载的消息在客户端不发生重复；
9）[优化] [服务端] - 修改了离线消息、聊天记录异步定时器实现，使之运行更健壮；
10）[重构] [服务端] - 重构了通用http服务端工程、MQ工程目录名等；

三、主要功能特性截图

主要功能特性截图（更多运行截图、运行视频）：

posted @ 2024-10-21 14:20 Jack Jiang 阅读(61) | 评论 (0) | 编辑收藏

视频直播技术干货(十二)：从入门到放弃，快速学习Android端直播技术

摘要: 本文由陆业聪分享，原题“一文掌握直播技术：实时音视频采集、编码、传输与播放”，本文进行了排版和内容优化。1、引言从游戏、教育、电商到娱乐，直播技术的应用场景无处不在。随着移动端的网速越来越快，直播技术的普及和发展将更加迅速。本文详细介绍了Android端直播技术的全貌，涵盖了从实时音视频采集、编码、传输到解码与播放的各个环节。文章还探讨了直播中音视频同步、编解码器选择、传输... 阅读全文

posted @ 2024-10-17 11:10 Jack Jiang 阅读(85) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.7版已发布

关于RainbowChat

► 详细产品介绍：http://www.52im.net/thread-19-1-1.html
► 版本更新记录：http://www.52im.net/thread-1217-1-1.html
► 全部运行截图：Android端、iOS端
► 在线体验下载：专业版(TCP协议)、专业版(UDP协议) （关于 iOS 端，请：点此查看）

关于MobileIMSDK

MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持UDP 、TCP 、WebSocket 三种协议，支持iOS、Android、H5、小程序、Uniapp、标准Java平台，服务端基于Netty编写。

工程开源地址：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

v11.7 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容：

1）[优化] 优化了首页“消息”列表中单聊类型未正确同步时的收发消息和点击后的处理逻辑；
2）[优化] 优化了首页“消息”列表中同一好友和陌生人会话不能自动合并的问题；

（2）服务端主要更新内容：

1）[优化] 大幅提升群聊性能（改进离线消息存储方式等：异步提交、批量处理）；
2）[优化] 升级了mysql驱动至最新版8.4.0；
3）[优化] 优化了离线消息处理性能（异步化、无锁队列、批量处理、事务合并）；
4）[优化] 优化了聊天记录处理性能（异步化、无锁队列、批量处理、事务合并）；
5）[优化] 优化了“接口1008-26-8”，使得与Web产品联合部署明web前端按时间戳加载的消息不与客户端发生重复；
6）[优化] 修改了离线消息、聊天记录异步定时器实现，使之运行更健壮；
7）[优化] 加好友成功后将成功通知保存至离线消息和消息记录。

部分功能运行截图（更多截图点此查看）：

posted @ 2024-10-16 10:16 Jack Jiang 阅读(72) | 评论 (0) | 编辑收藏

百度公共IM系统的Andriod端IM SDK组件架构设计与技术实现

摘要: 本文由百度技术团队分享，引用自百度Geek说，原题“百度Android IM SDK组件能力建设及应用”，本文进行了排版和内容优化。1、引言移动互联网时代，随着社交媒体、移动支付、线上购物等行业的快速发展，对即时通讯功能的需求不断增加。对于各APP而言，接入IM SDK（即时通讯软件开发工具包）能够大大降低开发成本、提高开发效率，快速构建自己的IM系统。本文主要介绍了百度公... 阅读全文

posted @ 2024-10-10 12:35 Jack Jiang 阅读(84) | 评论 (0) | 编辑收藏

社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进

摘要: 本文来自微信团队工程师张文瑞的技术分享，由“极客邦科技Geekbang”编辑发布，下文有修订和改动。一、开场白谢谢大家！我是来自腾讯WXG技术架构部的张文瑞，今天下午跟大家分享的主题是：微信团队是如何从0到1实现“有把握”的微信春晚摇一摇红包系统的。回忆一下春晚的活动，有什么样的活动形式呢？当时我们是直接复用客户端摇一摇入口，专门给春晚摇一摇定制了一... 阅读全文

posted @ 2024-10-10 10:18 Jack Jiang 阅读(145) | 评论 (0) | 编辑收藏

闲话即时通讯：腾讯的成长史本质就是一部QQ成长史

摘要: 1、前言在猴年新春的时候，腾讯当时推出了新春广告片（点击观看视频），作为《弹指间心无间》的延续。片中通过春节期间发送QQ红包让家人打车回家团聚，让我们感受到了“最温暖的红包，给最爱的人”那种弹指间的感动。而就在这弹指一挥间，此次腾讯新春广告片距离2011年腾讯发布《弹指间心无间》“亲情篇”已经好几年过去了。在这几年的时间里，腾讯QQ从音频、视频、... 阅读全文

posted @ 2024-09-29 12:18 Jack Jiang 阅读(98) | 评论 (0) | 编辑收藏

网络编程入门如此简单(四)：一文搞懂localhost和127.0.0.1

本文由萤火架构分享，原题“localhost和127.0.0.1的区别是什么？”，原文链接“juejin.cn/post/7321049446443417638”，下文进行了排版和内容优化。

1、引言

继《你真的了解127.0.0.1和0.0.0.0的区别？》、《深入操作系统，彻底搞懂127.0.0.1本机网络通信》之后，这是整理收录的第3篇有关本机网络的网络编程基础文章。以下是正文内容。

今天在网上逛的时候看到一个问题，没想到大家讨论的很热烈，就是标题中这个：

前端同学本地调试的时候，应该没少和localhost打交道吧，只需要执行 npm run 就能在浏览器中打开你的页面窗口，地址栏显示的就是这个 http://localhost:xxx/index.html。

可能大家只是用，也没有去想过这个问题。联想到我之前合作过的一些开发同学对它们俩的区别也没什么概念，所以我觉得有必要普及下。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4702-1-1.html）

2、系列文章

本文是该系列文章中的第 4 篇：

《网络编程入门如此简单(一)：假如你来设计网络，会怎么做？》

《网络编程入门如此简单(二)：假如你来设计TCP协议，会怎么做？》

《网络编程入门如此简单(三)：什么是IPv6？漫画式图文，一篇即懂！》

《网络编程入门如此简单(四)：一文搞懂localhost和127.0.0.1》（* 本文）

3、localhost是什么呢？

localhost是一个域名，和大家上网使用的域名没有什么本质区别，就是方便记忆。

只是这个localhost的有效范围只有本机，看名字也能知道：local就是本地的意思。

张三和李四都可以在各自的机器上使用localhost，但获取到的也是各自的页面内容，不会相互打架。

4、从域名到程序

要想真正的认清楚localhost，我们还得从用户是如何通过域名访问到程序说起。

以访问百度为例。

1）当我们在浏览器输入 baidu.com 之后，浏览器首先去DNS中查询 baidu.com 的IP地址。

为什么需要IP地址呢？打个比方，有个人要寄快递到你的公司，快递单上会填写：公司的通讯地址、公司名称、收件人等信息，实际运输时快递会根据通信地址进行层层转发，最终送到收件人的手中。网络通讯也是类似的，其中域名就像公司名称，IP地址就像通信地址，在网络的世界中只有通过IP地址才能找到对应的程序。（请详读《什么是公网IP和内网IP？NAT转换又是什么鬼？》）

DNS就像一个公司黄页，其中记录着每个域名对应的IP地址，当然也有一些域名可能没做登记，就找不到对应的IP地址，还有一些域名可能会对应多个IP地址，DNS会按照规则自动返回一个。我们购买了域名之后，一般域名服务商会提供一个域名解析的功能，就是把域名和对应的IP地址登记到DNS中。（请详读《理论联系实际，全方位深入理解DNS》）

这里的IP地址从哪里获取呢？每台上网的电脑都会有1个IP地址，但是个人电脑的IP地址一般是不行的，个人电脑的IP地址只适合内网定位，就像你公司内部的第几栋第几层，公司内部人明白，但是直接发给别人，别人是找不到你的。

如果你要对外部提供服务，比如百度这种，你就得有公网的IP地址，这个IP地址一般由网络服务运营商提供，比如你们公司使用联通上网，那就可以让联通给你分配一个公网IP地址，绑定到你们公司的网关服务器上，网关服务器就像电话总机，公司内部的所有网络通信都要通过它，然后再在网关上设置转发规则，将网络请求转发到提供网络服务的机器上。

2）有了IP地址之后，浏览器就会向这个IP地址发起请求，通过操作系统打包成IP请求包，然后发送到网络上。

网络传输有一套完整的路由协议，它会根据你提供的IP地址，经过路由器的层层转发，最终抵达绑定该IP的计算机。

3）计算机上可能部署了多个网络应用程序，这个请求应该发给哪个程序呢？

这里有一个端口的概念，每个网络应用程序启动的时候可以绑定一个或多个端口，不同的网络应用程序绑定的端口不能重复，再次绑定时会提示端口被占用。

通过在请求中指定端口，就可以将消息发送到正确的网络处理程序。但是我们访问百度的时候没有输入端口啊？这是因为默认不输入就使用80和443端口，http使用80，https使用443。我们在启动网络程序的时候一定要绑定一个端口的，当然有些框架会自动选择一个计算机上未使用的端口。

5、localhost和127.0.0.1的区别是什么？

有了前面的知识储备，我们就可以很轻松的搞懂这个问题了。

localhost是域名，上文已经说过了。

127.0.0.1 呢？是IP地址，当前机器的本地IP地址，且只能在本机使用，你的计算机不联网也可以用这个IP地址，就是为了方便开发测试网络程序的。

我们调试时启动的程序就是绑定到这个IP地址的。

这里简单说下，我们经常看到的IP地址一般都是类似 X.X.X.X 的格式，用"."分成四段。其实它是一个32位的二进制数，分成四段后，每一段是8位，然后每一段再转换为10进制的数进行显示。

那localhost是怎么解析到127.0.0.1的呢？经过DNS了吗？没有。每台计算机都可以使用localhost和127.0.0.1，这没办法让DNS来做解析。

那就让每台计算机自己解决了。每台计算机上都有一个host文件，其中写死了一些DNS解析规则，就包括 localhost 到 127.0.0.1 的解析规则，这是一个约定俗成的规则。

如果你不想用localhost，那也可以，随便起个名字，比如 wodehost，也解析到 127.0.0.1 就行了。

甚至你想使用 baidu.com 也完全可以，只是只能自己自嗨，对别人完全没有影响。

PS：以下两篇可以深入进行阅读：

6、域名的等级划分

localhost不太像我们平常使用的域名，比如 www.juejin.cn 、baidu.com、csdn.net, 这里边的 www、cn、com、net都是什么意思？localhost为什么不需要？

域名其实是分等级的，按照等级可以划分为顶级域名、二级域名和三级域名...

1）顶级域名（TLD）：

顶级域名是域名系统中最高级别的域名。它位于域名的最右边，通常由几个字母组成。顶级域名分为两种类型：通用顶级域名和国家顶级域名。常见的通用顶级域名包括表示工商企业的.com、表示网络提供商的.net、表示非盈利组织的.org等，而国家顶级域名则代表特定的国家或地区，如.cn代表中国、.uk代表英国等。

2）二级域名（SLD）：

二级域名是在顶级域名之下的一级域名。它是由注册人自行选择和注册的，可以是个性化的、易于记忆的名称。例如，juejin.cn 就是二级域名。我们平常能够申请到的也是这种。目前来说申请 xxx.com、xxx.net、xxx.cn等等域名，其实大家不太关心其顶级域名com\net\cn代表的含义，看着简短好记是主要诉求。

3）三级域名（3LD）：

三级域名是在二级域名之下的一级域名。它通常用于指向特定的服务器或子网。例如，在blog.example.com中，blog就是三级域名。www是最常见的三级域名，用于代表网站的主页或主站点，不过这只是某种流行习惯，目前很多网站都推荐直接使用二级域名访问了。

域名级别还可以进一步细分，大家可以看看企业微信开放平台这个域名：developer.work.weixin.qq.com，com代表商业，qq代表腾讯，weixin代表微信，work代表企业微信，developer代表开发者。这种逐层递进的方式有利于域名的分配管理。

按照上边的等级定义，我们可以说localhost是一个顶级域名，只不过它是保留的顶级域，其唯一目的是用于访问当前计算机。

7、多网站共用一个IP和端口

上边我们说不同的网络程序不能使用相同的端口，其实是有办法突破的。

以前个人博客比较火的时候，大家都喜欢买个虚拟主机，然后部署个开源的博客程序，抒发一下自己的感情。为了挣钱，虚拟主机的服务商会在一台计算机上分配N多个虚拟主机，大家使用各自的域名和默认的80端口进行访问，也都相安无事。这是怎么做到的呢？

如果你有使用Nginx、Apache或者IIS等Web服务器的相关经验，你可能会接触到主机头这个概念。主机头其实就是一个域名，通过设置主机头，我们的程序就可以共用1个网络端口。

首先在Nginx等Web程序中部署网站时，我们会进行一些配置，此时在主机头中写入网站要使用的域名。

然后Nginx等Web服务器启动的时候，会把80端口占为己有。

然后当某个网站的请求到达Nginx的80端口时，它会根据请求中携带的域名找到配置了对应主机头的网络程序。

然后再转发到这个网络程序，如果网络程序还没有启动，Nginx会把它拉起来。

8、私有IP地址

除了127.0.0.1，其实还有很多私有IP地址，比如常见的 192.168.x.x。

这些私有IP地址大部分都是为了在局域网内使用而预留的，因为给每台计算机都分配一个独立的IP不太够用，所以只要局域网内不冲突，大家就可劲的用吧。你公司可以用 192.168.1.1，我公司也可以用192.168.1.1。

但是如果你要访问我，就得通过公网IP进行转发。

大家常用的IPv4私有IP地址段分为三类：

1）A类：从10.0.0.0至10.255.255.255；
2）B类：从172.16.0.0至172.31.255.255；
3）C类：从192.168.0.0至192.168.255.255。

这些私有IP地址仅供局域网内部使用，不能在公网上使用。

除了上述三个私有的IPv4地址段外，还有一些保留的IPv4地址段：

1）用于本地回环测试的127.0.0.0至127.255.255.255地址段，其中就包括题目中的127.0.0.1，如果你喜欢也可以给自己分配一个127.0.0.2的IP地址，效果和127.0.0.1一样。

2）用于局域网内部的169.254.0.0至169.254.255.255地址段，这个很少接触到，如果你的电脑连局域网都上不去，可能会看到这个IP地址，它是临时分配的一个局域网地址。

这些地址段也都不能在公网上使用。

近年来，还有一个现象，就是你家里或者公司里上网时，光猫或者路由器对外的IPv4地址也不是公网IP了，这时候获得的可能是一个类似 100.64.x.x 的地址，这是因为随着宽带的普及，运营商手里的公网IP也不够了，所以运营商又加了一层局域网，而100.64.0.0 这个网段是专门分给运营商做局域网用的。

如果你使用阿里云等公有云，一些云产品的IP地址也可能是这个，这是为了将客户的私有网段和公有云厂商的私有网段进行有效的区分。

其实还有一些不常见的专用IPv4地址段，完整的IP地址段定义可以看这里：www.iana.org/assignments…

9、IPv6

你可能也听说过IPv6，因为IPv4可分配的地址太少了，不够用，使用IPv6甚至可以为地球上的每一粒沙子分配一个IP。只是喊了很多年，大家还是喜欢用IPv4，这里边原因很多，这里就不多谈了。

IPv6地址类似于：XXXX:XXXX:XXXX:XXXX:XXXX:XXXX:XXXX:XXXX。

它是128位的，用":"分成8段，每个X是一个16进制数（取值范围：0-F），IPv6地址空间相对于IPv4地址有了极大的扩充。比如：2001:0db8:3c4d:0015:0000:0000:1a2f:1a2b 就是一个有效的IPv6地址。（请详读《什么是IPv6？漫画式图文，一篇即懂！》）

10、参考资料

[1] 你真的了解127.0.0.1和0.0.0.0的区别？

[2] 深入操作系统，彻底搞懂127.0.0.1本机网络通信

[3] 什么是IPv6？漫画式图文，一篇即懂！

[4] 一文读懂什么是IPv6

[5] IPv6技术详解：基本概念、应用现状、技术实践（上篇）

[6] 什么是公网IP和内网IP？NAT转换又是什么鬼？

[7] 深入操作系统，一文搞懂Socket到底是什么

[8] 面视必备，史上最通俗计算机网络分层详解

[9] 通俗讲解，有了IP地址，为何还要用MAC地址？

[10] 理论联系实际，全方位深入理解DNS

（本文已同步发布于：http://www.52im.net/thread-4702-1-1.html）

posted @ 2024-09-26 10:23 Jack Jiang 阅读(97) | 评论 (0) | 编辑收藏

微信技术总监谈架构：微信之道——大道至简(演讲全文)

摘要: 1、前言微信——腾讯战略级产品，创造移动互联网增速记录，10个月5000万手机用户，433天之内完成用户数从零到一亿的增长过程，千万级用户同时在线，摇一摇每天次数过亿...在技术架构上，微信是如何做到的？日前，在腾讯大讲堂在中山大学校园宣讲活动上，腾讯广研助理总经理、微信技术总监周颢在两小时的演讲中揭开了微信背后的秘密。周颢把微信的成功归结于腾讯式的“三位一体&... 阅读全文

posted @ 2024-09-25 11:17 Jack Jiang 阅读(216) | 评论 (0) | 编辑收藏

即时通讯框架MobileIMSDK的H5端开发快速入门

► 相关链接：

① MobileIMSDK-H5端的详细介绍
② MobileIMSDK-H5端的开发手册new（* 精编PDF版）

一、技术准备

您是否已对Web端即时通讯技术有所了解？

您需要对WebSocket技术有所了解：

WebSocket标准文档、API手册：

1）WebSocket的API手册
2）WebSocket的标准文档

二、开发工具准备

1）WebStorm：

（JackJiang 使用的版本号如上图所示，建议你也使用此版或较新版本）

2）一站式下载地址：WebStorm官方下载地址点此进入。

三、工程文件用途说明

3.1文件概览

纯原生JS实现，无任何重框架依赖：

MobileIMSDK-H5端SDK本身只是JS文件源码的集合，本工程中自带的前端Demo的目的只是为了方便随时测试MobileIMSDK-H5端的SDK代码而已，在此工程中的使用也仅仅只涉及了一个主Demo页面而已。

工程目录说明：

3.2详细说明

SDK 各模块/文件作用说明：

四、主要 API 接口

4.1主要 API 接口概览

如下图所示：所有 SDK 接口均由/mobileimsdk/mobileimsdk-client-sdk.js 提供。，接口设计跟MobileIMSDK 的APP版一样，均为高内聚和低侵入的回调方式传入SDK处理逻辑，无需（也不建议）开发者直接修改sdk级代码。

▲ 图上为浏览器端SDK的对外接口文件位置

▲ 图上为浏览器SDK为开发者提供的回调接口

▲ 图上浏览器端SDK的对外接口文件全图

4.2主要 API 接口用途说明

1）IMSDK.isLogined()：

用途：是否已经完成过首次登陆。
说明：用户一旦从自已的应用中完成登陆IM服务器后，本方法就会一直返回true（直到退出登陆IM）。
返回值：{boolean}，true表示已完成首次成功登陆（即已经成功登陆过IM服务端了，后面掉线时不影响此标识），否则表示尚未连接IM服务器。

2）IMSDK.isOnline()：

用途：是否在线。
说明：表示网络连接是否正常。
返回值：{boolean}，true表示网络连接正常，否则表示已掉线，本字段只在this._logined=true时有意义（如果都没有登陆到IM服务器，怎么存在在线或掉线的概念呢）。

3）IMSDK.getLoginInfo()：

用途：返回登陆时提交的登陆信息（用户名、密码/token等）。
说明：格式形如：{loginUserId:'',loginToken:''}，此返回值的内容由调用登陆函数 loginImpl()时传入的内容决定。字段定义详见：PLoginInfo
返回值：{boolean}，true表示网络连接正常，否则表示已掉线，本字段只在this._logined=true时有意义（如果都没有登陆到IM服务器，怎么存在在线或掉线的概念呢）。

4）IMSDK.sendData(p, fnSucess, fnFail, fnComplete)：

用途：向某人发送一条消息。
参数p：{Protocal} 要发送的消息协议包对象，Protocal详情请见“/module/mb_constants.js”下的createCommonData函数说明。
返回值：{int} 0表示成功，否则表示错误码，错码详见“/module/mb_constants.js”下的MBErrorCode对象属性说明。

5）IMSDK.disconnectSocket()：

用途：客户端主动断开客户端socket连接。
说明：当开发者登陆IM后，需要退出登陆时，调用本函数就对了，本函数相当于登陆函数 loginImpl()的逆操作。

6）IMSDK.setDebugCoreEnable(enable)：

用途：是否开启MobileIMSDK-H5端核心算法层的log输入，方便开发者调试。
参数enable ：{boolean} true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。

7）IMSDK.setDebugSDKEnable(enable)：

用途：是否开启MobileIMSDK-H5端框架层的log输入，方便开发者调试。
参数enable ：{boolean} true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。

8）IMSDK.setDebugPingPongEnable(enable)：

用途：是否开启MobileIMSDK-H5端框架层的底层网络WebSocket心跳包的log输出，方便开发者调试。
参数enable ：{boolean} true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。
注意：必须 setDebugEnable(true) 且 setDebugPingPongEnable(true) 时，心跳log才会真正输出，方便控制。
返回值：true表示开启log输出，否则不输出，开发者不调用本函数的话系统默认是false（即不输出log）。

9）IMSDK.loginImpl(varloginInfo, wsUrl)：

用途：登陆/连接MobileIMSDK服务器时调用的方法。
说明：登陆/连接MobileIMSDK服务器由本函数发起
参数varloginInfo：{PLoginInfo} 必填项，登陆要提交给Websocket服务器的认证信息，不可为空，对象字段定义见：PLoginInfo
参数wsUrl：{string} 必填项：要连接的Websocket服务器地址，不可为空，形如：wss://yousite.net:3000/websocket。

10）IMSDK.callback_onIMLog(message, toConsole)：

用途：由开发者设置的回调方法：用于debug的log输出。
推荐用法：开发者可在此回调中按照自已的意图打印MobileIMSDK微信小程序端框架中的log，方便调试时使用。
参数1： {String}：必填项，字符串类型，表示log内容。
参数2： {boolean}：选填项，true表示输出到console，否则默认方式(由开发者设置的回调决定)。

11）IMSDK.callback_onIMData(p, options)：

用途：由开发者设置的回调方法：用于收到聊天消息时在UI上展现出来（事件通知于收到IM消息时）。
推荐用法：开发者可在此回调中处理收到的各种IM消息。
参数1： {Protocal}：详情请见“/module/mb_constants.js”下的Protocal类定义)。

12）IMSDK.callback_onIMAfterLoginSucess()：

用途：由开发者设置的回调方法：客户端的登陆请求被服务端成功认证完成后的回调（事件通知于登陆/认证成功后）。
推荐用法：开发者可在此回调中进行登陆IM服务器成功后的处理。

13）IMSDK.callback_onIMAfterLoginFailed(isReconnect)：

用途：由开发者设置的回调方法：客户端的登陆请求被服务端认证失败后的回调（事件通知于登陆/认证失败后）。
说明：登陆/认证失败的原因可能是用户名、密码等不正确等，但具体逻辑由服务端的 callBack_checkAuthToken回调函数去处理。
推荐用法：开发者可在此回调中提示用户登陆IM服务器失败。。
参数1： {boolean}：true表示是掉线重连后的认证失败（在登陆其间可能用户的密码信息等发生了变更），否则表示首次登陆时的认证失败。

14）IMSDK.callback_onIMReconnectSucess()：

用途：由开发者设置的回调方法：掉线重连成功后的回调（事件通知于掉线重连成功后）。
推荐用法：开发者可在此回调中处理掉线重连成功后的界面状态更新等，比如设置将界面上的“离线”文字更新成“在线”。

15）IMSDK.callback_onIMDisconnected()：

用途：由开发者设置的回调方法：网络连接已断开时的回调（事件通知于与服务器的网络断开后）。
推荐用法：开发者可在此回调中处理掉线时的界面状态更新等，比如设置将界面上的“在线”文字更新成“离线”。

16）IMSDK.callback_onIMPing()：

用途：由开发者设置的回调方法：本地发出心跳包后的回调通知（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

17）IMSDK.callback_onIMPong()：

用途：由开发者设置的回调方法：收到服务端的心跳包反馈的回调通知（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
推荐用法：开发者可在此回调中处理底层网络的活动情况。

18）IMSDK.callback_onIMShowAlert(alertContent)：

用途：由开发者设置的回调方法：框架层的一些提示信息显示回调（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
说明：开发者不设置的情况下，框架默认将调用wx.showModal()显示提示信息，否则将使用开发者设置的回调——目的主要是给开发者自定义这种信息的UI显示，提升UI体验，别无它用】。
参数1：{String}：必填项，文本类型，表示提示内容。

19）IMSDK.callback_onIMKickout(kickoutInfo)：

用途：由开发者设置的回调方法：收到服务端的“踢出”指令（本回调并非MobileIMSDK-H5端核心逻辑，开发者可以不需要实现！）。
参数1 ：{PKickoutInfo}：非空，详见：PKickoutInfo

20）IMSDK.callback_onMessagesLost(lostMessages)：

用途：由开发者设置的回调方法：消息未送达的回调事件通知。
发生场景：比如用户刚发完消息但网络已经断掉了的情况下，表现形式如：就像手机qq或微信一样消息气泡边上会出现红色图标以示没有发送成功）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送失败”以便即时告之用户。
参数1：{Array}：由框架的QoS算法判定出来的未送达消息列表。

21）IMSDK.callback_onMessagesBeReceived(theFingerPrint)：

用途：由开发者设置的回调方法：消息已被对方收到的回调事件通知。
说明：目前，判定消息被对方收到是有两种可能：1) 对方确实是在线并且实时收到了；2) 对方不在线或者服务端转发过程中出错了，由服务端进行离线存储成功后的反馈（此种情况严格来讲不能算是“已被收到”，但对于应用层来说，离线存储了的消息原则上就是已送达了的消息：因为用户下次登陆时肯定能通过HTTP协议取到）。
建议用途：应用层可通过回调中的指纹特征码找到原消息并可以UI上将其标记为“发送成功”以便即时告之用户。
参数1：{String}：已被收到的消息的指纹特征码（唯一ID），应用层可据此ID找到原先已发的消息并可在UI是将其标记为”已送达“或”已读“以便提升用户体验。

五、前端开发指南

5.1如何引入SDK文件到您的前端工程中？

很简单：只需要将第2节中提到的SDK所有JS文件复制到您的Uniapp工程下即可。

SDK内容见下图：

5.2如何在代码中调用SDK？

第一步：在你的网页中引用SDK的js文件（具体例子详见Demo中的index.html文件）

第二步：直接在你的JS文件中编写回调配置代码（具体例子详见Demo中的index.js文件）

第三步：在你的JS文件中调用IM的登陆方法即可（具体例子详见Demo中的index.js文件）

注意：上图中登录连接的IP地址请设置为您的MobileIMSDK服务器地址哦。

六、Demo运行方法（在WebStorm中直接预览）

6.1重要说明

特别说明：MobileIMSDK的H5端（包括Demo在内），全部是静态的HTML+JS资源，可以通过WebStorm自带的HTML页面预览功能，直接自动加载到电脑的浏览器中运行和预览。

6.2预览方法

1）在Demo中的index.html文件中，移动鼠标，会在右上角出现如下图所示的浮出菜单：

2）点击右上角浮出菜单上相应的浏览器就可以自动预览了（这里以我电脑上已安装的Edge浏览器为例）：

七、Demo运行方法（在Web服务器中部署并访问）

7.1重要说明

特别说明：MobileIMSDK的H5端（包括Demo在内），全部是静态的HTML+JS资源，对于服务端是没有任何依赖的，只需要保证浏览器端能加载到即可，可以把它们放置在Tomcat、Apache、IIS、Nginx等等传统Web服务器中即可，无需任何动态运行环境。

7.2安装Tomcat

提示：以下Demo的部署，以Java程序员最常用和Tomcat为例（Apache、IIS、Nginx等依此类推）。

Tomcat的安装就没什么好说的，直接官网下载对应的版本即可：https://tomcat.apache.org/download-90.cgi。

7.3配置要连接的MobileIMSDK服务器IP

注意：下图中登陆连接的IP地址请设置为您的MobileIMSDK服务器地址哦。

友情提示： MobileIMSDK的服务端该怎么部署就不是本手册要讨论的内容了，你可以参见《即时通讯框架MobileIMSDK的Demo使用帮助：Server端》。

▲ 配置要连接的服务器IP（以上代码详见demo/index.js 文件）

7.4部署Demo

说“部署”有点扯蛋，因为Demo（包括SDK）在内，全是HTML静态内容，只需要直接复制到任何一种Web服务器即可。

以下是复制到Tomcat服务器网页目录后的截图：

7.5启动Tomcat

提示：本手册中仅以启Tomcat为例，Apache、IIS、Nginx等Web服务器的启动请自动百度。

运行startup.bat启动Tomcat：

7.6Demo的运行效果预览

八、Demo功能预览和说明

九、Demo运行效果实拍图

1）Demo在手机端浏览器中的真机实拍图：

2）Demo在电脑端浏览器中的真机实拍图：

十、更多Demo运行效果截图

1）Demo在PC端浏览器运行效果：

2）Demo在手机端浏览器运行效果：

3）Demo在PC端各主流浏览器的运行效果：

十一、常见问题（FAQ）

11.1为什么浏览控制台下有些log不显示？

原因是浏览器控制台下的日志级别默认进行了过滤，勾选所有日志级别，就能看到SDK的详细日志输出了。

勾选所有的日志输出级别：

然后就能看到SDK中详细的日志输出了（就像下图这样），方便调试和研究：

十二、引用资料

[1] WebSocket 标准API手册

[2] MobileIMSDK开源框架的API文档

[3] MobileIMSDK开源IM框架源码（Github地址点此）

[4] MobileIMSDK-H5端基本介绍

[5] MobileIMSDK-H5端的开发手册（* 精编PDF版）

[6] MobileIMSDK的Demo使用帮助：Server端

[7] WebSocket从入门到精通，半小时就够！

posted @ 2024-09-19 13:14 Jack Jiang 阅读(80) | 评论 (0) | 编辑收藏

开源即时通讯IM框架MobileIMSDK的H5端技术概览

一、基本介绍

MobileIMSDK的H5端是一套纯JS编写的基于标准WebSocket的即时通讯库：

1）超轻量级、极少依赖；
2）纯JS编写、高度提炼，简单易用；
3）基于标准WebSocket协议，客户端兼容性好；
4）支持运行于iOS、Android等移动端浏览器和各种PC端浏览器；
5）能与 MobileIMSDK（Github托管链接）的各种APP原生代码客户端完美互通；
6）可应用于手机端/PC端的网页聊天应用、企业OA、Web端等即时通讯场景。

二、与MobileIMSDK的关系

MobileIMSDK-H5端是基于标准HTML5的WebSocket协议的 MobileIMSDK配套客户端库。

以下是MobileIMSDK的通信架构图：

MobileIMSDK是一套专为移动端开发的原创开源IM通信层框架：

1）历经8年、久经考验；
2）超轻量级、高度提炼，lib包50KB以内；
3）精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
4）客户端支持iOS、Android、标准Java、H5(暂未开源)、微信小程序(暂未开源)、Uniapp(暂未开源)；
5）服务端基于Netty，性能卓越、易于扩展；
6）可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
7）可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

PS： MobileIMSDK一直在持续开发和升级中，新Uniapp端是MobileIMSDK工程的最新成果。

三、与MobileIMSDK-Web的关系

MobileIMSDK-Web也是一套纯JS编写的Web端即时通讯框架(含服务端)。

MobileIMSDK-Web框架与MobileIMSDK-H5端的相同点：

1）都是Web端即时通讯框架；
2）都是纯JS编写；
3）都可以运行在手机、pc端的浏览器或web容器内。

MobileIMSDK-Web框架与MobileIMSDK-H5端的不同点：

1）MobileIMSDK-Web可以兼容不支持HTML5的旧版浏览器或容器，而MobileIMSDK-H5端必须运行在当前主流的HTML5浏览器或容器；
2）MobileIMSDK-Web需依赖于socket.io这种第3方通信层库，而MobileIMSDK-H5端无任何额外依赖。

我该如何选型？

选择一：如果您的应用必须兼容旧版浏览器（包括旧版IE等）：
那唯一的选择就是MobileIMSDK-Web，因为它存在的主要价值就是为了兼容旧版浏览器；
选择二：如果您的应用只需运行在现今主流的HTML5浏览器或容器：
那么建议您优先使用MobileIMSDK的H5端，必竟直接调用标准HTML5的WebSocket API，要简洁、轻量多了，也没有第3方依赖。

四、设计目标

直接使用原生的WebSocket有以下问题和劣势：

1）功能有限：没有提供心跳保活、断线重连、送达保证（重传和去重）等即时通讯关键算法和逻辑；
2）API 简陋：在如此有限的标准API下，能逻辑清晰和健壮地实现并组合心跳保活、断线重连、送达保证等算法，需要相当高的技术掌控力；
3）逻辑耦合：经验欠缺的开发人员，会将WebSocket通信代码与前端UI界面代码混在一起，使得UI界面的编写、维护、改版都非常困难。

针对以上问题，而MobileIMSDK-H5端库将让开发者专注于UI应用层的开发，网络通信层的专业代码交由SDK开发人员，从而解偶UI前端和通信层的逻辑耦合性，大大降低技术复杂性。

总结一下，MobileIMSDK-H5端库的设计目标是为您的Web端IM带来以下便利：

1）前端与通信解偶：前端UI与网络通信代码解耦，UI界面的重构、维护、改版都非常容易和优雅；
2）轻量级和兼容性：受益于标准WebSocket，可很好地运行于现今主流的H5浏览器上，且无需额外依赖；
3）核心内聚和收敛：得益于长期的提炼和经验积累，SDK核心层高度封装，开发者无需理解复杂算法即可简单上手。
4）纯JS轻量级实现：纯JS编写，无Angular、EmberJS、VUE等各种重量级前端框架依赖，方便对接各种既有系统；

五、技术亮点

1）轻量易使用：超轻量级——纯JS编写且极少依赖，高度提炼——简单易用；
2）兼容性很好：基于标准WebSocket，可很好地运行于现今主流的H5浏览器上，且无需额外依赖；
3）断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；
4）送达保证机制：完善的QoS消息送达保证机制（自动重传、消息去重、状态反馈等），不漏过每一条消息；
5）支持多种设备：支持运行于iOS、Android等移动端浏览器和各种PC端浏览器；
6）通信协议封装：实现了一个对上层透明的即时通讯通信协议模型；
7）身份认证机制：实现了简单合理的身份认证机制；
8）完善的log信息：在开发调试阶段，确保每一个算法关键步骤都有日志输出，让您的运行调试更为便利；
9）前端代码解耦：实现了UI前端代码与sdk网络通信代码解偶，防止前端代码跟IM核心代码混在一起，不利于持续升级、重用和维护；
10）多端协议兼容：实现了与MobileIMSDK各APP端完全兼容的协议模型；

六、文件组成

SDK代码文件概览：

SDK代码文件用途说明：

七、Demo功能预览和说明

八、Demo运行效果实拍图

1）Demo在手机端浏览器中的真机实拍图：

2）Demo在电脑端浏览器中的真机实拍图：

八、更多Demo运行效果截图

1）Demo在PC端浏览器运行效果：

2）Demo在手机端浏览器运行效果（点击可看大图 ▼）：

3）Demo在PC端主流浏览器的运行效果（点击可看大图 ▼）：

十、详尽开发者手册

① MobileIMSDK-H5端的详细介绍：点此查看 👈
② MobileIMSDK-H5端的开发手册（网页版）：点此查看 👈
③ MobileIMSDK-H5端的开发手册（精编PDF版）：点此查看 👈 （* 推荐）
④ MobileIMSDK-开源框架的详细介绍：https://gitee.com/jackjiang/MobileIMSDK （Github托管链接）👈

posted @ 2024-09-18 10:36 Jack Jiang 阅读(84) | 评论 (0) | 编辑收藏

移动端常见白屏问题优化之网络优化篇

摘要: 本文由得物技术厉飞雨、GavinX分享，原题“得物App白屏优化系列｜网络篇”，下文进行了排版和内容优化。1、引言图片加载作为重中之重的App体验指标，端侧的白屏问题则是其中最为严重、也是最为常见的问题之一。想象一下如果你在浏览交易商品、社区帖子等核心场景下，图片无法完成加载是多么糟糕的体验。如上图所示，通过线上白屏问题归因，我们看到网络问题导致比例最高，占比达81.97%... 阅读全文

posted @ 2024-09-12 11:02 Jack Jiang 阅读(89) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十五)：理解定位技术，一篇就够

摘要: 【来源申明】本文引用了微信公众号“鲜枣课堂”的《老司机揭秘手机定位技术，这下彻底明白啦！》文章内容。为了更好的内容呈现，下文在引用和收录时内容有改动，转载时请注明原文来源信息，尊重原作者的劳动。1、系列文章引言1.1适合谁来阅读？本系列文章尽量使用最浅显易懂的文字、图片来组织内容，力求通信技术零基础的人群也能看懂。但个人建议，至少稍微了解过网络通信方面的知识后再看，会更有收... 阅读全文

posted @ 2024-09-11 12:07 Jack Jiang 阅读(96) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十四)：高铁上无线上网有多难？一文即懂！

摘要: 【来源申明】本文引用了微信公众号“鲜枣课堂”的《坐高铁手机没信号？原因远比你想的要复杂！》文章内容。为了更好的内容呈现，本文在引用和收录时内容有改动，转载时请注明原文来源信息，尊重原作者的劳动。1、系列文章引言1.1适合谁来阅读？本系列文章尽量使用最浅显易懂的文字、图片来组织内容，力求通信技术零基础的人群也能看懂。但个人建议，至少稍微了解过网络通信方面的知识后再看，会更有收... 阅读全文

posted @ 2024-09-06 12:02 Jack Jiang 阅读(91) | 评论 (0) | 编辑收藏

携程技术分享：亿级流量的办公IM及开放平台技术实践

本文由携程技术Jim分享，原题“日访问过亿，办公IM及开放式平台在携程的实践”，下文进行了排版和内容优化。

1、引言

携程内部的办公IM项目最早在2016年立项，经历了初期简单办公场景下的纯IM服务，到支持简单办公组件的IM应用，又演变为一体化办公集成平台，进而演变为目前集成IM功能的开放式企业效率平台。

本文总结了携程办公IM这些年的发展历程及未来的演进方向，并着重从高可用、高性能和可扩展的角度，探讨开放式平台的技术实现及发展方向。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4690-1-1.html）

2、关于作者

Jim：携程高级研发经理，关注Java & Go技术栈后端研发。目前致力于TripPal开放平台的高可用、开放化进程及核心衍生服务。

3、什么是IM

IM（Instant Message）即时消息，是一种通过网络提供实时消息传输的在线沟通技术。

在移动互联网时代，IM的使用变得越来越广泛，通过各种技术手段使得用户之间的交流成本变的极低，沟通效率和用户体验有极大的提升。而且IM的出现极大地改变了目前互联网应用的形态，多数互联网应用只要做到了一定规模，一定会有自身IM的需求，而不是单纯地仅仅依托第三方（例如微信、云信等）。

PS：关于什么是IM，您也可详读专题文章《零基础IM开发入门(一)：什么是IM系统？》。

4、携程办公IM的发展历程

早期携程使用微软的IM软件lync和自研的纯IM软件CtripTeam来支持企业内的沟通需求，这些软件在维护性、拓展性和可用性上都或多或少存在一些缺陷。同时随着互联网的发展，也逐渐不适合日益增长的办公需求和用户体验。

2017年左右，使用基于ejabberd+erlang的自研IM服务的Cchat项目应运而生，该项目的主要目标是在采用自研IM的基础上，实现IM与办公的结合。在完善IM服务的基础上，支持了一些常规的办公场景，如电话、假单、考勤、OA等，通常采用嵌入外部页面、跳转外部地址等方式提供服务。这个改造项目奠定了携程办公IM继续发展的基础。

随着项目的深入，最初的系统交互模式及服务管理模式逐渐不适用越来越复杂的办公场景及服务治理需求。于是在2019年上马了TripPal的改造项目，在结合公司国际化战略的基础上，倾力打造小程序平台，服务号等基础服务。在梳理、优化原有服务的同时，打造了诸多衍生服务。

2020年中开始，在继续推进企业内办公一站式平台的基础上，我们需要支持更多的外部场景，实际需求促使我们向开放式平台转型，这在服务整体架构、安全性、扩展性等方面都提出了新的要求及挑战。

5、携程TripPal开放平台总体架构

5.1Gateway网关层

这一层是所有请求调用流量的入口，主要功能如下：

1）服务路由；
2）集中式限流、风控、日志监控等功能；
3）调用IDS (Identity Service) 验证请求的合法性。

第 3）步中验证通过后，可以将用户ID、Token等基本信息，通过 HttpHeader 的方式向后端服务透传，后端服务可以直接使用UserID，也可以再次对Token进行认证

5.2IDS (Identity Service) 服务

IDS同时支持多种不同类型的访问令牌的鉴权，同时还负责令牌的颁发，以及RBAC+模块级别的接口控权。

另外，针对开放小程序，TripPal提供两种认证方式：

1）常规的Oauth第三方模式接入：

2）另一种是基于Oauth+开放平台签名的第三方认证，对于接入方相对简单：

5.3微服务层

这一层是整个系统的业务层，具体包含三种类型的微服务：

1）TripPal开放平台内部系统微服务：只有在特定用户认证和权限验证通过之后，外部才能访问；
2）开放平台对外提供的OpenAPI：采用Oauth+RBAC的方式控制权限；
3）自研小程序后端服务：根据安全需要，所有使用Oauth+模块权限的第一方小程序服务端。

目前TripPal自身的核心微服务应用达到28个，提供全集团的多端（C端、B端）基础服务能力，服务全公司超过500个业务应用，在线C端用户均值超过2万，日访问量超过亿。

6、 TripPal的IM服务

目前TripPal使用完全自研的基于Java实现的类ejabberd架构，底层采用的XMPP协议进行通讯。

Tips：

XMPP全称是ExtensibleMessageing and Presence Protocol，可扩展消息与存在协议。是目前网络上开源，最灵活，应用最广泛的一种即时消息通信协议。
1999年Jeremie Miller，首先提出了Jabber，一种为实现即时消息和存在的开放技术，后续基于这个协议，开发了一个开源的服务实现jabberd。后续，IETF国际标准组织介入，成立Extensible Messageing and Presence Protocol（XMPP）工作组，并开始标准化工作。
2000年，jabberd服务器1.0版本发布，那时Jabber协议的基本特点（基于XML的流，消息，存在，联系人列表等）都被固定下来。
2004年，IETF出版了RFC 3902和RFC3921，定义了XMPP的核心功能，成为推荐标准。
后续在2011年，IETF出版了RFC6120和RFC 6121，更新了XMPP的核心定义，替代了之前的RFC 3920和3921。
目前XMPP协议被XMPP Standards Foundation负责管理运作，集中于在IETF定义的基础XMPP规范之上，如何开发开放的协议扩展。

IM服务端做了大量的系统性的优化，从底层的数据库调优、底层通讯服务升级，到上层消息、群、群成员等核心功能的大幅改造。

底层通讯服务由之前的erlang完整迁移至java技术栈，服务可靠性、弹性伸缩、安全性和性能获得了提升。同时对上层偏业务的服务进行了改造，极大地提升了接口响应，服务稳定性也得到了提升，为整个产品的研发提供了重要支撑。

目前这套自研的IM 3.0服务在生产环境稳定运行，整体资源消耗比2.0时期有较大下降。

7、 TripPal办公衍生服务

7.1概述

在实际的企业办公场景下，尤其是大型企业复杂组织架构和管理模式的场景下，TripPal逐渐摸索出了自己的一套行之有效且契合携程场景的办公智能应用，如搜索中台，消息卡片，智能审批中台，角色服务，工作流引擎等。

本文简单介绍其中3个服务。

7.2智能审批中台

智能审批中台在集成携程自有的审批系统的同时也集成了自研的智能审批配置服务，该服务支持用户自定义整个审批单及审批流的全部细节。

7.3角色服务

角色服务在灵活定义角色范围及基础角色的基础上，支持用户灵活调整，动态管理，且自动接入审批中台，同时打通应用对接渠道。

整个角色服务在产品定义上分为如下表4个主要概念：

7.4在线文档

在线文档服务主要提供文档的在线协作能力，支持用户同时/实时的查看、编辑、保存和分享的能力。同时结合IM实现通知和反馈等功能。

技术实现上，在线文档是采用CRDT算法实现的无冲突merge（LastWrite Wins）、多端最终一致的分布式方案，同时兼具高可用、可容错的特性，在服务器发生故障时，允许Shift至另一台机器上继续执行，即使服务端完全宕机，客户端依然能够离线工作。

8、 TripPal高可用的实践

目前TripPal部署在3个机房，分为公有云1个机房及私有云2个机房。

总体架构在应用多机房部署、数据层跨机房DRC的基础上，采用就近访问的原则进行服务访问，其中一旦发生任意2个机房全挂的情况，都能保证系统内的核心应用仍能提供服务。

其中公有云机房的一期部署方案已经完成，二期部署方案和测试计划预计于7月完成，届时可以和大家分享一下混合云方案的一些细节和历程。

9、开放平台的未来架构及演进方向

9.1概述

开放平台主要面向两类群体，开发者和用户。

所以主要有两个方向：

1）一是便捷开发，主要围绕降低开发者门槛、较低研发成本，打通不同开发者、应用之间的壁垒，实现生态共享。

2）另一方面，针对实际用户，在提高用户体验、数据安全的同时，实现用户服务能力整合和主动发现。

9.2开发者

在这方面，目前主流开放平台已经对开发者提供了强大的支持。

主要形式分为以下3种。

1）前端信任：

前端信任的目的是通过减少或杜绝开发者后端跟开放平台OpenAPI交互的方式，来降低开发者接入门槛，减少工作量。主要的做法是通过权限控制、签名、加密等手段使得小程序能够在前端拿到可信数据。

2）低代码(Low-Code)：

由于大量的互联网业务属于简单交互或模型化交互，以此为出发点，基于构建合理模型、简单业务函数等形式，可以允许开发者通过拖拽组件、简单伪业务代码等形式提供编程入口，可以大幅度降低开发者的研发门槛和成本，打破用户和开发者界线，提高开放平台整体生态的活力。

3）ServerLess：

基于云原生的ServerLess结合低代码，开放开发者的云端编程入口，同时提供云端基础组件，允许开发者无需部署实际的后端应用服务，极大降低的开发者的运营维护门槛。

9.3用户层面

目前业界主流开放平台在对用户本身的服务能力整合和挖掘上，投入的都比较少，也没有比较成熟的实践，我们认为在这方面可以围绕两个点展开。

一方面：第三方应用治理模式向商城化的转型。常规开放平台的应用治理和推广，基本是应用方独立管理和推广，但是随着应用数量的大幅度增加，以及应用方单方面推广难度较大等原因，亟需开放平台从生态整体角度进行支持和治理。这样可以在安全性、可维护性、便捷性等维度上对应用进行正向反馈，实现开放平台应用生态的可持续性和能力共享。同时，在特定场景下，结合用户分析、大数据及AI，提高用户主动或被动的应用发现能力。

另一方面：构建符合应用间开放协议的软件联盟，打破应用壁垒，围绕服务集成、开放应用的核心原则，使得不同的互联网业务或行为在一定程度上实现数据/能力共享。一般情况下，一个复杂互联网业务通常由多个异构子业务/子应用构成，这样，通过应用拆分、开放共享等形式，在一定程度上使复杂的互联网业务更加精细化、轻量化、可扩展。

9.4开放平台标准化、互通

目前国内外各大互联网公司、机构和组织都搭建了多种开放平台，用于提供各种各样的信息服务，在可以预见的未来，各个平台之间会有一个整合、标准化、互通的可能性。

那么构建标准开放协议，使得开放平台向底层沉淀的过程则至关重要。

10、本文小结

通过实现基本IM开放平台架构，以及各种衍生服务，我们总结出了IM开放平台的一些核心能力。

主要是：

1）服务集成：根据不同的业务场景集成并提供相应场景下的基础服务能力；
2）开放应用：提供第三方接入能力；
3）高性能、高可用。

11、参考资料

[1] 零基础IM开发入门(一)：什么是IM系统？

[2] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[3] 瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）

[4] 从游击队到正规军(一)：马蜂窝旅游网的IM系统架构演进之路

[5] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[6] 浅谈IM系统的架构设计

[7] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[8] 一套海量在线用户的移动端IM架构设计实践分享(含详细图文)

[9] 一套原创分布式即时通讯(IM)系统理论架构方案

[10] 一套亿级用户的IM架构技术干货(上篇)：整体架构、服务拆分等

[11] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[12] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[13] 阿里IM技术分享(三)：闲鱼亿级IM消息系统的架构演进之路

[14] 基于实践：一套百万消息量小规模IM系统技术要点总结

[15] 跟着源码学IM(十)：基于Netty，搭建高性能IM集群（含技术思路+源码）

[16] 一套十万级TPS的IM综合消息系统的架构实践与思考

[17] 直播系统聊天技术(八)：vivo直播系统中IM消息模块的架构实践

[18] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制

[19] 得物从0到1自研客服IM系统的技术实践之路

[20] 一套分布式IM即时通讯系统的技术选型和架构设计

[21] 微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

（本文已同步发布于：http://www.52im.net/thread-4690-1-1.html）

posted @ 2024-08-29 15:45 Jack Jiang 阅读(91) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十三)：为什么手机信号差？一文即懂！

摘要: 【来源申明】本文引用了微信公众号“网优雇佣军”的《是谁偷走了我家的手机信号？》文章内容。为了更好的内容呈现，下文在引用和收录时内容有改动，转载时请注明原文来源信息，尊重原作者的劳动。1、系列文章引言1.1适合谁来阅读？本系列文章尽量使用最浅显易懂的文字、图片来组织内容，力求通信技术零基础的人群也能看懂。但个人建议，至少稍微了解过网络通信方面的知识后再看，会更有收获。如果您大... 阅读全文

posted @ 2024-08-21 17:53 Jack Jiang 阅读(95) | 评论 (0) | 编辑收藏

得物自研移动端弱网诊断工具的技术实践分享

摘要: 本文由得物技术厉飞雨分享，原题“得物App弱网诊断探索之路”，下文进行了排版和内容优化。1、引言随着得物用户规模和业务复杂度不断提升，端上网络体验优化已逐步进入深水区。为了更好地保障处于弱网状态下得物App用户的使用体验，我们在已有的网络体验大盘、网络诊断工具的基础上研发了弱网诊断能力。该工具能够高效实时诊断用户真实网络环境，同时给出精确网络质量分级，为后续App各业务场景... 阅读全文

posted @ 2024-08-15 11:08 Jack Jiang 阅读(108) | 评论 (0) | 编辑收藏

大型IM稳定性监测实践：手Q客户端性能防劣化系统的建设之路

摘要: 本文来自腾讯手Q基础架构团队杨萧玉、邱少雄、张自蹊、王褚重天、姚伟斌的分享，原题“QQ 客户端性能稳定性防劣化系统 Hodor 技术方案”，下文进行了排版和内容优化。1、引言接上篇《首次公开，最新手机QQ客户端架构的技术演进实践》。防劣化是比较经典的技术话题，手 Q 的防劣化系统从 2021 年 10 月开始投入研发，从 0 到 1 迭代了将近三年的时间，已经达到了业界先进... 阅读全文

posted @ 2024-08-02 10:38 Jack Jiang 阅读(80) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.6版已发布

关于RainbowChat

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

v11.6 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容：

1）[bug] 解决了APP从后台恢复时，有一定几率因后台多线程操作好友数据导致的线程安全崩溃问题；
2）[优化] 加固了一处好友列表中根据昵称取拼音首字母的非空检查逻辑；

（2）服务端主要更新内容：

1）[bug] 升级了MobileIMSDK至v6.5，尝试解决极小几率下Android端会误把“自已”踢掉的问题
2）[bug] 解决了因Netty库版本升级导致iOS消息推送失败报错的问题：
3）[bug] 解决了消息撤回时，被引用消息的历史记录没有正确处理撤回逻辑；
4）[优化] 为“接口1008-26-7”增加了“at_me”字段的返回；
5）[优化] 优化了“接口1008-26-8”，使得在跟Web互通时支持按时间戳的聊天记录分页加载方案；
6）[优化] 为“接口1008-26-8”增加了“消息发送者昵称”内容的返回；

部分功能运行截图（更多截图点此查看）：

posted @ 2024-07-26 12:57 Jack Jiang 阅读(96) | 评论 (0) | 编辑收藏

Web网页端IM产品RainbowChat-Web的v7.1版已发布

一、关于RainbowChat-Web

RainbowChat-Web是一套Web网页端IM系统，是RainbowChat的姊妹系统（RainbowChat是一套基于开源IM聊天框架 MobileIMSDK (Github地址) 的产品级移动端IM系统）。

► 详细介绍：http://www.52im.net/thread-2483-1-1.html

► 版本记录：http://www.52im.net/thread-2480-1-1.html

► 运行截图：http://www.52im.net/thread-2470-1-1.html

► 运行视频：http://www.52im.net/thread-2491-1-1.html

二、v7.1 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] [前端] - 解决了转发语音消息后，语音消息ui气泡css样式问题；
2）[bug] [前端] - 解决了登陆后首次打开对应聊天界面前收到的新消息和历史消息显示顺序问题；
3）[bug] [前端] - 解决了删除聊天后，没有自动清除聊天界面上的“加载更多”功能按钮；
4）[bug] [前端] - 解决了引用陌生人消息时，显示的是uid而不是对方昵称的问题；
5）[bug] [前端] - 解决了群主撤回群员消息时，系统通知中显示的是uid而不是对方昵称的问题；
6）[优化] [前端] - 优化了引用的消息内容中表情图标导致引用的文字不能垂直居中显示的ui问题；
7）[优化] [前端] - 优化了群聊中消息发送者昵称的显示；
8）[优化] [服务端] - 为“接口1008-26-8”增加了“消息发送者昵称”内容的返回；

三、主要功能特性截图

主要功能特性截图（更多运行截图、运行视频）：

posted @ 2024-07-26 11:42 Jack Jiang 阅读(79) | 评论 (0) | 编辑收藏

IM跨平台技术学习(十三)：从理论到实践，详细对比Electron和Tauri的优劣

摘要: 本文由京东技术王泽知分享，原题“基于Web的跨平台桌面应用开发”，下文进行了排版和内容优化。1、引言近些年来，跨平台跨端一直是比较热门的话题，Write once, run anywhere一直是开发者所期望的，跨平台方案的优势十分明显。对于开发者而言，可以做到一次开发、多端复用，一套代码就能够运行在不同设备上，这在很大程度上能够降低... 阅读全文

posted @ 2024-07-25 11:08 Jack Jiang 阅读(119) | 评论 (0) | 编辑收藏

即时通讯技术文集（第41期）：直播技术合集(Part1) [共12篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第41 期。

[- 1 -] 移动端实时音视频直播技术详解（一）：开篇

[链接] http://www.52im.net/thread-853-1-1.html

[摘要] 本文是《移动端实时音视频直播技术详解》系列文章之第一篇，我们将从整体介绍直播中的各个环节。

[- 2 -] 移动端实时音视频直播技术详解（二）：采集

[链接] http://www.52im.net/thread-955-1-1.html

[摘要] 本文是《移动端实时音视频直播技术详解》系列文章之第二篇：我们将从整体介绍直播中的采集环节。

[- 3 -] 移动端实时音视频直播技术详解（三）：处理

[链接] http://www.52im.net/thread-960-1-1.html

[摘要] 本篇是《移动端实时音视频直播技术详解》系列文章之第三篇：我们将从整体讲解常见视频处理功能：如美颜、视频水印、滤镜、连麦等。

[- 4 -] 移动端实时音视频直播技术详解（四）：编码和封装

[链接] http://www.52im.net/thread-965-1-1.html

[摘要] 本篇是是《移动端实时音视频直播技术详解》系列文章之第四篇：我们将从整体讲解编码和封装。

[- 5 -] 移动端实时音视频直播技术详解（五）：推流和传输

[链接] http://www.52im.net/thread-967-1-1.html

[摘要] 本篇是《移动端实时音视频直播技术详解》系列文章之第五篇：我们将从整体讲解推流和传输。

[- 6 -] 移动端实时音视频直播技术详解（六）：延迟优化

[链接] http://www.52im.net/thread-972-1-1.html

[摘要] 本篇是《移动端实时音视频直播技术详解》系列文章之第六篇：我们将从整体讲解延迟优化技术。

[- 7 -] 理论联系实际：实现一个简单地基于HTML5的实时视频直播

[链接] http://www.52im.net/thread-875-1-1.html

[摘要] 本次分享就向大家介绍一下分享一下直播的整个流程和一些技术点，并动手实现一个简单的Demo。

[- 8 -] 实时视频直播客户端技术盘点：Native、HTML5、WebRTC、微信小程序

[链接] http://www.52im.net/thread-1564-1-1.html

[摘要] 连麦视频直播的客户端主要包括：原生 APP、浏览器 H5、浏览器 WebRTC、微信小程序。浏览器上的应用包括 H5 和 WebRTC，前者可以拉流观看，后者可以实现推流和拉流。

[- 9 -] Android直播入门实践：动手搭建一套简单的直播系统

[链接] http://www.52im.net/thread-1154-1-1.html

[摘要] 实时视频直播是这两年非常火的技术形态，已经渗透到教育、在线互娱等各种业务场景中。但要搭建一套实时视频直播系统，并非易事，当然相关的直播技术理论在论坛的其它文章里已经写的非常详细，本文不再展开。

[- 10 -] 淘宝直播技术干货：高清、低延时的实时视频直播技术解密

[链接] http://www.52im.net/thread-3220-1-1.html

[摘要] 本文由淘宝直播音视频算法团队分享，对实现高清、低延时实时视频直播技术进行了较深入的总结，希望分享给大家。

[- 11 -] 技术干货：实时视频直播首屏耗时400ms内的优化实践

[链接] http://www.52im.net/thread-2087-1-1.html

[摘要] 直播行业的竞争越来越激烈，进过2018年这波洗牌后，已经度过了蛮荒暴力期，剩下的都是在不断追求体验。最近正好在做直播首开优化工作，实践中通过多种方案并行，已经能把首开降到500ms以下，借此机会分享出来，希望能对大家有所启发。

[- 12 -] 新浪微博技术分享：微博实时直播答题的百万高并发架构实践

[链接] http://www.52im.net/thread-2022-1-1.html

[摘要] 本文将分享新浪微博系统开发工程师陈浩在 RTC 2018 实时互联网大会上的演讲。他分享了新浪微博直播互动答题架构设计的实战经验。其背后的百万高并发实时架构，值得借鉴并用于未来更多场景中

👉52im社区本周新文：《IM跨平台技术学习(十二)：万字长文详解QQ Linux端实时音视频背后的跨平台实践》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-07-11 12:38 Jack Jiang 阅读(112) | 评论 (0) | 编辑收藏

IM跨平台技术学习(十二)：万字长文详解QQ Linux端实时音视频背后的跨平台实践

摘要: 本文由QQ音视频团队贺坤分享原题“Linux QQ能打语音视频了！一文详解背后技术实现！”，下文进行了排版和内容优化等。1、引言2024年6月6日，QQ For Linux 3.2.9 正式支持了音视频通话功能，这是 QQ Linux 版本的又一个里程碑事件。 2024 年，QQ 音视频正式推出 NTRTC，全平台（iOS/Android/MacOS/Windows/Lin... 阅读全文

posted @ 2024-07-04 11:31 Jack Jiang 阅读(96) | 评论 (0) | 编辑收藏

移动端IM开发者必读(三)：爱奇艺移动端跨国弱网通信的优化实践

本文由爱奇艺技术团队分享，作者isno，原题“爱奇艺海外App的网络优化实践”，下文进行了排版和内容优化等。

1、引言

做海外市场，特别目标是面向全球的用户，网络的重要性不言而喻。试想一个移动端应用，比如即时通讯IM，聊天消息的本质就是人跟人在说话，一条消息从发送到接受需要10秒的时间，这恐怕会让用户崩溃，随之就是被无情地卸载，开拓海外市场那就是做梦了。

本次分享的文章内容，基于爱奇艺面向全球用户推出的国际版，在海外跨国网络环境复杂的前提下，针对性地做了一系列弱网优化实践，取得了不错的效果，在此总结分享我们的一些做法和优化思路，希望对你有所帮助。

总结下来，跨国弱网优化实践的几个核心就是：

1）能不请求网络就不请求；
2）请求的链接目标 0-RTT；
3）请求的内容越小越好。

正文内容我们将逐个技术点展开了分享。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4669-1-1.html）

2、系列文章

本文是系列文章中的第 3 篇，本系列文章的大纲如下：

如果您是IM开发初学者，强烈建议首先阅读《新手入门一篇就够：从零开发移动端IM》。

3、跨国弱网样本摸底

在 App 初期版本内增加请求链路的采样。样本数足够的情况下，可以清楚你要推广的市场是怎样的环境。样本数据让我们清楚发现了各个国家、地区网络的问题，在大规模宣传和投入前，做好 App 的基础工作非常重要。

海外用户至海外数据中心的网络延迟（这是监测节点数据，用户端延迟更高）：

海外主要国家、地区移动网络情况：

在调研阶段，我们发现了以下问题比较明显，切实影响我们的运营及 App 体验。

这些问题主要是：

1）运营商劫持严重，DNS 劫持、HTTP 劫持；
2）移动端网络复杂，东南亚的网络基础建设还待改善；
3）低端 Android 机有一定的占比，数量级别影响决策；
4）国际网络用户端到服务器的延迟高。

在初期阶段，技术工作的核心是解决以上问题，为后续的运营做好基础建设。因为业务接口大部分为 HTTP 形式，就开始围绕 HTTPS 进行针对性改进。

一个HTTPS请求阶段分析：

一个 HTTPS 在第一请求会有 5 个 RTT：

1RTT(DNS)+ 1RTT(TCP 握手)+ 2RTT(TLS1.2)+ 1RTT(HTTP 链接)

如果以端到服务 50ms 延迟为例：

一个 HTTPS 的接口延迟 = 350ms = 50*5+ 100ms（服务端）

如果目标是一个非国内用户，打开首页需要 1.1s, 这个时间显然有点长。

下面开始进行技术改进的正文，以下是概括技术性优化的关键点：

4、基础链路的改进优化

4.1DNS 优化调整

DNS 的解析改为 HTTPDNS，DNS 的改进上线后观察初始连接请求提升 17% 的效率。

目的主要是：

1）解决域名劫持问题（东南亚地区回传的数据显示有不少劫持）；
2）解决 LocalDNS 非就近分配问题；
3）结合业务可以做解析预热。

4.2传输层的优化调整

MTU 的问题：

1）Client 端和 Server 端不同的 MTU 值会导致丢包率过高。AWS 某些场景实例默认巨型帧：MTU 是 9001，但接收端默认 1500，这时候就会出现一些丢包的现象；
2）如果你用了多个云商服务，用 VPN 组网，IP隧道封装的数据临界 1500，又会造成丢包、包重传问题；
3）最严重的情况：部分网络封杀 ICMP 协议，导致 MTU 无法自动协商。

TCP 拥塞控制优化：

拥塞窗口 CongWin 是未接收到接收端确认情况下连续发送的字节数; 。CongWin 是动态调整，取决于带宽和延迟的积，比如 100MB 的带宽 100ms 的延迟环境。

时延带宽积 = 100Mbps*100ms = (100/8)*(100/1000) = 1.25MB

理论上 CongWin 窗口可以最大化到 1.25MB。CentOS 默认CongWin = 20*MSS，在 29KB 左右，离上限 1.26MB 差太多了，默认值上调TCP的启动会更快。

TCP 快速打开 (TCP Fast Open：TFO)：

TCP 的 keepalive 下依然会有链接断掉重建的情况，TFO 是针对这种情况的优化。

TFO 的原理机制：

在我们观察中开启 TFO 机制，海外业务一个 RTT 通常时间在 100ms 以上，HTTP 请求效率提升了 12% 左右。

5、应用层的改进优化

5.1HTTP 的优化

HTTP1.1 有个 keep-alive 作用是复用 TCP 链接，减少新建的消耗，对于浏览器的业务比较适用，但对于移动端这种时间分散的请求，大部分请求还是新建连接。

HTTP1.1 的串行机制有头部阻塞的问题。

5.2SSL 层优化

尽量升级到 TLS1.3（微信的TLS1.3实践：《微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解》），利用 Pre-shared Key 机制，开启 ssl_early_data 可以进一步优化 “0-RTT ”，如果无法升级 TLS 版本，优化密钥算法为 ECDHE，运算速度快，握手的消息往返由 2-RTT 减少到 1-RTT，能达到与 TLS1.3 类似的效果。

TLS 版本的区别：

TLS1.3 经过优化后，一个 HTTP 请求由之前的 4 个 RTT 减少为 3 个 RTT。

5.3升级 HTTP2.0

几个重要的改进点：

1）分帧传输；
2）多路复用；
3）头部压缩。

多路复用：

在 HTTP/2 中，两个非常重要的概念：帧（frame）和流（stream）。帧代表着最小的数据单位，每个帧会标识出该帧属于哪个流，流也就是多个帧组成的数据流。多路复用，就是在一个 TCP 连接中可以存在多条流。这些改进可以避免 HTTP 队头阻塞问题，提高传输性能。

头部压缩：

开发人员如果不注意对 header 内容的控制，会造成 header 内容失控的现象，客户端极容易存储一个非常大的 Cookie。

HTTP2 的分帧传输机制：

5.4边缘节点动态加速

这个是非常有效的方式。

尽可能离用户最近，利用边缘节点对路由、链路进行优化，提高动态服务的效率。相较于直连模式，使用动态加速后，P90 的接口延迟效率提升了 60%。

爱奇艺海外动态加速的效果提升（请求时间为秒）：

5.5启用兜底机制

对于失败的请求，启用兜底的协议 QUIC 或者 kcp。

客户端的失败率在 3% 左右，对这部分请求使用 UDP 协议兜底尝试，在我们的观察成功率提升了 45%。

6、传输内容的优化

6.1应用 Brotli

因为预置了字典，在同等级别的压缩率下，对比 gzip 至少提升了 17% 的压缩比，接口平均的 Content-Size 由 30KB，降至 18KB。

6.2接口由 JSON 改为 Google Protobuf

应用 Protobuf 的重要原因是解析效率比 JSON 至少高四五倍，在节点深度和数据量大的情况下更明显。

但注意 Protobuf 内部的 varint 压缩，只对小于 128 的数字进行可变长压缩。实际效果不大，生产环境如果数据量大，外层的压缩如 gzip 不可少。

PS：关于Protobuf的资料，可以进一步阅读《IM通讯协议专题学习》。

6.3图片格式升级为 WebP

在应用 WebP 的同时，降低海报图片的质量，实践看海报的 quality 设置为 85% 肉眼难以分辨，相对同质量的 JPEG 或者 PNG ，可以最大减小 45% 的体积。

应用效果明显。App 打开首页图片的加载提升肉眼可见。

7、业务层面的优化改进

7.1减少不必要请求：

一些通用内容，如导航、频道，通常由运营人员主动更新。

如下图：增加一个启动阶段请求的接口，里面放入内容更新的时间戳，与本地 cache 的时间戳有差异，则异步请求更新。

7.2区别用户网络，适应不同的策略

具体作法是：

1）对于视频，非 WiFi 默认启播码率为 360P；
2）对于海报，后端接口提供两种质量的 Url，WiFi 高质，4G 低质。

7.3更多的业务优化

增加请求重试、调整 HTTP 的超时时间，请求缓存等等这些可以根据业务的需求进行调整。

8、本文小结

爱奇艺海外版APP经过一系列细节优化，用户体验持续上升。用户接口延迟、客户端失败率、视频播放成功率一系列的关键指标得到很大的改善。这也助力爱奇艺在东南亚多个国家的应用市场排名升至 TOP 1。

另外 App 优化、Server 延迟优化、产品体验的改进，这一系列只有相辅相成才可以最大化提升用户体验。

9、参考资料

[1] TCP/IP详解 - 第17章·TCP：传输控制协议

[2] 网络编程懒人入门(三)：快速理解TCP协议一篇就够

[3] 新手入门一篇就够：从零开发移动端IM

[4] 现代移动端网络短连接的优化手段总结：请求速度、弱网适应、安全保障

[5] 全面了解移动端DNS域名劫持等杂症：技术原理、问题根源、解决方案等

[6] 美图App的移动端DNS优化实践：HTTPS请求耗时减小近半

[7] 百度APP移动端网络深度优化实践分享(一)：DNS优化篇

[8] 百度APP移动端网络深度优化实践分享(二)：网络连接优化篇

[9] 百度APP移动端网络深度优化实践分享(三)：移动端弱网优化篇

[10] 爱奇艺移动端网络优化实践分享：网络请求成功率优化篇

[11] 美团点评的移动端网络优化实践：大幅提升连接成功率、速度等

[12] 淘宝移动端统一网络库的架构演进和弱网优化技术实践

[13] 谈谈移动端 IM 开发中登录请求的优化

[14] 移动端IM开发需要面对的技术问题（含通信协议选择）

[15] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[16] 微信对网络影响的技术试验及分析（论文全文）

[17] 腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗（上篇）

[18] IM开发者的零基础通信技术入门(十二)：上网卡顿？网络掉线？一文即懂！

[19] 微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[20] IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！

（本文已同步发布于：http://www.52im.net/thread-4669-1-1.html）

posted @ 2024-06-27 11:51 Jack Jiang 阅读(92) | 评论 (0) | 编辑收藏

Web网页端IM产品RainbowChat-Web的v7.0版已发布

一、关于RainbowChat-Web

RainbowChat-Web是一套Web网页端IM系统，是RainbowChat的姊妹系统（RainbowChat是一套基于开源IM聊天框架 MobileIMSDK (Github地址) 的产品级移动端IM系统）。

► 详细介绍：http://www.52im.net/thread-2483-1-1.html

► 版本记录：http://www.52im.net/thread-2480-1-1.html

► 运行截图：http://www.52im.net/thread-2470-1-1.html

► 运行视频：http://www.52im.net/thread-2491-1-1.html

二、v7.0 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] [前端] - 解决了断网重连后，首页“消息”列表中的item选中状态会消失的问题；
2）[bug] [前端] - 解决了“清屏”功能不能清除群聊缓存的问题；
3）[bug] [服务端] - 解决了消息撤回时，被引用消息的历史记录没有被正确处理；
4）[新增] [前端] - 新增“@”功能；
5）[新增] [前端] - 新增消息引用功能（支持引用全部消息类型）；
6）[新增] [前端] - 启用了新的“加载更多”功能，支持动态分页加载，提升大量历史聊天记录下的用户体验；
7）[优化] [前端] - 首页消息列表中的语音消息将显示时长（跟新版微信一样）；
8）[优化] [前端] - 优化了聊天消息中的网址链接显示（自动解析超链接）；
9）[优化] [前端] - 大幅提升聊天界面中加载大量消息时的ui渲染性能；
10）[优化] [前端] - 其它ui和体验的小细节优化；
11）[优化] [服务端] - 为“接口1008-26-7”增加了“at_me”字段的返回；
12）[优化] [服务端] - 优化了“接口1008-26-8”，使聊天记录支持按时间戳的分页加载方案；
13）[优化] [服务端] - 升级了包括log4j2等在内的一些基础库版本。

三、v7.0 版新增主要特性截图

“@”功能功能运行截图（查看演示视频、更多运行截图）：

“消息引用”功能（查看演示视频、更多运行截图）：

posted @ 2024-06-24 13:25 Jack Jiang 阅读(51) | 评论 (0) | 编辑收藏

不为人知的网络编程(十六)：深入分析与解决TCP的RST经典异常问题

摘要: 本文由腾讯技术kernel分享，原题“TCP经典异常问题探讨与解决”，下文进行了排版和内容优化等。1、引言TCP的经典异常问题无非就是丢包和连接中断，在这里我打算与各位聊一聊TCP的RST到底是什么？现网中的RST问题有哪些模样？我们如何去应对和解决？本文将从TCP的RST技术原理、排查手段、现网痛难点案例三个方面，自上而下、循序渐进地给读者带来一套完整的分析方法和解决思路... 阅读全文

posted @ 2024-06-20 12:49 Jack Jiang 阅读(94) | 评论 (0) | 编辑收藏

IM跨平台技术学习(十一)：环信基于Electron打包Web IM桌面端的技术实践

摘要: 本文由环信技术黄飞鹏分享，原题“实战｜如何利用 Electron 快速开发一个桌面端应用”，本文进行了排版和内容优化等。1、引言早就听说利用Electron可以非常便捷的将网页端快速打包成桌面应用，并且利用 Electron 提供的 API 调用可以使用原生桌面 API 一些高级功能。于是这次借着论证 Web IM端 SDK 是否可以在 Electron 生成的桌面端正常稳... 阅读全文

posted @ 2024-06-13 11:53 Jack Jiang 阅读(74) | 评论 (0) | 编辑收藏

即时通讯技术文集（第40期）：推送技术合集(Part2) [共18篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第 40 期。

[- 1 -] 一个基于长连接的安全可扩展的订阅/推送服务实现思路

[链接] http://www.52im.net/thread-776-1-1.html

[摘要] 本文将从如何保证连接的业务安全（禁止非业务认证的连接订阅消息）和如何扩展能够支持更多的消息和连接两点展开分析。

[- 2 -] 实践分享：如何构建一套高可用的移动端消息推送系统？

[链接] http://www.52im.net/thread-800-1-1.html

[摘要] 本文追溯了推送技术的发展历史，剖析了其核心原理，并对推送服务的关键技术进行深入剖析，围绕消息推送时产生的服务不稳定性，消息丢失、延迟，接入复杂性，统计缺失等问题，提供了一整套平台级的高可用消息推送解决方案。实践中，借助于该平台，不仅能提能显著提高消息到达率，还能提高研发效率，并道出了移动开发基础设施的平台化架构思路。

[- 3 -] Go语言构建千万级在线的高并发消息推送系统实践(来自360公司)

[链接] http://www.52im.net/thread-848-1-1.html

[摘要] 本文内容整理自奇虎360公司的周洋在 Gopher China 2015 大会上的分享（演讲PPT下载：《Go语言构建高并发消息推送系统实践PPT(来自奇虎360)[附件下载] 》），该次分享以360海量在线的消息推送系统为例，来探讨使用Go语言构建高并发消息推送系统时所遇到的问题以及总结出的各种实践技巧。

[- 4 -]腾讯信鸽技术分享：百亿级实时消息推送的实战经验

[链接] http://www.52im.net/thread-999-1-1.html

[摘要] 本文整理了此次甘恒演讲的内容并以文字的方式分享给大家，希望能给技术同行带来一些技术上的启发。

[- 5 -] 百万在线的美拍直播弹幕系统的实时推送技术实践之路

[链接] http://www.52im.net/thread-1236-1-1.html

[摘要] 本文作者是美拍的架构师，经历了直播弹幕从无到有，从小到大的过程，借此文为大家分享构建弹幕系统的经验，希望能为正在开发或正打算开发弹幕、消息推送、IM聊天等系统的技术同行带来一些启发。

[- 6 -] 京东京麦商家开放平台的消息推送架构演进之路

[链接] http://www.52im.net/thread-1321-1-1.html

[摘要] 我会详细的介绍下京麦实时消息推送是如何在演变中不断完善的。

[- 7 -] 了解iOS消息推送一文就够：史上最全iOS Push技术详解

[链接] http://www.52im.net/thread-1762-1-1.html

[摘要] 本文将对iOS Push的在线push、本地push及离线（远程）push进行了详细梳理，介绍相关逻辑、测试时要注意的要点以及相关工具的使用。

[链接] http://www.52im.net/thread-1820-1-1.html

[摘要] 本文要分享的消息推送指的是当iOS端APP被关闭或者处于后台时，还能收到消息/信息/指令的能力。

[- 9 -] 解密“达达-京东到家”的订单即时派发技术原理和实践

[链接] http://www.52im.net/thread-1928-1-1.html

[摘要] 本文将描述“达达-京东到家”的订单即时派发系统从无到有的系统演进过程，以及方案设计的关键要点，希望能为大家在解决相关业务场景上提供一个案例参考。

[- 10 -] 技术干货：从零开始，教你设计一个百万级的消息推送系统

[链接] http://www.52im.net/thread-2096-1-1.html

[摘要] 本文主要分享的是如何从零设计开发一个中大型推送系统，因限于篇幅，文中有些键技术只能一笔带过，建议有这方面兴趣的读者可以深入研究相关知识点，从而形成横向知识体系。

[- 11 -] 长连接网关技术专题(四)：爱奇艺WebSocket实时推送网关技术实践

[链接] http://www.52im.net/thread-3539-1-1.html

[摘要] 本文分享了爱奇艺基于Netty实现WebSocket长连接实时推送网关时的实践经验总结。

[- 12 -] 喜马拉雅亿级用户量的离线消息推送系统架构设计实践

[链接] http://www.52im.net/thread-3621-1-1.html

[摘要] 本文分享的离线消息推送系统设计并非专门针对IM产品，但无论业务层的差别有多少，大致的技术思路上都是相通的，希望借喜马拉雅的这篇分享能给正在设计大用户量的离线消息推送的你带来些许启发。

[- 13 -] 直播系统聊天技术(三)：微信直播聊天室单房间1500万在线的消息架构演进之路

[链接] http://www.52im.net/thread-3376-1-1.html

[- 14 -] 直播系统聊天技术(四)：百度直播的海量用户实时消息系统架构演进实践

[链接] http://www.52im.net/thread-3515-1-1.html

[摘要] 本文主要分享的是百度直播的消息系统的架构设计实践和演进过程。

[- 15 -] 消息推送技术干货：美团实时消息推送服务的技术演进之路

[链接] http://www.52im.net/thread-3662-1-1.html

[摘要] 本文将首先从Pike的系统架构升级、工作模式升级、长稳保活机制升级等方面介绍2.0版本的技术演进，随后介绍其在直播、游戏等新业务场景下的技术特性支持，并对整个系统升级过程中的技术实践进行了总结。

[- 16 -] 揭秘vivo百亿级厂商消息推送平台的高可用技术实践

[链接] http://www.52im.net/thread-4416-1-1.html

[摘要] 本文将要分享的是vivo技术团队针对消息推送系统的高并发、高时效、突发流量等特点，从长连接层容灾、逻辑层容灾、流量容灾、存储容灾等方面入手，如何保证百亿级厂商消息推送平台的高可用性的。

[- 17 -] 得物从零构建亿级消息推送系统的送达稳定性监控体系技术实践

[链接] http://www.52im.net/thread-4614-1-1.html

[摘要] 本文分享的是得物针对现有的消息推送系统的消息送达耗时、实时性、稳定性等方面问题，从零到一构建完整的消息推送质量监控体系和机制的技术实践。

[- 18 -] B站千万级长连接实时消息系统的架构设计与实践

[链接] http://www.52im.net/thread-4647-1-1.html

[摘要] 本文将介绍B站基于golang实现的千万级长连接实时消息系统的架构设计与实践，包括长连接服务的框架设计，以及针对稳定性与高吞吐做的相关优化。

👉52im社区本周新文：《IM跨平台技术学习(十一)：环信基于Electron打包Web IM桌面端的技术实践》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-06-12 14:54 Jack Jiang 阅读(65) | 评论 (0) | 编辑收藏

社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元

摘要: 本文由腾讯梁中原分享，原题“红包算法揭秘！哪段代码让你只抢了0.01元？”，下文进行了排版和内容优化等。1、引言在上一篇《来看看微信十年前的IM消息收发架构，你做到了吗》的文章中，有用户提到想了解自己每次微信红包只能抽中 0.01 元的反向手气最佳是怎么在技术上实现的，于是就有了本篇文章的诞生。其实，微信红包最初在产品设计上有过很多思路，最初曾以多档次、按比例分配的方式，但... 阅读全文

posted @ 2024-06-06 12:45 Jack Jiang 阅读(58) | 评论 (0) | 编辑收藏

即时通讯技术文集（第39期）：推送技术合集(Part1) [共18篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第 39 期。

[- 1 -] iOS的推送服务APNs详解：设计思路、技术原理及缺陷等

[链接] http://www.52im.net/thread-345-1-1.html

[摘要] 本文重点介绍APNs的设计思路、技术原理以及各种缺陷槽点，也希望能给自已设计推送系统的同行带来启发。

[- 2 -] 信鸽团队原创：一起走过 iOS10 上消息推送(APNS)的坑

[链接] http://www.52im.net/thread-862-1-1.html

[摘要] 集成推送需要注意些什么？集成之后，怎样确认自己是否正确集成了远程消息推送呢？

[- 3 -] Android端消息推送总结：实现原理、心跳保活、遇到的问题等

[链接] http://www.52im.net/thread-341-1-1.html

[摘要] 最近研究Android推送的实现, 研究了两天一夜, 有了一点收获, 写下来既为了分享, 也为了吐槽. 需要说明的是有些东西偏底层硬件和通信行业, 我对这些一窍不通, 只能说说自己的理解.

[- 4 -] 扫盲贴：认识MQTT通信协议

[链接] http://www.52im.net/thread-318-1-1.html

[摘要] MQTT（Message Queuing Telemetry Transport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。

[- 5 -] 一个基于MQTT通信协议的完整Android推送Demo

[链接] http://www.52im.net/thread-315-1-1.html

[摘要] 本文主要介绍的是基于MQTT实现一个简单的Android消息推送系统。更多推送技术资料请见：http://www.52im.net/forum.php?mod=collection&action=view&ctid=11

[- 6 -] 求教android消息推送：GCM、XMPP、MQTT三种方案的优劣

[链接] http://www.52im.net/thread-314-1-1.html

[摘要] 对各个方案的优缺点的研究和对比，推荐使用MQTT协议的方案进行实现，主要原因是在文中。

[- 7 -] IBM技术经理访谈：MQTT协议的制定历程、发展现状等

[链接] http://www.52im.net/thread-525-1-1.html

[摘要] MQTT（Message Queuing Telemetry Transport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。

[- 8 -] 移动端实时消息推送技术浅析

[链接] http://www.52im.net/thread-288-1-1.html

[摘要] 本文将从移动端无线网络的特点来谈谈实时消息推送的技术原理及相关问题，希望能给你带来些许启发。

[- 9 -] 扫盲贴：浅谈iOS和Android后台实时消息推送的原理和区别

[链接] http://www.52im.net/thread-286-1-1.html

[摘要] 本文将从原理上谈谈两个平台上实时消息推送的区别。

[- 10 -] 绝对干货：基于Netty实现海量接入的推送服务技术要点

[链接] http://www.52im.net/thread-166-1-1.html

[摘要] 通过本文的案例分析和对推送服务设计要点的总结，帮助大家在实际工作中少走弯路。

[- 11 -] 移动端IM实践：谷歌消息推送服务(GCM)研究（来自微信）

[链接] http://www.52im.net/thread-122-1-1.html

[摘要] 本文主要内容由微信开发团队人员编写，来自 WeMobileDev

[- 12 -] 为何微信、QQ这样的IM工具不使用GCM服务推送消息？

[链接] http://www.52im.net/thread-117-1-1.html

[摘要] 同样是IM软件，为什么微信不使用GCM的机制而要自己开启一个Service常驻后台轮询，并且还要使用多种方式触发该Service导致无法关闭，这种机制既耗电又浪费网络资源，微信放弃成熟的GCM推送机制而使用自身后台服务的软件是否有其他自身目的性？还是说微信某些功能必须自身常驻呢？

[- 13 -] 极光推送系统大规模高并发架构的技术实践分享

[链接] http://www.52im.net/thread-602-1-1.html

[摘要] 2016年的双十一大促改改过去，作为国内第三方推送服务的领导者，极光（JIGUANG）采取了哪些措施来应对高并发推送服务？同时，极光基于 ICE 打造高可用云推送平台，其背后有哪些技术细节值得探索？

[- 14 -] 从HTTP到MQTT：一个基于位置服务的APP数据通信实践概述

[链接] http://www.52im.net/thread-605-1-1.html

[摘要] 基于以上业务场景，如此频繁的数据交互，要达到数据的实时推送级别，该选用哪种技术？HTTP短轮询还是基于TCP的实时长连接？本文给出的答案是使用MQTT协议，请继续往下阅读。

[- 15 -] 魅族2500万长连接的实时消息推送架构的技术实践分享

[链接] http://www.52im.net/thread-723-1-1.html

[摘要] 此文内容整理自魅族架构师于小波在“魅族技术开放日”的演讲分享，本次演讲中于小波分享了魅族在实现2500万长连接的实时消息推送系统中所遇到的坑和一些心得体会，希望对实时消息推送技术相关的技术同行有所启发和帮助。

[- 16 -] 专访魅族架构师：海量长连接的实时消息推送系统的心得体会

[链接] http://www.52im.net/thread-750-1-1.html

[摘要] 本文内容来自ChinaUnix的IT名人堂对魅族系统架构师于小波的专访，于小波分享了在构建魅族海量长连接的实时消息推送系统过程中所总结出的各种心得和体会，希望对正在或即将开发消息推送系统的开发者同行带来一些启发。请往下看正文。

[- 17 -] 深入的聊聊Android消息推送这件小事

[链接] http://www.52im.net/thread-771-1-1.html

[摘要] 微信由于有国际版，将 GCM 作为辅助公共通道，但仅用于激活微信自己的 Push 通道，并没有通过 GCM 来传递数据，这点也是为了复用心跳的优化策略和数据处理逻辑。

[- 18 -] 基于WebSocket实现Hybrid移动应用的消息推送实践(含代码示例)

[链接] http://www.52im.net/thread-773-1-1.html

[摘要] 本文将围绕 Hybrid App（以Cordova为例）的 WebSocket 消息推送进行一系列的实践性探索。

👉52im社区本周新文：《社交软件红包技术解密(十三)：微信团队首次揭秘微信红包算法，为何你抢到的是0.01元》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-06-05 11:56 Jack Jiang 阅读(19) | 评论 (0) | 编辑收藏

首次公开，最新手机QQ客户端架构的技术演进实践

本文由腾讯技术何金源分享，原题“不畏移山，手机QQ技术架构升级变迁史”，本文进行了排版和内容优化等。

1、引言

接上篇《总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化》，本文则将重点介绍手机 QQ 客户端技术架构升级背后的故事。

手机 QQ 经过20多年发展，功能不断增加，代码不断累积，架构已经变得越来越臃肿，影响到协作团队开发效率，对用户体验、质量稳定都有较大风险，因此手机 QQ 亟需技术架构的升级。但是对如此庞大的项目进行架构升级，在行业内也是少有的，手机 QQ 架构升级面临的困难和挑战都十分巨大，本文将围绕最新手机 QQ 客户端项目背景、项目历程、项目挑战、项目成果等方面进行深入介绍。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4658-1-1.html）

2、手机QQ的历史包袱

在过去20多年里，手机 QQ 从原来纯粹的即时通讯IM工具，成长为承载了空间、频道、短视频、超秀、增值服务等众多业务的平台。

随着业务越来越复杂，最初设计的技术架构变得越来越不适配，业务相互之间耦合越来越严重，时常会遇到改一个问题，牵扯出 N 个问题，问题改不动，代码债越积越多的情况，历史的包袱如同一座大山横在每一位手机 QQ 项目成员面前。

2020年，我们开始着手做架构升级。

鉴于手机 QQ 的业务复杂度、代码量级都非常大，评估下来架构升级的工作量大得惊人，于是我们采用分阶段、逐步演进的策略去进行架构升级。

整体回顾，手机 QQ 的架构升级时间线是这样的：

3、“解耦重构”架构设计

虽然历史包袱如同一座大山，但是手机 QQ 项目成员也有移山的意志和决心。

在2020年，手机 QQ 启动了名为“工业化实践”的技术架构升级项目，这标志着手机 QQ 工程首次系统性地进行业务边界划分、解耦和重构升级。

从上图可看出，旧架构虽然有模块化和插件化，但存在以下不足：

1）边界不清晰：主工程承载基础和大部分业务代码，导致基础和业务代码边界不清晰；
2）代码耦合紧：基础核心类持续膨胀、业务之间代码依赖不合理；
3）开发效率低：代码修改扩散造成 CR、解冲突、定位问题成本高，同时拖慢编译速度。

针对以上不足，对手机 QQ 工程重新设计了架构：

1）新架构按业务划分模块，业务模块之间是相互解耦的，业务模块之间通过接口和路由进行通信；

2）同时按层级设计划分，层级自上而下依赖，上层模块可依赖下层模块，但下层模块不能逆向依赖上层模块。

手 Q 客户端新架构：

新架构的主要收益：

1）模块更加内聚：新特性开发影响范围逐步收敛到模块内部，提升研发效率；
2）接口更加清晰：依赖数减少，可测性提升，更易于通过单元测试、接口测试保障代码逻辑正确性，提升产品质量。

4、“解耦重构”的实践历程

4.1概述

手机 QQ 工程各个业务之间的依赖非常严重，对它进行解耦重构不是一蹴而就的事情，需要按阶段制定目标，一步一步地优化。

通过整理，手机 QQ 工程解耦重构划分为以下三个阶段。

4.2阶段一（2020.11 - 2021.2）

基本完成约300万行核心代码的解耦，一共约30个基础模块和40个基础组件完成解耦，核心业务模块基本完成解耦。

开发新功能时，因为接口与服务实现是隔离的，通过接口依赖的代码不会再耦合严重。

4.3阶段二（2021.3 - 2021.6）

目标：业务模块继续解耦，建设防劣化机制。

成果：

1）API 代码占比与依赖数不增加；
2）完成防劣化机制搭建，在合入阶段拦住不合理修改；
3）完善动态化能力，优化插件与宿主间通信机制和发布效率。

4.4阶段三（2021.7 以后）

目标：进一步完善基础模块和组件化，实现子工程化。

成果：

1）完善基础模块和公共组件重构，建立基础模块发布组件流程；
2）对频道、小世界业务实现子工程化，独立编译运行。

5、“解耦重构”的技术收益

在重构基础上，梳理依赖关系，通过三个阶段改善模块化水平，提高编译速度和研发效率，流水线的编译耗时提升50%。

代码冲突方面也得到明显改善，对比重构前后数据，冲突文件数减少60%，冲突次数减少30%，大大提升开发效率。

6、手机QQ下一代架构：NT架构

在成功迈出改革的第一步之后，我们将注意力转向了手机 QQ 面临的版本碎片化问题。

不同端各自发展，形成了所谓的“烟囱式”结构，其中代码的复用率极低。这种结构带来了多端体验不一致、端内业务体验参差不齐以及每次版本更新时高昂的开发和维护成本等问题。

为了解决这些问题，并在提升用户体验、优化性能和提高研发效率方面实现突破，我们不得不深入思考。

正是这些迫切的需求和挑战促使我们启动了改革的第二步——推进手机 QQ NT 架构升级项目。

在 NT 架构设计之初，我们坚定认为不应该继续缝缝补补，而是应该采用最新且合理的技术理念，摒弃了简单的修补式方法。这次升级不仅是技术上的一次大刀阔斧的改造，更是一场深思熟虑的技术转型。

我们重视在不造成架构大规模动荡的前提下，制定了一条清晰、可行的实施路径。目标是以更少的人力投入实现更高的工作效率和成果，确保了升级过程中的高效和稳健。这种方法不仅保证了项目的顺利进行，也为未来的技术发展和迭代奠定了坚实的基础。

7、NT架构落地之难

由于手机 QQ 的历史悠久且拥有庞大的用户群，该项目在业务和用户层面都展现了巨大的复杂性。

具体来看，项目层面的挑战包括：

1）代码总量庞大：手机端代码近千万行，形成了一个技术上的庞然大物；
2）测试复杂性高：测试用例众多，功能繁杂，且存在部分文档缺失的情况；
3）依赖组件过时：项目中依赖了一些陈旧且缺乏维护的组件，以及大量无人维护的二进制库；
4）研发流程保障：在进行架构升级的同时，必须确保研发工作流程能够平稳过渡，以免影响到研发效率。

用户层面上的挑战则包括：

1）在长达一年以上的升级过程中，日常版本需要正常迭代；
2）用户本地数据量巨大，如超过 10G 的本地消息数据库；
3）项目需在技术优化的同时提升用户体验与活跃度，确保技术优化在用户端实现价值。

面对这些复杂度，项目的核心难点主要集中在以下三个方面。

1）海量功能项目的架构升级和统一：针对全终端、全功能和全项目团队的整体升级，确保架构升级过程中不能有任何缺失。手机 QQ 是在发展了20多年进行彻底重构，难度空前，没有资料可参考。

2）IM 全链路架构重写升级：解决陈年技术债，优化消息架构，平稳迁移用户历史数据，并提升消息性能。QQ 消息架构有陈年技术债，很多 QQ 历史版本里，没有统一的消息 ID 生成规则，没有统一的存储和索引方案，消息类型也是无序扩张。所以，既需要对IM全链路重写优化，同时在过程中，还需要平稳迁移用户历史数据，最终完成升级，保护用户数据、用户体验不受影响。

3）用户体验提升与活跃数据提升：逐步优化核心功能体验，不影响用户习惯，通过提升体验推动产品数据增长。代码的重写不能全盘一次性推倒重来。核心功能体验要保持，逐步优化，不能影响用户使用习惯。

这些挑战不仅说明了手机 QQ NT 架构升级项目的复杂性，也证明了我们在面对前所未有的技术难题时的决心。

8、NT架构设计

为了实现架构升级和统一，项目团队先用 C++ 开发了具备 QQ IM 核心功能的跨平台内核层：把 IM 核心业务逻辑（好友、群、频道等消息逻辑、资料与关系链逻辑、图片语音视频等富媒体收发逻辑、实时音视频逻辑等），QQ 通用组件（数据库、协议编解码、网络传输等），以及线程/网络/IO 等通用资源管理模块和操作系统封装部分，由原来的各平台原生语言实现，统一下沉到 C++ 跨平台层。

为了控制项目质量风险，NT 跨平台内核先接入用户量相对较少，对功能补齐紧迫度高的桌面端，完全用新架构重写桌面端。

在桌面端成功完成功能验证和质量测试之后，我们开始了向移动端的迁移工作，并顺利完成了 iOS 和安卓平台的集成。

当然，移动端的接入远远不像图中描述的这般容易，接下来将介绍其中的解决方案和主要过程。

9、 IM客户端全链路重写升级

在新的 NT 架构基础上，对 QQ 来说，最核心的技术升级，是 IM 全链路的升级。

IM 消息数据源复杂，历史包袱很重，升级过程的遇到的第一个难点就是数据转换及存量数据迁移到新版本问题。

比如：

1）老版本的 QQ，好友消息没有唯一标识字段，导入和去重影响大；
2）2012年以前的版本，群消息没有支持漫游，消息无唯一字段；
3）各平台消息数据格式不同，复杂度高，iOS 和 Android 分别有约200种消息类型；
4）富媒体（图片、视频、语音、文件）资源，存储的目录结构、命名都不同；
5）特殊消息，如结构化消息、Ark 消息、小灰条消息，需要做转换，完成业务的梳理和下架工作；
6）还有因为各种功能的变迁带来的遗留数据问题，如已经退出或者解散的群和讨论组等。

所以，首先需要做 IM 的精简。项目团队基于用户价值考虑，零基思维，完成消息格式统一，对消息和会话类型进行彻底精简，为 QQ 消息长治久安打下基础。

有了全端格式统一和类型精简的基础，开始用大小、性能、安全性综合最优方案设计跨平台统一的全新客户端 DB，然后再考虑旧 DB 的数据，如何平稳升级到新 DB。

移动端和桌面端不同，活跃用户全年在线，有些手机本地纯文本消息的 DB 文件超过10G，加上富媒体、文件等，总数据量超过100G，而且移动端又有存储空间小、功耗敏感、后台杀进程等多方面限制，需要设计出一套周密的升级策略，保护用户核心数据资产不丢失。

方案核心要点：

1）断点续导：移动端场景，进程随时可能被杀或退出。确保消息不丢失、不重复；
2）用户分级：跟进消息数据大小，用户分为三类，做不同的体验优化，减少对用户的影响；
3）优化发烫和耗电：限制导入速度，防止手机发烫。手机切后台后停止导入。对消息数据多的用户，引导用户设置在后台导入；
4）监控：做好各种导入异常上报监控，随时跟进用户反馈。

通过设计周密的升级策略，内部多轮推演，外部从百级开始放量，全方位监控，并用兜底策略保障不丢消息。最终结合监控数据和用户反馈数据，完成了全量用户的全量数据平稳迁移新 DB。

10、客户端核心功能优化提升

不仅是消息，在 NT 架构重写升级过程中，对 QQ 核心功能也一起做了更彻底的重构，手机 QQ 原生功能进行了大规模解耦，通用的部分进行优化并下沉为统一的 NT-Runtime 原生组件（NT 组件服务及框架层）。基于重构后的架构，也对性能进行全面优化。

首先是消息相关核心模块的优化。

消息逻辑下沉到 C++ 跨平台，也推动上层进行架构刷新。

以聊天窗口（AIO）为例：基于全新数据流架构 + 数据预加载 + UI 逻辑并行化的设计思路，完成单向数据流驱动与异步加载渲染，系统资源全力供给 AIO 消息列表，最终性能指标提升明显，AIO 内查看、跳转、滑动消息，顺畅丝滑。

核心技术优化方案：

1）采用基于单向数据流的 MVI 架构，实现业务解耦；
2）预加载和异步渲染，实现消息无缝滑动；
3）消息加载并行化，减少首屏和滑动时的加载时间；
4）消息动态加载、释放，优化内存占用。
5）200+业务组件懒加载，实现数据分层和按需加载。

其它 QQ 主场景，如消息列表页、消息与富媒体收发、图片视频查看等，也采用相同的路径进行优化，最终性能全面提升。

11、本文小结

在手机 QQ 超过20年的发展历程中，应用功能的不断扩展和代码量的持续增长积累了巨大的技术债务，给原有的客户端架构带来了沉重的负担。最新版手机QQ通过一系列的架构演变和技术升级，成功地实现了从臃肿不堪到模块化、高效、稳定的转变。

客户端架构由各端烟囱式架构逐步升级为多端跨平台复用的 NT 架构，降低多端维护人力成本，提升 QQ 全端开发效率，为 QQ 的持续发展和技术迭代打下了坚实的基础。

展望未来，QQ 将基于 NT 架构，在技术创新的道路上继续前行，不断进行架构优化和技术升级，为用户提供更加流畅稳定的产品体验。

12、相关资料

[1] 总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化

[2] 大型IM工程重构实践：企业微信Android端的重构之路

[3] 企业微信针对百万级组织架构的客户端性能优化实践

[4] 微信团队分享：详解iOS版微信视频号直播中因帧率异常导致的功耗问题

[5] 腾讯技术分享：Android版手机QQ的缓存监控与优化实践

[6] 腾讯技术分享：Android手Q的线程死锁监控系统技术实践

[7] 全面解密新QQ桌面版的Electron内存优化实践

[8] 移动端IM实践：iOS版微信界面卡顿监测方案

[9] 微信团队原创分享：Android版微信的臃肿之困与模块化实践之路

[10] 微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

[11] 微信团队分享：微信支付代码重构带来的移动端软件架构上的思考

[12] 微信客户端团队负责人技术访谈：如何着手客户端性能监控和优化

[13] 抖音技术分享：飞鸽IM桌面端基于Rust语言进行重构的技术选型和实践总结

[14] 阿里技术分享：闲鱼IM基于Flutter的移动端跨端改造实践

[15] QQ设计团队分享：新版 QQ 8.0 语音消息改版背后的功能设计思路

posted @ 2024-05-30 10:24 Jack Jiang 阅读(75) | 评论 (0) | 编辑收藏

总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化

摘要: 本文由腾讯云开发者张曌、毕磊分享，原题“QQ 9“傻快傻快”的？！带你看看背后的技术秘密”，本文进行了排版和内容优化等。1、引言最新发布的 QQ 9 自上线以来，流畅度方面收获了众多用户好评，不少用户戏称 QQ 9 “傻快傻快”的，快到“有点不习惯了都”。作为庞大量级的IM应用，QQ 9 从哪些方面做了... 阅读全文

posted @ 2024-05-23 14:20 Jack Jiang 阅读(104) | 评论 (0) | 编辑收藏

即时通讯技术文集（第38期）：IM代码入门实践(Part2) [共15篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第38 期。

[- 1 -] 高仿Android版手机QQ首页侧滑菜单源码 [附件下载]

[链接] http://www.52im.net/thread-923-1-2.html

[摘要] 本文分享的源码高仿了手机QQ的这个效果，希望可以为有相同需求的IM开发者同行节省点撸码时间。

[- 2 -] 开源libco库：单机千万连接、支撑微信8亿用户的后台框架基石 [源码下载]

[链接] http://www.52im.net/thread-623-1-2.html

[摘要] libco在2013年的时候作为腾讯六大开源项目首次开源，ibco支持后台敏捷的同步风格编程模式，同时提供系统的高并发能力。

[- 3 -] 分享java AMR音频文件合并源码，全网最全

[链接] http://www.52im.net/thread-397-1-3.html

[摘要] 分享java AMR音频文件合并源码，全网最全。

[- 4 -]微信团队原创Android资源混淆工具：AndResGuard [有源码]

[链接] http://www.52im.net/thread-140-1-3.html

[摘要] 本文主要是讲述资源混淆组件的用法以及性能，资源混淆组件不涉及编译过程，只需输入一个apk，可得到一个实现资源混淆后的apk

[- 5 -] 一个基于MQTT通信协议的完整Android推送Demo [附件下载]

[链接] http://www.52im.net/thread-315-1-3.html

[摘要] 本文主要介绍的是基于MQTT实现一个简单的Android消息推送系统。更多推送技术资料请见：http://www.52im.net/forum.php?mod=collection&action=view&ctid=11

[- 6 -] Android版高仿微信聊天界面源码 [附件下载]

[链接] http://www.52im.net/thread-418-1-3.html

[摘要] 微信的聊天界面是挺漂亮的，每条消息都带一个气泡，给人一种很清新的感觉，其实实现起来也不是那么的难，下面我们就来实现一下。

[- 7 -] 高仿手机QQ的Android版锁屏聊天消息提醒功能 [附件下载]

[链接] http://www.52im.net/thread-1233-1-1.html

[摘要] 今天为大家带来的是，可以在锁屏下弹窗显示消息来提醒用户，可用于移动端IM或消息推送应用中。

[- 8 -] 高仿iOS版手机QQ录音及振幅动画完整实现 [源码下载]

[链接] http://www.52im.net/thread-1301-1-1.html

[摘要] 高仿iOS版手机QQ聊天界面中录音及振幅动画。

[- 9 -] Android端社交应用中的评论和回复功能实战分享[图文+源码]

[链接] http://www.52im.net/thread-1584-1-1.html

[摘要] 页面整体采用了CoordinatorLayout来实现详情页的顶部视差效。同时，这里我采用ExpandableListView来实现多级列表，然后再解决它们的嵌套滑动问题。

[- 10 -] Android端IM应用中的@人功能实现：仿微博、QQ、微信，零入侵、高可扩展[图文+源码]

[链接] http://www.52im.net/thread-2165-1-1.html

[摘要] 网上已经有一些文章分享了类似功能实现逻辑，但是几乎都是扩展EditText类，这种实现方式肯定不能进入我的首发阵容。你以为是因为它不符合面向对象六大原则？错，只因为它不够优雅！不够优雅！不够优雅！

[- 11 -] 仿微信的IM聊天时间显示格式(含iOS/Android/Web实现)[图文+源码]

[链接] http://www.52im.net/thread-2371-1-1.html

[摘要] 作为移动端IM的王者，微信无疑处处是标杆，所以本次的消息时间显示格式，直接参照微信的实现逻辑准没错（随大流虽然没个性，但不至于非主流）。

[- 12 -] Android版仿微信朋友圈图片拖拽返回效果 [源码下载]

[链接] http://www.52im.net/thread-2673-1-1.html

[摘要] 目前的app的动画效果是越来越炫了，很多主流app的图片预览返回都有类似功能，比较常见的是ios自带相册，微信朋友圈等等。自己项目中也有类似功能，最近整理了一下这个功能的代码，做个笔记记录，有兴趣的朋友可以在文末附件下载源码。

[- 13 -] 手把手教你实现网页端社交应用中的@人功能：技术原理、代码示例等

[链接] http://www.52im.net/thread-3767-1-1.html

[摘要] 本文分享的@人功能是针对Web网页前端的，跟移动端原生代码的实现，从技术原理和实际实现上，还是有很大差异，所以如果想了解移动端IM这种社交应用中的@人实现功能，可以读一下《Android端IM应用中的@人功能实现：仿微博、QQ、微信，零入侵、高可扩展[图文+源码]》这篇文章。

[- 14 -] SpringBoot集成开源IM框架MobileIMSDK，实现即时通讯IM聊天功能

[链接] http://www.52im.net/thread-3894-1-1.html

[摘要] MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持UDP 、TCP 、WebSocket 三种协议，支持iOS、Android、H5、标准Java平台，服务端基于Netty编写。

[- 15 -] 基于Netty，徒手撸IM(一)：IM系统设计篇

[链接] http://www.52im.net/thread-3963-1-1.html

[摘要] 本篇主要是徒手撸IM系列的开篇，主要讲解的是的IM设计思路，不涉及实践编码，希望给你带来帮助。

👉52im社区本周新文：《总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-05-22 13:53 Jack Jiang 阅读(84) | 评论 (0) | 编辑收藏

B站千万级长连接实时消息系统的架构设计与实践

本文由哔哩哔哩资深开发工程师黄山成分享，原题“千万长连消息系统”，本文进行了排版和内容优化等。

1、引言

在当今数字娱乐时代，弹幕已经成为直播平台上不可或缺的互动元素之一。

用户通过发送弹幕、送礼等，可以实时在直播画面上展现自己的想法、评论和互动内容，从而丰富了用户观看体验。在这个过程中，实时向终端推送互动信息，就需要用到长连接。

长连接，顾名思义，是应用存活期间和服务端一直保持的网络数据通道，能够支持全双工上下行数据传输。其和请求响应模式的短连接服务最大的差异，在于它可以提供服务端主动给用户实时推送数据的能力。

本文将介绍B站基于golang实现的千万级长连接实时消息系统的架构设计与实践，包括长连接服务的框架设计，以及针对稳定性与高吞吐做的相关优化。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4647-1-1.html）

2、关联文章

3、架构设计

3.1概述

长连接服务是多业务方共同使用一条长连接。

因为在设计时，需要考虑到不同业务方、不同业务场景对长连接服务的诉求，同时也要考虑长连接服务的边界，避免介入业务逻辑，影响后续长连接服务的迭代和发展。

长连接服务主要分为三个方面：

1）长连接建立、维护、管理；
2）下行数据推送；
3）上行数据转发（目前只有心跳，还没实际业务场景需求）。

3.2整体架构

长连接服务整体构架如上图所示，整体服务包含以下几个部分。

1）控制层：建连的前置调用，主要做接入合法性校验、身份校验和路由管控。

主要职责：

1）用户身份鉴权；
2）加密组装数据，生成合法token；
3）动态调度分配接入节点。

2）接入层：长连接核心服务，主要做卸载证书、协议对接和长连接维护。

主要职责：

1）卸载证书和协议；
2）负责和客户端建立并维护连接，管理连接id和roomid的映射关系；
3）处理上下行消息。

3）逻辑层：简化接入层，主要做长连的业务功能。

主要职责：

1）在线人数上报记录；
2）记录连接ID各属性和各节点的映射关系。
4）消息分发层：消息推送到接入层。

主要职责：

1）消息封装、压缩和聚合推送给相应的边缘节点；

5）服务层：业务服务对接层，提供下行消息推送入口。

主要职责：

1）管控业务推送权限；
2）消息检测和重组装；
3）消息按一定策略限流，保护自身系统。

3.3核心流程

长连接主要是3个核心流程：

1）建立连接：由客户端发起，先通过控制层，获取该设备合法的token和接入点配置；
2）维持连接：主要是客户端定时发起心跳，来保证长连接活跃；
3）下行推送：下行推送由业务Server发起，经由服务层根据相关标识确定连接标识和接入节点，经过消息分发层，把推送到对应的接入层，写入到指定连接上，然后下发到客户端。

3.4功能列表

结合B站业务场景，下行数据推送，提供如下通用功能：

1）用户级消息：指定推送给某些用户（比如给某个主播发送邀请pk消息）；
2）设备级消息：制定推送给某些设备（比如针对未登陆的设备，推送客户端日志上报指令）；
3）房间级消息：给某房间内的连接推送消息（比如给直播间的所有在线用户推送弹幕消息）；
4）分区消息：给某分区的房间推送消息（比如给某个分区下，所有开播的房间，推送某个营收活动）；
5）全区消息：给全平台用户推送消息（比如给全部在线用户推送活动通知）。

4、高吞吐技术设计

随着业务发展壮大，在线用户越来越多，长连系统的压力越来越大，尤其是热门赛事直播，比如s赛期间，全平台在线人数快达到千万，消息吞吐量有上亿，长连系统消息分发平均延迟耗时在1s左右，消息到达率达到99%，下面具体分析下长连做了哪些措施。

4.1网络协议

选择合适的网络协议对于长连接系统的性能至关重要：

1）TCP协议：可以提供可靠的连接和数据传输，适用于对数据可靠性要求较高的场景；
2）UDP协议：是一个不可靠的协议，但是传输效率高，适用于对数据可靠性要求不高的场景；
3）WebSocket协议：也是实现双向通信而不增加太多的开销，更多的用于web端。

接入层拆分成协议模块和连接模块：

1）协议模块：和具体的通讯层协议交互，封装不同通讯协议的接口和逻辑差异。
2）连接模块：维护长连接业务连接状态，支持请求上行、下行等业务逻辑，维护连接各属性，以及和房间id的绑定关系。

针对以上第 1）点，协议模块同时给连接模块提供统一的数据接口，包括连接建立、数据读取、写入等。后续增加新协议，只要在协议模块做适配，不影响其他模块的长连业务逻辑。

优势在于：

1）业务逻辑和通讯协议做了隔离，方便迭代增加通讯协议，简化兼容多通讯协议的实现难度；
2）控制层可以根据客户端的实际情况，下发更优的通讯协议。

4.2负载均衡

采用负载均衡技术可以将请求分发到不同的服务器节点上处理，避免了单一节点的负载过高，提高了系统的扩展性和稳定性。

长连增加控制层，做负载均衡。控制层提供http短连接口，基于客户端和各边缘节点实际情况，根据就近原则，动态选择合适的接入节点。

接入层支持水平扩展，控制层可以实时增加、减少分配节点。在S赛期间，在线人数快到达千万时，平衡调度各接入节点，保障了各节点的CPU和内存都在稳定的范围内。

4.3消息队列

消息推送链路是：业务发送推送，经过服务层推到边缘节点，然后下发给客户端。

服务层实时分发到各边缘节点，如果是房间类型消息，需要推到多个边缘节点，服务层同时还要处理业务逻辑，很影响消息的吞吐量。

所以增加消息队列和消息分发层，消息分发层维护各边缘节点信息和推送消息，提高了系统的并发处理能力和稳定性，避免了因消息推送阻塞而导致的性能问题。

4.4消息聚合

当有热门赛事时，同时在线可能达到千万级别，一条弹幕消息就要扩散到千万个终端，假如在线的每个人每秒发一条，需要发送消息量就是1kw*1kw，消息量非常大，此时消息分发层和接入层，压力都会很大。

分析发现：这些消息都是同一个房间的，属于热点房间，比如s赛房间，观众数量是无法减少的，那只能在消息数上做文章。业务消息推送不能减少，又要减少扩散的消息数，就想到了消息聚合。

针对房间消息，按照一定的规则进行消息聚合，批量推送：

消息聚合上线后，消息分发层对接入层调用QPS下降60%左右，极大的降低了接入层和消息分发层的压力。

4.5压缩算法

消息聚合后，降低了消息的数量，但是增加了消息体的大小，影响了写入IO，需要减少消息体大小，就想到了消息压缩。

压缩算法，选了市面上比较常用的两个：zlib和brotli，进行比较。

抓取了线上业务推送的数据，选择最高等级的压缩等级，进过压缩验证：

由此可见，brotli相比zlib有很大的优势，最后选择了brotli压缩算法。

选择在消息分发层进行消息压缩，避免在各接入节点多次重复压缩，浪费性能。上线后提升吞吐量的同时，也降低的宽带使用成本。

5、服务保障技术设计

现在有些业务是强依赖长连推送消息，消息丢失，轻则影响用户体验，重则阻塞业务后续流程，进而影响业务流水。针对长连服务消息保障，做了如下工作。

5.1多活部署

多活部署，通过在不同地理位置部署相同的系统架构和服务，实现了系统在单一地域故障时的快速故障转移，从而提高了系统的稳定性和可用性。

长连服务部署，主要做了以下几点：

1）长连接在国内华东、华南、华北地域均部署了接入点，支持三大运营商；华南和华中自建机房也部署了接入点；为支持海外用户，增加了新加坡机房独立接入点；
2）针对业务场景不同，在云上节点和自建节点之间，实时切换，因为云上节点和自建机房的成本是不一样的，在保证服务质量的前提下，尽可能的控制成本。

目前线上运行过程中，偶尔会遇到单节点或机房的网络抖动，通过控制层，对有问题的节点，进行秒级摘流，大大减少了对业务的影响。

5.2高低消息通道

多业务消息接入长连接，但不同消息之间的重要性是不一样的，比如弹幕消息和邀请pk消息，丢失几条弹幕对用户体验不会影响很大，但如果邀请pk消息丢失，则会导致pk业务无法进行后续的流程。

针对不同等级的消息，采用了高低优消息通道。重要消息走高优通道，普通消息走低优通道。这样重要和普通消息进行了物理隔离，消息分发优先保证重要消息。

针对高优通道，做了双投递的保障，在接入层做幂等去重。首先重要消息是针对用户级别的，量不会很大，所以对接入层的压力不会增加很大。另外双投递的job是部署在多机房的，这也就降低单机房网络抖动造成的影响。

高低优通道上线后，遇到过内网出网抖动，当时内网部属的job节点推送消息异常，而云上高优job节点可正常推送，很好的保障了高优消息的到达，进而保障了高优业务不受影响。

5.3高达功能

高低优通道解决的是job到接入层的这一个环节，但消息推送联路涉及到多个环节，比如服务层到job、接入层到客户端。

针对整个链路，通过实现必达机制来确保终端的到达率，简称高达功能。

功能实现：

1）每条消息引入msgID，客户端收到消息后进行幂等去重和ack回执；
2）服务端针对msgid进行ack检测，针对未ack的，有效期内再次重试下发。

最终到达率 = (1-(1-r)^(n+1))，其中：r为广播单次到达率，n为最大重试次数。

例如：r = 97%、n=2，那么最终到达率可以达到(1-(1-0.97)^(2+1)) = 99.9973%

6、进出”房“消息的送达保证设计

有些业务场景，需要用到用户进出房消息，比如用户A进入直播间，页面会显示欢迎用户A进入房间，或者是加入在线榜单。

1）进房消息会存在丢失，需要有补偿机制。想到可以通过连接心跳来补偿进房消息，但心跳是持续不断的，连接在线期间，业务希望只收到一次进房消息，所以进房消息需要有幂等机制。

2）出房消息也会存在丢失，如果丢失了，业务无法从在线榜单剔除用户，此时也需要有补偿机制。此时就需要增加连接的状态机，通过心跳维护状态机，当心跳丢失时，认为连接断开，用户退房。

7、未来规划

统一长连接服务经历数次迭代后，目前基本功能已经趋于稳定，后续对长连接服务进行改善和优化。

主要集中在以下几个方向：

1）数据化：进一步完善长连接全链路网络质量数据统计和高价值消息全链路追踪的能力；
2）智能化：端上建联、接入点选择等能够根据实际环境进行自动化调整；
3）性能优化：接入层的连接模块中，处理上下行消息的携程进行共享，减少接入层的携程数，进一步提升单机性能和连接数；
4）功能扩展：新增离线消息功能等。

8、参考资料

[1] 手把手教你写基于TCP的Socket长连接

[2] 正确理解IM长连接、心跳及重连机制，并动手实现

[3] 万字长文：手把手教你实现一套高效的IM长连接自适应心跳保活机制

[4] 用JWT技术解决IM系统Socket长连接的身份认证痛点

[5] TCP/IP详解 - 第11章·UDP：用户数据报协议

[6] TCP/IP详解 - 第17章·TCP：传输控制协议

[7] WebSocket从入门到精通，半小时就够！

[8] 快速理解TCP协议一篇就够

[9] 快速理解TCP和UDP的差异

[10] 一泡尿的时间，快速搞懂TCP和UDP的区别

[11] 到底什么是Socket？一文即懂！

[12] 我们在读写Socket时，究竟在读写什么？

[13] 假如你来设计TCP协议，会怎么做？

[14] 深入操作系统，一文搞懂Socket到底是什么

[15] 通俗易懂，高性能服务器到底是如何实现的

[16] 12306抢票带来的启示：看我如何用Go实现百万QPS的秒杀系统(含源码)

（本文已同步发布于：http://www.52im.net/thread-4647-1-1.html）

posted @ 2024-05-16 11:44 Jack Jiang 阅读(98) | 评论 (0) | 编辑收藏

开源即时通讯IM框架 MobileIMSDK v6.5 发布

一、更新内容简介

本次更新为次要版本更新，进行了bug修复和优化升级（更新历史详见：码云 Release Notes、Github Release Notes）。

MobileIMSDK 可能是市面上唯一同时支持 UDP+TCP+WebSocket 三种协议的同类开源IM框架。轻量级、高度提炼，历经10年、久经考验。客户端支持iOS、Android、Java、H5、微信小程序、Uniapp，服务端基于Netty。

二、MobileIMSDK简介

MobileIMSDK 是一套专为移动端开发的原创IM通信层框架：

历经10年、久经考验；
超轻量级、高度提炼，lib包50KB以内；
精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
客户端支持 iOS、Android、标准Java、H5、小程序、Uniapp；
服务端基于Netty，性能卓越、易于扩展；
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

MobileIMSDK工程始于2013年10月，历经10年，起初用作某产品的即时通讯底层实现，完全从零开发，技术自主可控！

您可能需要：查看关于MobileIMSDK的详细介绍。

三、源码托管同步更新

OsChina.net

源码托管： http://git.oschina.net/jackjiang/MobileIMSDK
项目资料：点击查看更多资料

GitHub.com

源码托管： https://github.com/JackJiang2011/MobileIMSDK
项目资料：点击查看更多资料

四、MobileIMSDK设计目标

让开发者专注于应用逻辑的开发，底层复杂的即时通讯算法交由SDK开发人员，从而解偶即时通讯应用开发的复杂性。

五、MobileIMSDK框架组成

整套MobileIMSDK框架由以下7部分组成：

Android客户端SDK：用于Android版即时通讯客户端，支持Android 4.0及以上，查看API文档；
iOS客户端SDK：用于开发iOS版即时通讯客户端，支持iOS 12.0及以上，查看API文档；
Java客户端SDK：用于开发跨平台的PC端即时通讯客户端，支持Java 16及以上，查看API文档；
H5客户端SDK：查看精编注释版；
微信小程序端SDK：查看精编注释版；
Uniapp端SDK：查看精编注释版；
服务端SDK：用于开发即时通讯服务端，支持Java 1.7及以上版本，查看API文档。

整套MobileIMSDK框架的架构组成：

另外：MobileIMSDK可与姊妹工程 MobileIMSDK-Web 无缝互通，从而实现Web网页端聊天或推送等。

六、MobileIMSDK v6.5更新内容

【重要说明】：

MobileIMSDK v6.5 为次要版本，进行了若干优化！查看详情（github）

【新增重要特性】：

1. [Android端] 新增了Demo中当APP处于后台时，收到消息时显示系统通知的功能。

【解决的Bug】：

1. [服务端] 尝试解决极小几率下Android端会误把“自已”踢掉的问题。

【其它优化和提升】：

1. [服务端] 升级了log4j2等基础库，解决基础库低版中带来的安全漏洞风险；
2. [服务端] 服务端SDK和Demo工程已迁移至IDEA；
3. [Java端] Java桌面端的TCP和UDP两种协议的SDK和Demo工程已迁移至IDEA；
4. [Android端] 提升targetSdkVersion至34（即Android 14）；
5. [Android端] 解决了Demo中绑定前台服务在Android 14中崩溃等问题。
6. [iOS端] 提升最低系统支持版本为iOS 12；
7. [iOS端] 优化了JSON解析库中的一处过时API调用。

【最新版本源码地址】：

Gitee：https://gitee.com/jackjiang/MobileIMSDK/releases/tag/6.5
Github：https://github.com/JackJiang2011/MobileIMSDK/releases/tag/6.5

七、Demo运行演示

八、技术应用示例

8.1 示例1：基于MobileIMSDK的移动端IM RainbowChat（更多运行截图）：

8.2 示例2：基于MobileIMSDK-Web的Web端IM RainbowChat-Web（更多运行截图）：

posted @ 2024-05-09 11:34 Jack Jiang 阅读(90) | 评论 (0) | 编辑收藏

即时通讯技术文集（第37期）：IM代码入门实践(Part1) [共16篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第37 期。

[- 1 -] 一种Android端IM智能心跳算法的设计与实现探讨（含样例代码）

[链接] http://www.52im.net/thread-783-1-1.html

[摘要] 本文将与大家一起探讨一种更加简单易行和实用的心跳算法，不一定适合所有人，但希望能需要的同行带来一些启发。

[- 2 -] 详解Netty的安全性：原理介绍、代码演示（上篇）

[链接] http://www.52im.net/thread-426-1-1.html

[摘要] 作为一个高性能的NIO通信框架，基于Netty的行业应用非常广泛，不同的行业、不同的应用场景，面临的安全挑战也不同，下面我们根据Netty的典型应用场景，分析下Netty面临的安全挑战。

[- 3 -] 详解Netty的安全性：原理介绍、代码演示（下篇）

[链接] http://www.52im.net/thread-427-1-1.html

[摘要] 接上篇《详解Netty的安全性：原理介绍、代码演示（上篇）》。

[- 4 -] Java NIO基础视频教程、MINA视频教程、Netty快速入门视频 [有源码]

[链接] http://www.52im.net/thread-1244-1-1.html

[摘要] 本次分享的是自己收藏的Java nio、mima、netty的视频教程，现分享给各位，希望对大家有帮助。

[- 5 -] 轻量级即时通讯框架MobileIMSDK的源码

[链接]http://git.oschina.net/jackjiang/MobileIMSDK

https://github.com/JackJiang2011/MobileIMSDK

[摘要] 如Github下载慢，请往：https://gitee.com/jackjiang/MobileIMSDK，代码完全同步，请放心下载

[- 6 -] 开源IM工程“蘑菇街TeamTalk”2015年5月前未删减版完整代码 [附件下载]

[链接] http://www.52im.net/thread-777-1-1.html

[摘要] 本次分享的源码来自即时通讯群群友的个人分享，因可能涉及网易泡泡源码版权纠纷，请开发者保证仅用于个人学习和研究之用，切勿用于商业用途。

[- 7 -] NIO框架入门(四)：Android与MINA2、Netty4的跨平台UDP双向通信实战 [附件下载]

[链接] http://www.52im.net/thread-388-1-1.html

[摘要] 本文中，服务端将分别用MINA2和Netty4进行实现，但在你实际的项目中服务端实现只需选其一就行了。

[- 8 -] NIO框架入门(三)：iOS与MINA2、Netty4的跨平台UDP双向通信实战 [附件下载]

[链接] http://www.52im.net/thread-378-1-1.html

[摘要] 本文将演示一个iOS客户端程序，通过UDP协议与两个典型的NIO框架服务端，实现跨平台双向通信的完整Demo。

[- 9 -] NIO框架入门(二)：服务端基于MINA2的UDP双向通信Demo演示 [附件下载]

[链接] http://www.52im.net/thread-373-1-2.html

[摘要] 本文将演示的是一个基于MINA2的UDP服务端和一个标准UDP客户端（Java实现）双向通信的完整例子。

[- 10 -] NIO框架入门(一)：服务端基于Netty4的UDP双向通信Demo演示 [附件下载]

[链接] http://www.52im.net/thread-367-1-2.html

[摘要] 本文将演示的是一个基于Netty4的UDP服务端和一个标准UDP客户端（Java实现）双向通信的完整例子。

[- 11 -] 用于IM中图片压缩的Android工具类源码，效果可媲美微信 [附件下载]

[链接] http://www.52im.net/thread-701-1-2.html

[摘要] 本文要分享的工具类源码来自IM产品 RainbowChat，压缩效果可媲美微信，详情请参见源码。

[- 12 -] 高仿Android版手机QQ可拖拽未读数小气泡源码 [附件下载]

[链接] http://www.52im.net/thread-922-1-2.html

[摘要] 本文分享的源码高仿了手机QQ的这个效果，希望可以为有相同需求的IM开发者同行节省点撸码时间。

[- 13 -] 一个WebSocket实时聊天室Demo：基于node.js+socket.io [附件下载]

[链接] http://www.52im.net/thread-516-1-2.html

[摘要] 本文将基于HTML5规范中的WebSocket技术，使用Node.js和Socket.io（关于Socket.io介绍，请参见《Socket.IO介绍：支持WebSocket、用于WEB端的即时通讯的框架》）来实现一个可用于Web端的简易实时聊天室，源码可从文末附件中下载到。

[- 14 -] Android聊天界面源码：实现了聊天气泡、表情图标(可翻页) [附件下载]

[链接] http://www.52im.net/thread-409-1-2.html

[摘要] Android聊天界面源码：实现了聊天气泡、表情图标。

👉52im社区本周新文：《即时通讯安全篇（十四）：网络端口的安全防护技术实践》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-05-08 12:24 Jack Jiang 阅读(96) | 评论 (0) | 编辑收藏

即时通讯安全篇（十四）：网络端口的安全防护技术实践

摘要: 本文由vivo互联网技术Peng Qiankun分享，原题“vivo 网络端口安全建设技术实践”，本文进行了排版和内容优化等。1、引言随着互联网业务的快速发展，网络攻击的频率和威胁性也在不断增加，端口是互联网络通信中的门户，它是数据进出的必经之路，因此端口安全也逐渐成为了企业内网的重要防线之一。然而网络端口因其数量庞大、端口开放和关闭的影响评估难度大，业务影响程度高、以及异... 阅读全文

posted @ 2024-05-06 12:35 Jack Jiang 阅读(82) | 评论 (0) | 编辑收藏

长连接网关技术专题(十一)：揭秘腾讯公网TGW网关系统的技术架构演进

本文由腾讯技术团队peter分享，原题“腾讯网关TGW架构演进之路”，下文进行了排版和内容优化等。

1、引言

TGW全称Tencent Gateway，是一套实现多网统一接入，支持自动负载均衡的系统，是公司有10+年历史的网关，因此TGW也被称为公司公网的桥头堡。

本文从腾讯公网TGW网关系统的应用场景、背景需求讲起，重点解析了从山海1.0架构到山海2.0架构需要解决的问题和架构规划与设计实现，以及对于未来TGW山海网关的发展和演进方向。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4641-1-1.html）

2、专题目录

本文是专题系列文章的第11篇，总目录如下：

3、TGW网关系统的重要性

TGW全称Tencent Gateway，是一套实现多网统一接入、支持自动负载均衡的系统，是公司有10+年历史的网关，因此TGW也被称为公司公网的桥头堡。它对外连接了各大运营商并支撑公有云上EIP、CLB等产品功能，对内提供了公网网络的接入功能，如为游戏、微信等业务提供公网接入服务。

TGW主要有两大产品：

1）弹性EIP（比如购买一台虚拟机CVM或是一个NAT实例后，通过EIP连通外网）；
2）四层CLB。

四层CLB一般分为内网CLB和外网CLB：

1）内网CLB是在vpc内创建一个CLB实例，把多个CVM服务挂在了内网CLB上，为后端RS提供负载均衡的能力；
2）外网CLB面对的是公网侧负载均衡的需求。

当在内部部署CLB集群时，可分为IPV4或者IPV6两大类，根据物理网络类型又细分为BGP和三网两类。三网指这些IP地址是静态的，不像BGP一样能够在多个运营商之间同时进行广播。

以上就是四层TGW产品及功能，山海网关在原有产品基础上做了网络架构方面的演进。

4、Region EIP的引入

具体介绍下EIP和CLB两个产品。

过去CLB和EIP使用不同的IP地址池，导致资源池上的隔离问题。使得我们无法把EIP地址绑定到公有云CLB实例上。

例如：一个创业公司最初只购买一台虚拟机并挂载一个公网EIP来提供服务。随着用户量的增长，如果想将这个EIP地址迁移到一个公网CLB实例上，在原有架构下是无法实现这种迁移的。

此外：EIP和CLB部署在每个机房，因此在每个机房都需要建立EIP出口。但是各个机房的公网出口之间缺无法相互容灾。

所以这种情形下，我们确定了产品的目标：

1）希望将所有公网出口整合到一到两个机房之内，以避免重复建设，节省成本；
2）通过将出口集中，我们可以将对应的网关服务器也进行集中，进而提高设备的利用率；
3）通过这样的布局可实现跨机房的容灾方案。

因此：最早的Region EIP（REIP）计划应运而生。

以北京这类大型region为例的：我们将EIP专区建设到位于两个城市的超核机房。这两个机房通常会放置物理网络的交换设备，并为各自设立了一个REIP专区。在REIP专区内部署Region EIP集群。为了实现跨AZ容灾，两个机房的集群之间借助大小网段实现互相备份容灾的能力。一旦其中一个机房的集群发生故障或出现网络问题，另一个机房的集群可以立即承担起容灾任务。

同时：因为新的Region EIP的网络架构跟原来的网络架构不一样，通过网络架构升级以及机型升级，我们能够把单台Region EIP的性能做到原有单台EIP性能的5倍。这样我们通过容量的提升进一步提升了设备利用率，在完成全量Region EIP后，设备数量会从3000+台缩减至700+台。同时原有的CLB集群还保留在各个机房不变，这些CLB集群的外网接入能力由Region EIP承担。

5、公网CLB的演进

5.1概述

公网CLB最早是有公网接入能力的。引入到Region EIP之后，当初设想是公网CLB不再演进，尽量让存量用户迁移到另外一种形式，上层是Region EIP，下层是内网CLB。用户先买一个内网CLB，如果需要对公网提供服务就再买一个弹性EIP，把EIP跟内网CLB绑定在一起，提供CLB公网的能力，替代原有的公网CLB，这是最早公网CLB的替代方案。

两个方案的区别是：原有公网CLB，用户仅看到一个CLB实例。新的模式下，用户看到的是两个实例：一个EIP+一个内网CLB，两个实例都可以独立运营管理。这就是我们最早的两层架构设想，想把公网CLB跟外网解耦。

但是，真正去跟用户或产品交流时，这个想法遇到了比较大的挑战：

1）用户体验的改变：以前公网CLB用户看到是一个实例，但是现在用户看到两个实例，必然会给用户带来一些适配工作。比如用户进行创建、管理实例时，API不一样了。以前使用通过自动化脚本创建公网CLB实例的，现在脚本还要改变去适配新的API。

2）用户习惯改变：以前用户习惯在一个实例下，点击页面，就能够查看流量、链接数等监控信息。现在EIP流量需要到REIP查看，而链接数还需在CLB产品上看。

3）存量客户无法迁移：原来客户买的公网CLB实例，是无法直接无感知迁移到内网CLB+REIP这种新形式的。

在这些挑战下，这个替代方案没能真正落地。结合用户的要求，我们最终跟产品定下的策略是：公网CLB保持不变。原有的公网CLB继续保留，同时如果用户新增的公网CLB需求，也要继续支持。

5.2公网CLB模型

那么，公网CLB到底怎么演变？

我们的初衷并不是把公网CLB这个产品摒弃掉，而是要收敛公网入口。所以我们针对这个初始需求，提出了上面这个两级架构模型。

首先：用REIP将公网流量先引进来，再将这个流量通过隧道报文的形式转发给原有的公网CLB集群，这样公网CLB不需要原有外网接入的能力，不需要再跟外网打交道，可以演变成只在机房内部的集群；同时因为公网CLB的流量都会经过REIP，REIP自然也就是公网CLB的流量入口。从而达到我们最初收敛公网入口的目的。这样的架构升级，可实现用户无感知。架构升级切换过程中，用户在访问公网CLB，不会出现卡顿或者重连的现象。

这个架构模型也有一定的局限性的。公网CLB实例只能承载公网的流量，无法像上文提到的两层RERP+CLB那样，内外网随时进行转化。REIP+CLB实例中的CLB既承载内网侧CLB的流量，又承载公网侧CLB的流量。

6、山海架构 1.0

借助这个两级架构模型，我们能够把公网CLB保留下来，并且通过REIP把公网入口收敛。

进一步思考并完善，我们提出了下面的想法：跟产品进行解耦。

以前我们一个地区上线公网CLB产品，底层就要搭建有一个公网CLB的集群去支持。用户需要内网CLB服务，就要对应搭建个内网CLB的集群。底层集群类型跟产品是强耦合，有IPv4/IPv6，公网/内网、BGP/三网组合出的多个产品形态。

这种模式在小地域部署，因为产品业务的流量小，集群利用率低，就会造成很大的成本压力。

为了应对这种小带宽低成本的诉求，我们将CLB+REIP的模型进一步抽象，引入山海架构：我们只建设CLB和REIP两类集群。通过这两类集群上的不同实例组合，满足多个产品形态的要求。从而实现产品形态和底层物理网络集群类型解耦。

解耦合的方式是：CLB和REIP通过不同的实例类型，组合出不同的产品形态。

山海架构在TGW内部做闭环，不涉及到产品侧和用户侧的改动。整个过程升级，对产品侧不做任何接口上的更新。因为产品侧的API接口保持不变，对用户侧就可以做到完全无感知。在产品侧保持不变，就需要我们在内部管控，识别接入用户实例是哪种形态的产品，拆分成不同形式的CLB和REIP的实例。其他的相关功能的比如流量统计、限速等模块也都要适配不同的产品形态，通过模块的适配，做到山海架构对上层产品侧应用的透明。

山海架构1.0归纳起来有两个重点：收敛公网入口和集群类型归一。

1）REIP：部署在城核机房，同时承载的是CLB和REIP两类产品的公网流量。之前EIP，在物理网络上有BGP+三网、v4/v6等多种集群类型。REIP借助vlan的隔离支持，把所有的网络类型都集中到一种REIP集群上来，我们称之为全通集群。在物理网络层面实现网络类型的归一，然后再通过软件层的适配，实现REIP支持多通类型的网络接入能力。

2）CLB：在山海两级架构下，REIP集群处理公网侧的各种场景组合，CLB集群通过隧道与REIP处理公网流量。之前一个机房如果要把所有的产品能力支持起来，大概有7种集群类型。现在CLB集群可以用一种集群类型来支持所有的产品的公网CLB产品，以及内网CLB产品的能力。我们把三网+BGP以及内外网还有V4V6等集群类型都用一种类型来支持，山海架构完全落地后，开区的最小服务器数量可以降低到8台服务器，来承载所有的EIP和CLB产品需求。

归纳起来一句话：对于用户来说，产品形态没有改变，用户使用习惯也没有改变。而在底层，我们把集群类型收敛到一个CLB集群和一个REIP集群上。

7、山海架构1.0限速技术

在山海架构演进中，有许多技术点，本文选取限速技术进行分享。

首先Region EIP支持三网。以前BGP跟三网分开独立支持，山海网关统一用Region EIP支持。Region EIP本身的网络架构分成两个机房，每个机房放4台TGW设备，每个EIP只会走左边或者右边。一个EIP进来的流量经过上面这层交换机时，经过了ECMP分流，然后分到了4台设备上。这样对每个EIP其实是采用了分布式限速。

限速有两个要求：

1）精确性，限速上下浮动要小，要限得准；
2）要有容灾能力。

限速最极端的精准就是把它放到单点上去做限速，但是单点限速就会面临单点故障和容灾的问题。在X86服务器上，使用的是分布式限速，一个EIP均分到4台服务器上，每五秒钟做一次流量的的汇总统计，通过流量比例计算将这个EIP的带宽配额，重新分配并分发到4台设备上，以此来实现集群上的限速。在单台设备上，也是没隔一段时间，就重新计算配额并分配到每个CPU核上，我们目前用的是300毫秒周期。

需要说明的是：在限速的实现上，业务有多重实现方式，我们了解到有的实现的是静态分配，比如120兆的带宽，4台设备，我们每台设备分40M(三分之一)的带宽。1/3而不是1/4的带宽，目的是防止某一台设备断了之后，用户总带宽不达标，影响用户体验。在单台设备上限速，也有另外一种实现方式，大小桶。比如限速1M的带宽，那么每个核第一次取回100K或者200K配额。后续报文处理时候，先消耗上次取回的配额，如果带宽配额消耗光了，再重新取。周期调整跟大小桶这两种实现方式各有优缺点。从资源消耗来说，300毫秒周期的资源消耗相对会更少一些，两者大概有10%左右的性能偏差。

限速上另一诉求：小带宽的限速的精准限速。

大带宽比如100兆，分到每个核上相对富裕。小带宽如一M带宽，一秒钟100k字节等，分到四台机器再分到几十个核上，每个核都可能不到一个大报，这时候再去做精准限速就会非常困难，因为既然要提前分配资源，资源那么少，分配到单核上，可能一个包都过不去，但凡有一个报文过去了，又可能超了。所以在小带宽限速时，我们把它退化成类似于单点限速的模式。由于入方向带宽最小也是100兆，因此保持原有的分布式限速不变。只对出方向小带宽，使用单点限速。方案是这样的：

每台REIP有自己一个独享的内网地址，只有这台服务器故障时候，这个地址的流量才被分发到其他三台服务器。

入方向流量被分到四台REIP服务器后，REIP处理完通过tunnel转发给母机。隧道的外层源地址，只使用其中一台REIP服务器的独享的IP地址。每个外网IP地址在挂载到集群下管理时候，就确定下来了。

母机在接受到网关发过去的流量，解析外层报文地址，并记录在本地会话表里，我们称之为母机的自学习能力。当母机侧转发出方向报文时，就只会使用本地学习并记录的外层地址去封装隧道。这样出方向的流量，就回到单台TGW设备上，实现了单点限速。

独享的内网地址本身是有容灾能力：

1）当其服务器故障了，流量就被分散到集群其他服务器，放弃单点限速；
2）当服务器被修复上线后，又可以重新变成精准的单点限速。

这样保证小带宽精准限速的同时，又避免了单点故障。

在限速过程中，还有一个问题，因为CLB集群原来的限速是在CLB集群上自己做的，引入山海之后，REIP上有限速能力，那么公网CLB的限速要不要挪到REIP上？

我们经过多次讨论，最终还是维持**这个限速在公网CLB上不变。

这里有几种场景考量：

1）内外网攻击：如果我们把它放到REIP上，这里可以扛住外网的攻击，但同时内网的攻击我们是防不住的，因为公网CLB上没有限速后，流量内网的攻击就会先把CLB上压过载，导致丢包，影响业务的稳定性。

2）有效流量的准确统计：原有架构下，从公网流量首先到达CLB，我们需要检查公网CLB上与port对应的服务是否已配置规则并启用。如果没有启用，则将报文直接丢弃且不记录为公网CLB的带宽使用量。山海架构下，如果先经过Region EIP限速，这类无服务访问流量（如恶意攻击和垃圾流量）也将占用限速资源。尽管这部分限速流量会送达至CLB集群，但由于缺乏相应服务支持，它们最终还是将被丢弃。结果导致用户带宽不及预期。比如用户购买10M带宽，实际有效运行的仅有8M流量，而其余2M被无服务流量占用了。

3）多重限速的影响：还有一个这个场景中，当Region EIP实施带宽限速后，这些流量最终可能进入公网CLB。然而，由于CLB的规格限制，例如新建连接数或并发连接数已达到上限，部分数据包可能会被丢弃。这些丢失的数据包已经消耗了购买的公网带宽，从而导致用户观察到的公网CLB流量带宽未达到预期。因此，我们保留公网CLB限速功能不变，仅进行引流调整。

8、山海架构1.0的优势

CLB产品及REIP产品，在使用山海1.0之后的几点优势。

1）CLB产品本身支持热迁移，扩容到山海热迁移，不会引起用户的断流，有助于运维做用户产品升级迭代。这方面有个典型案例，比如某台设备坏了或者发现某台设备上有问题，需要把流量迁走的时候，我们可以不用中断用户的流量的。我们了解到，以前有的竞品，因为热迁移做的不是特别完善，在设备出现问题或者是需要升级版本的时候，常选择低峰期做升级。

2）EIP在做限速的时候，在出方向时是小带宽，可以做到比较精准的限速。好处是用户做压测或测试的时，带宽不会抖动影响自己的业务的稳定性。

3）高低优先级限速。用户买一些比较小的比如10M带宽或者5M带宽，用来服务本身业务，同时也会ssh或者远程桌面登录EIP；因为一起我们是做无差别的限速丢包的话，这样会造成它本身的控制流量，如远程桌面的流量也会被丢包，造成登录的卡顿。用户需要在不超限速的前提下，优先保证远程桌面不卡，然后再提供其他的下载服务。我们把流量根据端口进行区分，比如22端口或者是远程桌面的3389端口的流量，标记为高优先级。在做限速时，只要高优先流量不超限速，就全部放行。当高优先级流量再叠加上低优先级的流量超限速时，把低优先级的流量丢掉，这样ssh访问服务器的时候能够非常顺畅。

4）山海架构上线后，基于vip粒度的调度，可以让调度更加灵活。比如原来一个集群为了节省路由条目，我们按照一个网段发路由，不是每个VIP都发路由的。山海两级架构之后，没有了这个限制，就可以按照VIP，把CLB实例调度到不同CLB集群。这样如果用户需要一个特别大规格的VIP的时候，我们可用一个集群的能力去扛用户一个VIP，从而满足超大规格实例的诉求。当然真实使用产品时，很少有客户把上百G的流量用一个VIP来承载。用户出于容灾考虑，通常不会把所有的鸡蛋放到一个篮子里。

9、山海架构 2.0

9.1概述

如前所述：山海 1.0 主要目标是整合公共网络并将所有公网出口集中在城市核心机房内。至于剩余的 CLB 群集，我们会继续将其保存在原有各机房的专区里。这是因为网关设备有其与服务器不同的网络诉求，例如普通服务器不能提供发布动态路由，并通过动态路由引流处理业务流量。

再比如：网关专区的收敛比1:1，而服务器虽然带宽也是100G，但其收敛比率往往小于1：1。

在这种情况下，我们不能简单地将 CLB 网关群集群平移放置到服务器区。因此，CLB 网关群集通常在构建每个机房时，预先规划并预留相应的网关专区。机房建设起来后，如业务量小，又会因预留资源空置造成浪费。目前专区闲置机位也是一笔较大的费用。

同时，还有一种临时扩容的需求场景，例如VIP大客户，临时会有大流量的转发需求，这时常态运营水位没法满足需要，需要调配设备做集群扩容。如果本机房的设备不够还需要跨机房搬迁，搬迁周期比较长，对我们运营压力会很大。

所以，我们希望通过山海2.0能把专区建设的空置率降下来，同时提升弹性，能够低成本的快速扩缩容。

9.2引流交换机

在山海 2.0里，我们采用了“引流交换机”。在每个机房的建设时，我们可以放置两组共四台引流交换机。

考虑到单个交换机的容量可以达到 1 T 以上，有四台交换机工作，一个机房能够承受大约 4T~ 6T 的流量峰值。这意味着后续无需再额外扩容，一次性的建设和布局就可以满足长期的需求。相比于 CLB 群集占用的机位空间，四台交换机所需的机位显著减少。

我们把原来CLB集群对外声明路由的能力放到了引流交换机上，把CLB服务器用用通用服务器区的设备来代替。考虑收敛比和容灾，不会把一个集群放到一两个机架上，会相对分散些，更不会把整个机架全部再用成CLB集群。这样CLB集群不再单独建设网关专区，引流交换机把路由声明发出去，通过隧道跟CLB设备转发流量。

9.3山海2.0的变化

我们以内网CLB为例，原来一台虚拟机访问CLB集群，CLB集群把它的流量转到对应的RS。

引入交换机之后，其进出两个方向都会有变化：入方向（访问LB方向），虚拟机的流量先被引流到了引流交换机，交换机把报文做一次封装，然后发送给对应的服务器，进行负载均衡转换。最后处理后的结果，被转发给真正的RS。原来的两跳访问变成了现在的三跳。同样反方向流量返回时，RS的流量先回到引流交换机，然后被分发到对应的LD设备上。LD处理完之后，再把报文直接转到client虚拟机上。借助引流交换机的中转，我们就能够让负载均衡的专区设备的放到普通的服务器区里。

另外：这里的CLB服务器，可以跟其他的网关包括母机复用一些相同机型的服务器，当需要扩容时，就可以使用通用服务器。而不像以前CLB既有自己独立的机型，又对服务器的物理位置有要求。有了引流交换机跟LD之间是做隧道传输，LD具体的物理位置就没有像原来一样有硬性的要求。这样CLB可以通过通用服务器区域，调配服务器。

最后一项是：原有跟REIP类似的，CLB设备做路由通告时，也是按照网段通告，有引流交换机之后，我们可以在引流交换机上去做细粒度的调度，一个VIP或是几个vip放到一个集群。还可以在引流交换机上做更细粒度的调度，如IP+port这样的五元组的粒度的调度。

10、未来展望

目前网关设备最重要也是最大的一个方向就是做高性能、硬件卸载。依赖硬件来实现高性能的转发。

网关设备分为有状态和无状态两种：

1）无状态设备就像IP转换一样，只要依据规则，任何时刻来了报文，转换出来的形式都是固定的；
2）有状态设备是需要记录TCP、 UDP状态，记录转发到后端设备，当不同的时间转发即使相同的类型的流量，它转发的目的地也不一样，转换的格式也可能不一样。

硬件卸载在有状态和无状态时，基本上用到的设备都是DPU和交换机，用到的介质几乎都是FPGA。

FPGA和ASIC本质上是一个东西，无论友商还是我们自己内部研发，更多的是FPGA上做功能，并小规模的灰度上线验证，一旦稳定下来，就转化成批量的ASIC，以此来降低成本。

DPU和交换机在无状态设备上，交换机相对更有优势，因为无状态设备对容量的要求相对小些，像EIP网关以及内部无状态的网关大多用交换机形态实现。DPU目前更多的用在母机侧，做有状态类的网络处理。当然，采用DPU不仅仅局限网络诉求，还有存储安全等其他需求。去年英特尔宣布已不再进行交换机tf芯片的演进迭代，大家对交换机的质疑会增大。

所以，也衍化了另一种方案：在一台额外的服务器中插入 DPU 网卡以实现卸载功能。

但不同方案有不同的优缺点：

1）使用交换机的最大优势在于其强大的交换性能（可达 1T或几个T及更高），可支持很大的接入容量。但是，交换机仅能是一个底座，若要扩展容量仍需依赖 FPGA 技术。

2） DPU 的优点则包括成熟的产业链、庞大的产量以及稳定的供应保障；此外，由于 DPU 在母机侧已被广泛验证和采用，许多功能的实现都相对固定。

这是两种方案各自的优缺点。

在两个产品运用负载均衡状态的交换上，业内不同的厂家也有不同的玩法，有的是交换机，有的是DPU。当前，无论是交换机还是 DPU，都依赖FPGA(ASIC)来做大容量的会话管理，同时越来越多的设备或多或少的支持P4。在 X86 上进行编程时，通常选择 DPDK。

相较之下：使用 P4 进行编程的门槛较低。P4 编写一般功能需求的代码非常简单快捷，只需一两周时间即可完成，甚至对于熟练者来说，可以在几个小时就开发出一个小功能。虽然充分发挥硬件的性能，P4类芯片还需要进行很深入细节的研究，但P4还是大大降低了数据面编程的门槛，特别是在高性能转发的需求方面。

另一个特点是：小型化。大家过去比较关注数据中心和海量数据的优化问题，随着业务发展，逐步转向降低运营成本和提高效率的场景，开设小型站点。这类小型站点，是典型的“麻雀虽小，五脏俱全”，希望用尽量少的设备成本来满足各种功能需求。所以我们将设备设计为具有较小规格的产品系列，并在易用性上进行改进，通过集群合并、虚拟机等承担更多的任务负载。这样在业务规模和流量不大，也能以较少的资源应对较高的功能性需求。一旦业务规模扩大，我们可将这些小型站点升级为传统的数据中心级物理设备。

以上未来网关两个主要的方向。

11、相关资料

[1] IPv6技术详解：基本概念、应用现状、技术实践（上篇）

[2] 网络编程入门从未如此简单(三)：什么是IPv6？漫画式图文，一篇即懂！

[3] 网络编程懒人入门(十五)：外行也能读懂的网络硬件设备功能原理速成

[4] 脑残式网络编程入门(六)：什么是公网IP和内网IP？NAT转换又是什么鬼？

[5] 脑残式网络编程入门(七)：面视必备，史上最通俗计算机网络分层详解

[6] 以网游服务端的网络接入层设计为例，理解实时通信的技术挑战

[7] 百度统一socket长连接组件从0到1的技术实践

[8] 淘宝移动端统一网络库的架构演进和弱网优化技术实践

[9] 百度APP移动端网络深度优化实践分享(二)：网络连接优化篇

[10] 新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践

[11] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

（本文已同步发布于：http://www.52im.net/thread-4641-1-1.html）

posted @ 2024-04-18 11:06 Jack Jiang 阅读(109) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.5版已发布

关于MobileIMSDK

MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持UDP 、TCP 、WebSocket 三种协议，支持iOS、Android、H5、小程序、Uniapp、标准Java平台，服务端基于Netty编写。

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v11.5 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容：

1）[bug] 解决了“@”提醒在客户端新消息时未持久化的问题；
2）[bug] 解决了首页“一键已读”功能不清除“@”提醒标记的问题；
3）[bug] 解决了消息转发时，“最近消息”列表中的表情内容没有被转义成表情图标的问题；
4）[bug] 解决了查看iOS端发的引用的文件消息时，无法跳转到文件下载界面的问题；
5）[bug] 解决了查看iOS端发的引用的短视频消息时，无法跳转到短视频下载界面的问题；
6）[升级] 提升targetSdkVersion至34，全面兼容Android 14；
7）[升级] 解决了绑定前台服务在Android 14中崩溃的问题；
8）[升级] 升级权限管理框架XXPermissions至18.62，全面兼容Android 14；
9）[升级] 其它基础库升级等。

（2）服务端主要更新内容：

1）[bug] 修复一处跟RainbowChat-Web产品联合部署时，Web端无法成功加载历史记录的问题；
2）[升级] 升级了包括log4j2等在内的一些基础库版本；
3）[升级] 优化了iOS离线推送时苹果手机端的桌面未读数角标显示；

部分功能运行截图（更多截图点此查看）：

posted @ 2024-04-17 11:51 Jack Jiang 阅读(131) | 评论 (0) | 编辑收藏

即时通讯技术文集（第36期）：《跟着源码学IM》系列专题 [共12篇]

为了更好地分类阅读 52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第36 期。

[-1-] 跟着源码学IM(一)：手把手教你用Netty实现心跳机制、断线重连机制

[链接] http://www.52im.net/thread-2663-1-1.html

[摘要] 说到用Netty来开发IM或推送系统，以一个生产级产品的标准来说，最基本的心跳机制、断线重连机制肯定得有吧？好，如果你还不清楚这些，那就看看本文吧！

[-2-] 跟着源码学IM(二)：自已开发IM很难？手把手教你撸一个Andriod版IM

[链接] http://www.52im.net/thread-2671-1-1.html

[摘要] 本文适合没有任何即时通讯（IM）开发经验的小白开发者阅读，文章将教你从零开始，围绕一个典型即时通讯（IM）系统的方方面面，手把手为你展示如何基于Netty+TCP+Protobuf来开发出这样的系统。非常适合从零入门的Android开发者。

[-3-] 跟着源码学IM(三)：基于Netty，从零开发一个IM服务端

[链接] http://www.52im.net/thread-2768-1-1.html

[摘要] “文适合IM新手阅读，但最好有一定的网络编程经验，必竟实践性的代码上手就是网络编程。如果你对网络编程，以及IM的一些理论知识知之甚少，请务必首先阅读：《新手入门一篇就够：从零开发移动端IM》，该文为IM小白分类整理了详尽的理论资料，请按需补充相关知识。

[-4-] 跟着源码学IM(四)：拿起键盘就是干，教你徒手开发一套分布式IM系统

[链接] http://www.52im.net/thread-2775-1-1.html

[摘要] 本文记录了我开发的一款面向IM学习者的 IM系统——CIM（全称：CROSS-IM），同时提供了一些组件帮助开发者构建一款属于自己可水平扩展的 IM。

[-5-] 跟着源码学IM(五)：正确理解IM长连接、心跳及重连机制，并动手实现

[链接] http://www.52im.net/thread-2799-1-1.html

[摘要] 本文正好借着在CIM系统中有这样两个需求（CIM是本文作者从零开发的一个学习性质的IM系统，详见《拿起键盘就是干：跟我一起徒手开发一套分布式IM系统》），正好来聊一聊我是如何理解IM长连接的心跳及重连机制，以及又是怎么踩坑已及填坑的。

[-6 -] 跟着源码学IM(六)：手把手教你用Go快速搭建高性能、可扩展的IM系统

[链接] http://www.52im.net/thread-2988-1-1.html

[摘要] 本文适合有一定网络通信技术基础的IM新手阅读。如果你对网络编程，以及IM的一些理论知识知之甚少，请务必首先阅读：《新手入门一篇就够：从零开发移动端IM》，按需补充相关知识。

[-7-] 跟着源码学IM(七)：手把手教你用WebSocket打造Web端IM聊天

[链接] http://www.52im.net/thread-3483-1-1.html

[摘要] 本文将基于Tomcat和Spring框架实现一个逻辑简单的入门级IM应用，对于即时通讯初学者来说，能找到一个简单直接且能顺利跑通的实例代码，显然意义更大，本文正是如此。希望能给你的IM开发和学习带来启发。

[-8-] 跟着源码学IM(八)：万字长文，手把手教你用Netty打造IM聊天

[链接] http://www.52im.net/thread-3489-1-1.html

[摘要] 上篇《跟着源码学IM(七)：手把手教你用WebSocket打造Web端IM聊天》中，我们使用 WebSocket 实现了一个简单的 IM 功能，支持身份认证、私聊消息、群聊消息。然后就有人发私信，希望使用纯 Netty 实现一个类似的功能，因此就有了本文。

[-9 -] 跟着源码学IM(九)：基于Netty实现一套分布式IM系统

[链接] http://www.52im.net/thread-3789-1-1.html

[摘要] 接下来的内容，我会为你介绍如何开发一个IM的方方面面，包括系统架构、通信协议、单聊群聊、表情发送、UI事件驱动等，以及全套的实践源码让你可以上手学习。

[-10-] 跟着源码学IM(十)：基于Netty，搭建高性能IM集群（含技术思路+源码）

[链接] http://www.52im.net/thread-3816-1-1.html

[摘要] 本文将根据笔者这次的业余技术实践，为你讲述如何基于Netty+Zk+Redis来搭建一套高性能IM集群，包括本次实现IM集群的技术原理和实例代码，希望能带给你启发。

[-11 -] 跟着源码学IM(十一)：一套基于Netty的分布式高可用IM详细设计与实现(有源码)

[链接] http://www.52im.net/thread-4257-1-1.html

[摘要] 本文将要分享的是如何从零实现一套基于Netty框架的分布式高可用IM系统，它将支持长连接网关管理、单聊、群聊、聊天记录查询、离线消息存储、消息推送、心跳、分布式唯一ID、红包、消息同步等功能，并且还支持集群部署。

[-12 -] 跟着源码学IM(十二)：基于Netty打造一款高性能的IM即时通讯程序

[链接] http://www.52im.net/thread-4530-1-1.html

[摘要] 原本打算做个多人斗地主练习程序，但那需要织入过多的业务逻辑，因此一方面会带来不必要的理解难度，让案例更为复杂化，另一方面代码量也会偏多，所以最终依旧选择实现基本的IM聊天程序，既简单，又能加深对Netty的理解。

👉52im社区本周新文：《微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗》《移动端IM产品RainbowChat[专业版] iOS端 v9.0版已发布！》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2024-04-12 12:06 Jack Jiang 阅读(76) | 评论 (0) | 编辑收藏

微信团队分享：来看看微信十年前的IM消息收发架构，你做到了吗

本文由微信技术团队分享，原题“十年前的微信消息收发架构长啥样？”，下文进行了排版和内容优化等。

1、引言

2023 年，微信及 WeChat 的 DAU（月活用户）达到 13.4 亿，微信已经是很多人工作、生活中不可或缺的一个环节。从 2011 年 1 月 21 日上线至今，微信已经走过了 13 个年头，其背后的技术基座与架构也发生了巨大的变化。这些变化背后，所折射的也正是中国互联网高速发展的黄金年代。

好的架构是迭代出来的，却也少不了良好的设计，本文将带大家回顾微信背后最初的也是最核心的IM消息收发技术架构，愿各位读者能从中获得启发。

技术交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》

- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4636-1-1.html）

2、微信技术起步

微信诞生于 QQMail 团队，初始的整个微信后台架构都带着浓重的邮箱气息，消息收发架构作为微信最为核心的部分，同样是基于邮箱的存储转发机制演变而来。

微信定位为即时通讯IM软件，对消息的收发有2个基本的要求：

1）消息尽可能的实时送达；
2）不丢消息。

在邮箱的存储转发机制上做了改良后，微信的消息收发实现了以上2个基本要求。

3、消息发送架构

首先通过手机 A 给手机 B 发送一条微信消息来看消息发送的整体架构是怎样的（如下图所示）。

微信消息发送在整体架构上可以分为2个部分。

第一部分：手机A发送消息到服务器（上图中1、2、3部分）：

1）1 - 手机A发送发消息请求到接入层 ConnnectSvr；
2）2 - 接入层收到请求后，将请求转到逻辑层 SendSvr 进行处理；
3）3 - 逻辑层处理完各种逻辑（如反垃圾，黑名单等等）之后，将消息存入存储层 MsgStore。

第二部分：服务器发送通知到手机B（上图中4、5.1、5.2、6、7部分）：

1）4 - 逻辑层 SendSvr 将给手机 B 的新消息到达通知发送到通知处理服务器 PushSvr。

2）5.1 - PushSvr 查询手机 B 在接入层所在长连接的 ConnectSvr，并将通知发给该 ConnectSvr。

3）5.2 - PushSvr 发送一个 Push tips 给手机操作系统自建的第三方 Push 系统（如苹果的 APNsPush，微软的 WPPush，黑莓的 BBPush 等）。像苹果的 IOS 系统，在 APP 退出到后台10分钟后就会释放掉该 APP 所持有的所有资源（如 CPU，网络，内存等），导致之前建立的长连接通道也会一并断掉，此时通过5.1的方式进行通知是不可达的，所以还需要依赖与苹果自身的 apns 通道来达到实时通知的目的。

4）6 - 接入层 ConnnectSvr 通过手机 B 建立的长连接通道将新消息达到通知发送给手机 B。

5）7 - 第三方 Push 服务器通过自建的 Push 通过发送 Push tips 到手机 B。

4、消息接收架构

手机 B 在收到新消息到达通知后进行消息收取的整体架构如下图所示：

消息收取的流程主要分为3个步骤：

1）手机 B 发起收取消息的请求到接入层服务器 ConnnectSvr；
2）接入层服务器 ConnnectSvr 接到请求后转给逻辑层服务器 ReceiveSvr 进行处理；
3）ReceiveSvr 从存储层 MsgStore 中获取到需要下发的消息。

5、消息收发架构小结

在上述第4、5两节中分享的消息收发架构保障之下，微信可以保证手机 A 在发出消息 100ms 级别内让手机 B 收取到该条消息。

当然，对于退出后台的苹果 iOS 的微信用户，在苹果的 APNs 服务器正常的情况下，也可以保证在秒级别内通知到手机 B 点开 APP 进入前台来收取消息。

6、消息防丢失机制

虽然消息收发架构保证了消息收发双方能够及时收发消息，但该架构不能保证消息在传输过程中不发生丢弃。

当然为了达到任意一条消息都不丢的状态，最简单的方案是手机端对收到的每条消息都给服务器进行一次 ack 确认，但该方案在手机端和服务器之间的交互过多，并且也会遇到在弱网络情况下 ack 丢失等问题。

为了完美的做到消息不丢，微信消息系统对消息收发引入了 sequence 机制。

PS：感兴趣的话，以下是更多与IM消息送达保证有关的文章，可以一并阅读：

7、消息防丢失机制技术实现

7.1sequence 机制

1）每个用户都有42亿的 sequence 空间（从1到 UINT_MAX），从小到大连续分配；
2）每个用户的每条消息都需要分配一个 sequence；
3）服务器存储有每个用户已经分配到的最大 sequence；
4）手机端存储有已收取消息的最大 sequence。

PS：微信sequence序列号生成的具体算法和实现详见《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》。

7.2消息收取sequnece确认机制

当服务器和手机端都拥有了一个 sequence 之后，服务器和手机端之间就可以根据两者 sequence 的差异来收取消息，同时保证手机端未收取下去的消息最终能够收取下去。

具体流程如下图表示：

1）根据服务器和手机端之间 sequence 的差异，可以很轻松的实现增量下发手机端未收取下去的消息。

2）对于在弱网络环境差的情况，丢包情况发生概率是比较高的，此时经常会出现服务器的回包不能到达手机端的现象。由于手机端只会在确切的收取到消息后才会更新本地的 sequence，所以即使服务器的回包丢了，手机端等待超时后重新拿旧的 sequence 上服务器收取消息，同样是可以正确的收取未下发的消息。

3）由于手机端存储的 sequence 是确认收到消息的最大 sequence，所以对于手机端每次到服务器来收取消息也可以认为是对上一次收取消息的确认。一个帐号在多个手机端轮流登录的情况下，只要服务器存储手机端已确认的 sequence，那就可以简单的实现已确认下发的消息不会重复下发，不同手机端之间轮流登录不会收到其他手机端已经收取到的消息。

如上图4所示：假如手机 A 拿 Seq_cli = 100 上服务器收取消息，此时服务器的 Seq_svr = 150，那手机 A 可以将 sequence 为[101 - 150]的消息收取下去，同时手机 A 会将本地的 Seq_cli 置为150。

如上图5所示：手机 A 在下一次再次上来服务器收取消息，此时 Seq_cli = 150，服务器的 Seq_svr = 200，那手机 A 可以将 sequence为[151 - 200]的消息收取下去。

如上图6所示：假如原手机 A 用户换到手机 B 登录，并使用 Seq_cli = 120 上服务器收取消息，由于服务器已经确认 sequence <= 150 的消息已经被手机收取下去了，故不会再返回 sequence 为[121 - 150]的消息给手机 B，而是将 sequence 为[151 - 200]的消息下发给手机 B。

这里虽然 sequence 为[151 - 200]的消息有可能是被手机 A 和手机 B 都收取到，但由于手机 A 在收到 sequence 为[151 - 200]的消息时并没有给服务器进行确认或者这些消息手机 A 压根就没有收取到，所以为了防止消息丢失，sequence 为[的消息也是需要下发给手机 B 的。

8、本文小结

以上简单文字描述的就是微信最初的IM消息收发的架构。

该架构实现了即时通讯软件对消息收发所需的两个基本要求：

1）消息尽可能的实时送达；
2）不丢消息。

以上：是 2014 年微信古早时期的消息收发架构的基本介绍，时过境迁，微信的消息收发架构已经发生了巨大的变化，但我们还是可以从中看到技术演变的价值与力量。

程序员最大的成就与幸福，或许就是自己的代码跑在千万人的设备上，默默支撑着海量的需求。

9、参考资料

[1] iOS的推送服务APNs详解：设计思路、技术原理及缺陷等

[2] 了解iOS消息推送一文就够：史上最全iOS Push技术详解

[3] 消息推送技术干货：美团实时消息推送服务的技术演进之路

[4] 微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）

[5] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[6] 一套亿级用户的IM架构技术干货(上篇)：整体架构、服务拆分等

[7] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等

[8] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[9] 一套分布式IM即时通讯系统的技术选型和架构设计

[10] 从客户端的角度来谈谈移动端IM的消息可靠性和送达机制

[11] IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递

[12] IM开发宝典：史上最全，微信各种功能参数和逻辑规则资料汇总

[13] 零基础IM开发入门(一)：什么是IM系统？

[14] 理解IM消息“可靠性”和“一致性”问题，以及解决方案探讨

[15] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制

10、微信团队的其它文章

《还原真实的腾讯：从最不被看好，到即时通讯巨头的草根创业史》