Jack Jiang

我的最新工程MobileIMSDK:http://git.oschina.net/jackjiang/MobileIMSDK
posts - 529, comments - 13, trackbacks - 0, articles - 1

2026年1月19日

     摘要: 本文由网易云音乐技术团队入云分享,有修订和排版优化。1、引言说起 IM,大家应该都或多或少了解过一些,一般被熟知是在一些聊天场景里应用的比较多;而一般情况下我们常接触的业务中大多是做一些接口的查询提交之类的操作,用正常的 Ajax 请求就足以满足需求,比较难接触到 IM 这种方案。但如果涉及到一些需要频繁更新数据的业务场景,使用常规接口查询难免会给服务端造成比较大的性能开销,并且数据更新的延迟也会...  阅读全文

posted @ 2026-03-02 21:56 Jack Jiang 阅读(33) | 评论 (0)编辑 收藏

1、基本介绍

logo

RainbowTalk 是一套基于 MobileIMSDK 开源通信框架的产品级纯血鸿蒙NEXT端IM系统。RainbowTalk与姊妹产品 RainbowChat技术同源 ,不同于市面上某些开源或售卖的demo级代码,RainbowChat已被成千上万真实的客户使用过,解决了大量的产品逻辑、代码逻辑、细节优化等问题。

RainbowTalk 由纯ArkTS编写、全新开发,没有套壳、也没走捷径,原生“纯血”(详见:《RainbowTalk详细介绍)。

RainbowTalk 无闭源代码(包括核心通信层),这与市面上知识产权来路不明、无核心技术、无售后的“三无”产品,或打着开源名义实则闪烁其词不开源核心的产品有本质区别。

RainbowTalk 是 RainbowChat 和 RainbowChat-Web 的姊妹产品。

2

☞ 详细介绍:http://www.52im.net/thread-4822-1-1.html
☞ 运行截图:http://www.52im.net/thread-4824-1-1.html (运行视频
☞ 下载体验:http://www.52im.net/thread-4825-1-1.html

2、关于MobileIMSDK开源框架

mb_logo_opti

MobileIMSDK 是一套全平台开源IM即时通讯聊天框架,超轻量级、高度提炼,一套API优雅支持UDP 、TCP 、WebSocket 三种协议,客户端支持iOS、Android、H5、小程序、Uniapp、标准Java、纯血鸿蒙等,服务端基于Netty编写,性能卓越、易于扩展。

工程同步开源地址:

3、功能情况

1)支持文本消息、语音留言消息、图片消息、大文件消息(支持断点上传)、短视频消息、个人名片、群名片、Emoji表情、消息撤回、消息转发、消息引用、“@”功能、“扫一扫”功能等;
2)支持一对一陌生人聊天模式;
3)支持一对一正式好友聊天模式;
4)支持多对多群聊聊天模式;
5)完善的群组信息管理:建群、退群、解散、转让、邀请、踢人、群公告等;
6)完整的注册、登陆(同时支持手机验证码登录和密码登录)、密码找回等功能闭环;
7)个人中心功能:改基本信息、改个性签名、改头像、改密码等;
8)支持个人相册查看;
9)完整的离线消息/指令拉取机制;
10)完整的本地消息/指令缓存机制,节省网络流量;
11)完整的富媒体文件(语音、大文件、图片、短视频)缓存机制,节省网络流量;
12)完整的好友关系管理:查找好友、发出请求、处理请求、删除好友、好友备注等;
13)其它未提及的功能和特性请自行下载体验

RainbowTalk线上版本目前仅作演示和研究之用,运行环境配置最小化(仅1核1G和1MB带宽),请客观评估。

4、技术亮点

1)与姊妹产品RainbowChat 技术同源(算法和功能逻辑历经时间考验和大量客户面辐射,可靠性一定优于短时间内堆砌功能的产品);
2)通信底层到上层功能,完全自主开发——版权清晰、技术资产可控;
3)超轻量级——纯ArkTS编写且无任何重依赖;
4)通讯核心层基于MobileIMSDK 工程,保证了业务代码与通信核心的高度分层(经验不足的IM产品是做不到这一点的);
5)支持完整的消息送达保证(QoS)机制,保证送达率,理论丢包率约为0.0001%;
6)基于 MobileIMSDK 工程的自有协议,未来的流量压缩对于APP端的节电控制和流量控制、服务端的网络吞吐等都有完全的控制能力;
7)完善的网络状况自动检测、断网重连等服务自动治愈能力;
8)核心通信算法和实现均为自主原创(历经10年,并非开源拼凑),保证了技术的持续改进、升级、扩展;
9)聊天协议兼容和互通:实现了与姊妹产品RainbowChatRainbowChat-Web的完全兼容和消息互通;

5、技术原则

为了更易学习、研究、2次开发,RainbowTalk始终遵从:

1)界面与通信解偶:UI界面与网络通信层和数据处理层代码解耦,UI界面的重构、维护、改版都非常容易和优雅;

3)核心内聚和收敛:得益于长期的提炼和经验积累,网络通信核心层高度封装,开发者无需理解复杂网络算法。

4)纯 ArkTS 实现:纯ArkTS编写,无重量级框架和库依赖(更无Native代码),可干净利落地对接各种既有系统;

5)跨平台运行能力:受益于鸿蒙系统的跨端特性,理论上本应用的客户端可运行于任何支持鸿蒙Next的平台上;

6)架构设计简洁:简单直接,易于学习,能少一个分层则绝不强行炫技;

7)简单地就是最好的:始终贯彻简单直接的互联网产品技术理念。

6、主要功能运行截图

(☞ 更多运行截图 、更多运行视频 、详细介绍 ☜)

all-in-one-拼合总图-v2.6(导出35size90pct)_3比4

本文内容引用自:http://www.52im.net/thread-4822-1-1.html) 

posted @ 2026-02-25 17:47 Jack Jiang 阅读(28) | 评论 (0)编辑 收藏

本文引用了45岁老架构师尼恩的技术分享,有修订和重新排版。

1、引言

接上篇《如何保障分布式IM聊天系统的消息有序性(即消息不乱)》,本文主要聚焦分布式IM聊天系统消息可靠性问题,即如何保证消息不丢失。

cover-2-opti

2、系列文章

为了更好以进行内容呈现,本文拆分两了上下两篇。

本文是2篇文章中的第 1 篇:

本篇主要聚焦的是分布式IM聊天系统消息可靠性问题。

3、痛点拆解:聊天消息总是丢?不是网络差,是设计没兜底

产品做着做着,用户开始投诉:“我明明发了消息,对方怎么没收到?”。你查日志发现——消息真丢了。但更可怕的是:你也不知道它什么时候丢的。

这背后,其实是移动场景下的经典三连击:

  • 1)地铁进隧道,网络闪断;
  • 2)App 被系统杀掉,进程没了;
  • 3)对方服务器刚好在发布,接口500……

你以为只是“发一下”,其实要穿越重重险境才能抵达。

结果就是:

- 消息发不出去 → 用户以为被无视;

- 或者重试太多 → 对方收到一堆重复“在吗?”;

- 最后用户体验崩了,客服工单爆了。

所以问题本质不是“快不快”,而是:

“宁可慢点,也不能丢;就算重发,也不能重复。”

这就是我们常说的可靠消息投递 ——一个看似简单的需求,却是高可用系统的分水岭。

4、解决方案:三层兜底,像保险一样层层防

光靠“发一次”肯定不行。

我们要学保险公司,给关键消息上三重保险:

  • 1)自己先复印一份存档 → 客户端本地存
  • 2)邮局签收后锁进保险柜,并异地备份 → 服务端落盘 + 副本
  • 3)如果没收到回执,隔段时间再寄,但对方只认一次 → 超时重试 + 幂等去重

每一层都不贵,合起来却能扛住99%的异常。下面看每层怎么落地。

5、第一层:客户端兜底 —— 消息先存本地,解决网络不稳定问题

记住一句话:只要没收到 ACK,就当没发成功。

所以第一步不是联网,而是先把消息塞进手机本地数据库(比如 SQLite)。

就像下面这样:

db.saveLocalMsg(msg); // 先落库,保命

boolean sendOk = network.send(msg);

if (!sendOk) {

    scheduleRetry(msg, 1000); // 发失败?排队重试

}

再加上客户端scheduleRetry  采用阶梯式重试策略:

  • 1)第1次失败 → 1秒后重试
  • 2)第2次失败 → 3秒后重试
  • 3)第3次失败 → 5秒后重试

避免雪崩式刷屏,既保障可靠性,又不压垮服务。只有等到服务端明确说“我收到了”,才把这条消息从本地删掉。

就像快递发货单:客户签收了,你才能撕票。

这样哪怕 App 崩溃、手机重启,下次打开照样继续发——用户体验无缝衔接。而如果不做这一步?一旦断网或崩溃,消息直接蒸发,用户永远不知道。

6、第二层:服务端兜底 —— 实现 服务端持久化的高可靠

客户端发来了,服务端能不能直接处理完就返回?绝对不行!

如果此时机器宕机,消息还在内存里没来得及持久化,那就真的丢了。

正确做法是两步走:

  • 1)收到消息立刻写入 RocketMQ(支持刷盘、集群同步);
  • 2)同步复制到至少3个副本节点,确保单点故障不丢数据。

伪代码如下:

rocketMQ.send(msg); // 必须落盘,断电也不怕

replicaService.syncTo3Replicas(msg); // 多副本容灾

response.sendAck(msg.getUniqueKey()); // 此时才能回 ACK

这一步的关键是:ACK 必须在落盘之后发!否则就是“虚假确认”,等于骗客户端“我收到了”,其实自己也没保住。

这一层扛住了服务端单机崩溃的风险,是整个链路的数据基石。

7、第三层:幂等性设计 —— 保障exact one

前面两层解决了“存得住”的问题,但这还不够。现实是:网络可能超时、包可能丢失、ACK 可能没传回来。

于是客户端必须重试。但重试带来新问题:

“我已经处理过了,再来一遍怎么办?”

解决办法是:用唯一键 + 幂等控制。

每个消息生成全局唯一的 key(如 sessionID:msgID),服务端通过 Redis 的原子操作判断是否已处理。

就像下面的代码这样:

String uniqueKey = msg.getUniqueKey();

if (redis.setNx(uniqueKey, "processed", 86400)) {

    processMsg(msg); // 第一次来,正常处理

} else {

    log.info("重复消息,忽略:{}", uniqueKey);

}

setNx 是关键:只有 key 不存在时才设置成功,保证多实例并发下也不会重复消费。

8、IM消息可靠性架构的核心流程总结

上面三层如何联动?一张图讲清楚全链路生命周期:

2-1

整条链路形成闭环:任何环节出问题,都有对应兜底机制接管。

9、本文小结

至此,《如何保障分布式IM聊天系统的消息有序性和可靠性》这期文章的上下两篇就完结了(上篇点此查看),上篇涉及到的分布式IM聊天系统架构中关于消息有序性问题,下篇则主要聚焦的是消息可靠性问题。

如果你是IM开发新人,想要系统地学习移动端IM开发的话,建议从我整理的这篇《新手入门一篇就够:从零开发移动端IM》开始,这样能保证IM开发知识能从网络到应用层、再从局部设计到整体架构,都有一个系统的学习脉络而不是在信息碎片中苦苦总结。

10、参考资料

[1] 什么是IM聊天系统的可靠性?

[2] 什么是IM聊天系统的消息时序一致性?

[3] 微信技术分享:微信的海量IM聊天消息序列号生成实践(算法原理篇)

[4] 马蜂窝旅游网的IM系统架构演进之路

[5] 一套亿级用户的IM架构技术干货(下篇):可靠性、有序性、弱网优化等

[6] 从新手到专家:如何设计一套亿级消息量的分布式IM系统

[7] 企业微信的IM架构设计揭秘:消息模型、万人群、已读回执、消息撤回等

[8] 融云技术分享:全面揭秘亿级IM消息的可靠投递机制

[9] 阿里IM技术分享(四):闲鱼亿级IM消息系统的可靠投递优化实践

[10] 阿里IM技术分享(八):深度解密钉钉即时消息服务DTIM的技术设计

[11] 基于实践:一套百万消息量小规模IM系统技术要点总结

[12] 一套分布式IM即时通讯系统的技术选型和架构设计

[13] 转转平台IM系统架构设计与实践(一):整体架构设计

[14] 移动端弱网优化专题(一):通俗易懂,理解移动网络的“弱”和“慢”

[15] 移动端弱网优化专题(二):史上最全移动弱网络优化方法总结

[16] Web端即时通讯实践干货:如何让你的WebSocket断网重连更快速?

[17] 从客户端的角度来谈谈移动端IM的消息可靠性和送达机制

[18] IM消息送达保证机制实现(一):保证在线实时消息的可靠投递

[19] 移动端IM中大规模群消息的推送如何保证效率、实时性?

[20] 如何保证IM实时消息的“时序性”与“一致性”?

[21] 一个低成本确保IM消息时序的方法探讨

即时通讯技术学习:

- 移动端IM开发入门文章:《新手入门一篇就够:从零开发移动端IM

- 开源IM框架源码:https://github.com/JackJiang2011/MobileIMSDK备用地址点此

本文已同步发布于:http://www.52im.net/thread-4889-1-1.html

posted @ 2026-02-02 15:42 Jack Jiang 阅读(31) | 评论 (0)编辑 收藏

本文引用了45岁老架构师尼恩的技术分享,有修订和重新排版。

1、引言

分布式IM聊天系统中,IM消息怎么做到不丢、不重、还按顺序到达?

这个问题,涉及到IM系统的两个核心:

1)消息不能丢(可靠性):比如用户点了发送,不能因为服务宕机或网络抖动,消息石沉大海。比如地铁隧道、电梯间,网络断了又连,消息不能卡住不动(要确保弱网也能用)。

2)顺序不能乱(有序性):比如“在吗?” 回成 “吗在?”,群聊时间线错乱,体验直接崩盘。

这二大痛点,是IM聊天系统架构的命门所在。

下面是一张IM消息从发出到接收的关键路径:

3

2、系列文章

为了更好以进行内容呈现,本文拆分两了上下两篇。

本文是2篇文章中的第 1 篇:

本篇主要总结和分享分布式IM聊天系统架构中关于消息有序性的设计和实践。

3、传统技术方案的瓶颈,怎么破?

早期做消息有序,很多人第一反应是搞个“全局发号器”——所有消息排一队,挨个编号再发。

理想很丰满,现实很骨感:高并发下一拥而上抢号,发号器直接被打满;更致命的是,它一旦宕机,全链路雪崩。

这就像春运火车站只开一个售票窗——再快也撑不过三分钟。

所以,我们必须换思路:不搞大一统,而是分片独立发号,让每个“窗口”自给自足,互不干扰。

4、痛点拆解:为什么消息会乱?

我们先还原一个真实场景: 想象一下你和朋友聊天:

你说:“1 吃饭了吗?”

他回:“2 刚吃完。”

你又说:“3 吃啥呢?”

结果对方手机上显示成:

“3  吃啥呢?” → “1 吃饭了吗?” → “2 刚吃完。”

这不是 bug,是分布式系统的常态。

三条消息走不同服务节点、经不同网络路径,到达时间完全不可控,最终呈现顺序错乱。

会乱 问题本质是什么?一个要“串行等”,一个想“并发冲”,天然冲突。

这时候有人会说:那我加个全局排序服务不就行了?

可以,但代价太大——一个中心节点最多撑几万 QPS,面对百万群聊、亿级用户,还没上线就已过载。

所以,全局有序不是解,而是枷锁。我们要的不是“天下大同”,而是“各聊各的别乱就行”。

5、最终方案:分而治之 + 局部有序

真正的突破口在于:我们根本不需要全局有序,只需要“会话内有序”。

你和张三的聊天记录不能乱,但你和李四的聊天跟王五的完全无关——何必放一起排序?

这就引出了经典策略:分而治之 + 局部有序。

具体怎么做?两步走稳:

* 第一步 - 业务分区: 哈希分片,锁定归属

用 sessionId 做一致性哈希,确保同一个会话的所有消息始终路由到同一个处理节点。按“会话ID”做哈希,算出该消息该由哪个节点处理。同一会话 → 哈希值一样 → 路由到同一台机器 → 所有消息串行处理,天然避免跨节点乱序。

这样一来,单个会话内的消息在服务端就是串行处理的,天然不会乱。

* 第二步 - 局部序号:独立发号,局部递增

每个会话独立维护一个计数器,每来一条消息就+1,作为它的“官方序号”。每个会话,可以配一个独立计数器(比如 Redis 的 INCR),每来一条消息就+1,生成唯一 SEQ。客户端不管什么时候收到消息,只认这个序号,按序号从小到大排列展示。

这个 SEQ 就是这条消息的“官方身份证号”,客户端只认这个,不看接收时间。这就像电影院检票——你可以早到晚到,但座位按票号定。哪怕后排观众先进场,也不会坐到前排去。

PS:IM消息ID生成相关的文章可详细阅读以下资料:

  1. IM消息ID技术专题(一):微信的海量IM聊天消息序列号生成实践(算法原理篇)
  2. IM消息ID技术专题(二):微信的海量IM聊天消息序列号生成实践(容灾方案篇)
  3. IM消息ID技术专题(三):解密融云IM产品的聊天消息ID生成策略
  4. IM消息ID技术专题(四):深度解密美团的分布式ID生成算法
  5. IM消息ID技术专题(五):开源分布式ID生成器UidGenerator的技术实现
  6. IM消息ID技术专题(六):深度解密滴滴的高性能ID生成器(Tinyid)
  7. IM消息ID技术专题(七):深度解密vivo的自研分布式ID服务(鲁班)

6、实践落地(核心片段伪代码)

1)服务端分片路由逻辑:

来看关键实现:如何把消息精准投递给“对的人”。

String sessionId = msg.getSessionId();

//这里是伪代码,实际代码以mq 的负载均衡机制为准

int nodeIndex = Math.abs(sessionId.hashCode()) % clusterNodeCount;

 //这里写个伪代码,代表mq  主从复制

ClusterNode targetNode = clusterNodes.get(nodeIndex);

targetNode.sendMsg(msg);

核心就一句:基于会话 ID 哈希取模,固定路由。

从此,每个会话都有了自己的“专属服务通道”,不再受其他会话影响。

2)服务端序号分配逻辑:

接下来,给每条消息发“通行证”:

long msgSeq = redis.incr("msg_seq_" + sessionId);

msg.setSeq(msgSeq);

msg.setUniqueKey(sessionId + "_" + msgSeq);

这里用了 Redis 的 INCR,保证同一个会话下的 SEQ 绝对递增,且线程安全。同时用 sessionId_seq 作为唯一键,既能幂等去重,也能防止重试导致消息重复入库。

实战提示:

如果你的 Redis 是集群模式,记得确保同一个会话的 key 落在同一 slot,否则 INCR 可能跨节点失效。

3)客户端排序逻辑:

最后一步,客户端收尾:别急着渲染,先排好队。

//这里是伪代码, 先排序

List<Msg> sortedMsgs = msgList.stream()

    .sorted(Comparator.comparingLong(Msg::getSeq))

    .collect(Collectors.toList());

//这里是伪代码, 再渲染

renderMsgList(sortedMsgs);

无论消息以什么顺序到达,统统按 seq 升序排列后再上屏。哪怕第100条先到,第1条后到,也能正确归位。这也是为什么我们强调“客户端必须信任服务端 SEQ”——它是唯一真相源。

7、方案总结:放弃全局有序,换高可用与高性能

总结一下,这套方案的核心思想就一句话:

不要为“假需求”买单——我们不需要全局有序,只需要业务上有意义的有序。

你看微信、钉钉、飞书,哪一个是把全平台消息排成一条队列的?没有。

它们都选择了“会话级隔离 + 局部有序”的设计,这才是工业级系统的通用解法。

背后的分布式哲学也很清晰:

2

最终换来的是:

  • 1)高并发支持(水平扩展);
  • 2)高可用(无单点);
  • 3)强一致体验(用户无感知)。

这正是中高级开发者必须掌握的权衡思维:

不是技术做不到,而是要不要做。

有时候,“不做全局有序”,反而是最正确的选择。

8、 IM消息有序性架构的核心流程总结

最后,一张图串起全流程:

3
从发起到渲染,全程围绕“会话隔离”和“局部发号”展开。每一个环节都在为同一个目标服务:在分布式环境下,低成本实现用户可感知的“顺序正确”。

—— 下篇《如何保障分布式IM聊天系统的消息可靠性(即消息不丢)》稍后发布,敬请期待 ——

9、参考资料

[1] 什么是IM聊天系统的可靠性?

[2] 什么是IM聊天系统的消息时序一致性?

[3] 微信技术分享:微信的海量IM聊天消息序列号生成实践(算法原理篇)

[4] 马蜂窝旅游网的IM系统架构演进之路

[5] 一套亿级用户的IM架构技术干货(下篇):可靠性、有序性、弱网优化等

[6] 从新手到专家:如何设计一套亿级消息量的分布式IM系统

[7] 企业微信的IM架构设计揭秘:消息模型、万人群、已读回执、消息撤回等

[8] 融云技术分享:全面揭秘亿级IM消息的可靠投递机制

[9] 阿里IM技术分享(四):闲鱼亿级IM消息系统的可靠投递优化实践

[10] 阿里IM技术分享(八):深度解密钉钉即时消息服务DTIM的技术设计

[11] 基于实践:一套百万消息量小规模IM系统技术要点总结

[12] 一套分布式IM即时通讯系统的技术选型和架构设计

[13] 转转平台IM系统架构设计与实践(一):整体架构设计

[14] 移动端弱网优化专题(一):通俗易懂,理解移动网络的“弱”和“慢”

[15] 移动端弱网优化专题(二):史上最全移动弱网络优化方法总结

[16] Web端即时通讯实践干货:如何让你的WebSocket断网重连更快速?

[17] 从客户端的角度来谈谈移动端IM的消息可靠性和送达机制

[18] IM消息送达保证机制实现(一):保证在线实时消息的可靠投递

[19] 移动端IM中大规模群消息的推送如何保证效率、实时性?

[20] 如何保证IM实时消息的“时序性”与“一致性”?

[21] 一个低成本确保IM消息时序的方法探讨

即时通讯技术学习:

- 移动端IM开发入门文章:《新手入门一篇就够:从零开发移动端IM

- 开源IM框架源码:https://github.com/JackJiang2011/MobileIMSDK备用地址点此

本文已同步发布于:http://www.52im.net/thread-4887-1-1.html

posted @ 2026-01-19 21:29 Jack Jiang 阅读(44) | 评论 (0)编辑 收藏

Jack Jiang的 Mail: jb2011@163.com, 联系QQ: 413980957, 微信: hellojackjiang