iOS 微信的本地存储结构简析

大约四年前，我有了一个暗恋对象，所以想要把微信的聊天记录保存起来。那时在网上只有一种要付费的类似软件，所以我想，写一个开源的工具好了。于是这件事

（对应微信 6.0；那时的代码质量很低我知道）。

后来我没有了暗恋对象，也就不再关心这件事。最近，因为有不少人认为这样的功能仍然很有用，并且据我搜索到的情况，仍然没有能让每个人拿来直接用的工具。因为在几年之间文件结构发生了一些变化，我在这里记录下来，方便其他的开发者（对应现在的版本6.3.25；虽然我没想到还能有什么用）。

1. 怎么得到这些文件？

过去，我可以提示用户在越狱之后用 iFunbox 自行把微信 App 所在文件夹复制出来。然而自从某个版本的 iOS 开始，在不越狱的情况下，我们只能看到 /User/Media 这里的文件，而需要的本地数据在 /User/Containers/Data/Application/微信的UID。强迫用户为了这么一件事前去越狱显然不太友好，而对“聊天记录迁移”抓包也不方便，所以我想到另一种途径。

这就是 iTunes 备份。从经验判断，恢复备份之后微信里的聊天记录都还在，说明肯定这些文件在备份的时候保存到了电脑上。它们在哪里？苹果官方给了答案。简单地说，Windows 下在“\用户\（用户名）\AppData\Roaming\Apple Computer\MobileSync\Backup\”，然后我不喜欢用 Mac OS。

不过，iTunes 备份的文件夹结构不是很友好，似乎每个手机上的文件名都变成了一串序号，当然打开相关的 plist 然后看出规律也不难。好消息是，已经有很多人做了类似的事情，例如 iphonebackupbrowser，它也是用 C# 写的，用起来比较方便。

因此，我做的第一步是让用户选取做好的 iTunes 备份，从上面那个源码，稍微修改一下就可以找到 com.tencent.xin 的相关文件，从而在程序里直接通过 iOS 上的路径找到对应的文件。

2. 主要的数据库：MM.sqlite

从很久以前，iOS 微信的大部分数据就保存在这个 SQLite 3 数据库里。没有安卓上可恶的加密，直接可以打开。这个文件在 Documets/xxxx/DB/MM.sqlite，中间是对应用户名的 MD5，稍后会讲它的具体含义。不过一般只需要遍历所有的。

我们感兴趣的是 Chat_ 开头的表，分别是和一个人（或群聊、公众号）的对话内容；以及记录朋友列表的 Friend 和 Friend_Ext。下面两图是朋友表的内容：

很明显，微信号是 UsrName，昵称是 NickName，备注名在 ConRemark。

此外在 ConStrRes2 里面（XML格式）还有一些有用的信息。比如地区、签名、来源、LinkedIn……我们更需要的是头像的地址 HeadImgUrl，下面会用到。

特别有个属性叫 alias 需要处理。我们知道每个用户最多可以修改一次微信号，那么新的微信号就会保存在 alias 当中。因为很多地方是用微信号作为 key 来索引到用户的（尽管每个用户也有一个数字的 ID），我们对两种微信号都要检查。

既然已经知道所有人的信息，下面就来看聊天记录。不过在这之前，我还遇到了一个意想不到的新问题。

3. 消失的 Friend

程序写到一半，在某次备份之后，突然读不到朋友们的名字了。打开 MM.sqlite，发现 Friend 表当中确实几乎已经没有记录。那么微信究竟把这么多信息藏到哪里了？

我发现在同一个文件夹下面还有名叫 WCDB_Contact.sqlite 的文件。打开之后一目了然：

猜想是因为随着中老年用户大量加入各种群聊，用户表的长度急速增长（聊天室里的陌生人可能也需要记录信息呀！），所以微信在最近的版本里选择了分表，而我刚好赶上了它转存数据的这个时间。

后面那些列都是 BLOB 格式的二进制，打开之后是这样的：

以人类的视角，我们很容易看出所有内容的含义，只要多一些耐心，都可以直接找到需要的内容。问题在于，让程序怎么分割呢？

我们来观察一下这位微信号为 suan*******cai 的朋友的信息。图片中选中了他的微信号字符串，那么微信如何知道这是需要的字符串呢？一种猜想是用分隔符，例如 C 字符串的 '\0' 结尾。但是，这字符串之后是 0x1a （或者其他很多可能性），无法与正常字符区分。另一种选择是在文件开始记录每一个变量的偏移量，但是观察其他文件发现开头部分非常短，最多 3 字节，不足以保存这样的内容。

自然只剩字符串的前一字节。0x0e，这刚好是选中字符串的长度。我们再往后看，例如有一个拼音首字母 XXK，刚好前一个字节是 0x03。后面的备注 INI-Mob，所以前一个字节是 0x07。于是这个疑问解决了。

再前面一个字节，例如第一行的 0x12，可以发现在同类每个文件的相应位置都不变。我猜想是下一个字符串的类型。

这样，这种记录的结构我们已经大致了解：

开头若干字节未知信息 --> (1 字节类型说明 --> 1(?) 字节长度 --> 字符串) 若干个

不过，在 dbContact 的上空还飘着两朵乌云：

(1) 文件开头究竟应该跳过几个字节，开始真正的内容？这好像在文件自身当中找不到线索，但在同一列当中是相同的，例如 dbContactRemark 是 0x0a，dbContactProfile 是 0x08 0x?? 0x12。问号表示可能有差别，但长度是确定的。所以相应地，可以人为让每种类型跳过若干个字节。至少我没有找到任何反例。

(2) 如果字符串长度超过一字节的表示范围，怎么办？一种合理的猜想是类似 UTF-8 或者 SQLite 的数值类型的表示法，也就是让某些高位为 1 来表示这个数字还要加上下一个字节。我暂时没有过多检验这个说法，因为唯一涉及这个问题的地方是 dbContactHeadImage 和 dbContactChatRoom。而这二者都有很明显的分隔位置，例如头像的链接总是以 http 开始，到 \/\d+ 为止。我在这里偷懒直接去匹配了。

4. 聊天文字记录

有了前面的准备，我们已经可以解析 Chat_[0-9a-f]{32} 表，并且以文本形式导出每个对话的聊天记录。怎么知道聊天的对象是谁？Chat_ 后面是 UsrName 或 alias 的 MD5 值。

首先看一下聊天记录的结构。MesLocalID 是一个比较重要的数字，虽然暂时还用不到。CreateTime 顾名思义，并且应该是 UTC+0 的。Message 就是消息本身。Type 表示消息的类型，可以自己试验一下，最后 Des 应该表示我是否为消息的接收方。

下面简单描述一下我见到过的 Type 和对应的 Message 处理：

10000: 系统消息，就是那种居中的。

34: 语音，消息里会有 <voicemsg 标签，可以读出来长度等信息。具体文件的处理下一节再讲，下同。

47: 表情，<emoji 标签里面可以找到一些信息。

62: 小视频，<videomsg。

50: 视频/语音通话，<voipinvitemsg。本来在微信里二者就可以切换，对用户解释得太细也没啥用。

3: 图片。

48: 位置。

42: 名片。

49: 链接。这里面包含的类别比较多，在 Message 里面会有 <title>、<des>、<url>、<thumburl> 等信息。微信应该是通过 <type> 标签来确定一些特殊的应用，比如 2001 是红包，2000 转账，17 实时位置共享，6 文件。（我试过把它或者后面的模板地址改成别的，好像不管用。）

对于导出文字来说，这些特殊的东西就给用户显示个“[图片]”、“[表情]”吧。

还有一个问题是群聊，特点是用户名为 \d+@chatroom。在群聊当中，每个人（除了自己）的发言前面都会有“微信号:\n”，好让我们知道对方身份。问题在于，有些人在群聊当中可以改自己显示的名字。这个信息如果在新版数据库当中，包含在 dbContactChatRoom 列。它有 <Member UserName="..."><DisplayName>... 的结构，处理起来应该不难。

5. 其他多媒体资源

为了给用户初恋般的体验，我还希望能尽量还原聊天的全部内容，这就需要加入对应的图片（头像）、语音、视频、动画表情等元素。

我们自然会想在“Documents/微信号的MD5”文件夹下面找这些内容。这时很容易发现：

(1) Img 文件夹中有一些以 MD5 命名的文件夹，它们对应数据库中的各 Chat_ 表，而具体文件是以数字编号的，这个编号等于对应消息的 MesLocalID（上面提到过）。文件有三种后缀：.pic、.pic_hd、.pic_thum，顾名思义是正常大小的图片、原图、缩略图。基本上是 JPEG 格式吧，这个影响不大。

(2) Video 文件夹类似，有 .video_thum 扩展名的缩略图，以及 .mp4 的视频本体。视频是 AVC+AAC 编码的，不过仍然不重要吧。

(3) Audio 是语音，以前是 3GP 格式，现在打开之后可以看到 SILK_V3 的字样，搜索可以直接发现编译好的转换程序。不过没有源码，也可以自行搜索其他解决方案。

然而在这个版本中，我始终没有从备份当中找到动画表情和头像这两项资源。怎么回事？

正好那段时间盘古越狱出现了，我把完整的 Documents 和 Library 文件夹复制出来，看了一遍。原来它们在 Library/WechatPrivate 里，而这个文件夹设置成了不备份。这也有道理，因为前面的几个是个人的资源，而头像和表情随时都可以再去下载，所以并不需要放在 iTunes 备份当中。

那么不越狱的情况下，我们怎么获得它们呢？记得上面提到过，在每个好友的 dbContactHeadImage 当中有正常和放大头像的地址；如果看一下含有动画表情的消息，其中也有这个表情的 GIF 地址。好的，下载就可以了。

最后，还有一件小事有点麻烦。

当前用户的微信号和头像在哪？

打开 mmsetting.archive，这是一个 plist 文件，在里面有几项是我的微信号、昵称、头像地址……

问题在于这里没有很清楚的 key-value 形式，所以只能猜测出来一些找到相应内容的方法。如果能改进一下就更好了。

6. 总结

以上描述了找到微信聊天记录涉及的文件的方法，不过讲道理它们都只能算是“有根据的推测”。因为聊天记录这件事不太方便收集测试数据，只能保证它们符合我能找到的记录。

我写了一个新的微信聊天记录导出工具放在 GitHub上，请有兴趣的读者尽情地 Fork 走修改之类的！

页面下部广告

Post Views: 303

iOS 微信的本地存储结构简析 - 猫猫得天空♂