中文

对适用于个人的电子数据备份体系的总结

对个人数据备份实操的个人见解

数据保存在电子介质上,且只能通过电子设备读写,这意味着可能需要购买额外设备以满足对其保存、处理的需要。本文在引用所有没有对应术语级定义的自创名词时,将使用大括号高亮该名词,防止读者迷惑(例:【自创名词】)。同时本文使用反引号引用上文已提到的有对应术语的名词(例:术语名词)。本文为我因愚蠢与意外,丢失了四个半月工作数据的反思总结文。本文内容仅个人见解,欢迎指点与讨论。

#数据重要性分级

数据按重要性(丢失后的损失大小)分为几个等级。

#一级

  • 数据类别:

    1. 加密密钥:
      • 用于解密被加密的大块数据,但数据丢失对应加密密钥也没用了
      • 即它与它所加密的数据(在使用上)相互依赖。
    2. TOTP(Time-based One-Time Password)的 seed:
      • 保有它本身能生成 TOTP6位数字,即它不依赖于其他(已经被输入验证器 APP 中且无法提取出的)数据。
    3. 平台账户、软件激活序列号、平台登录 Licence……统称“凭证”:
      • 等同于加密密钥,是“access 大块数据的凭证”。
      • 它对应的“加密”数据通常不由个人保存(平台服务)或易于再取得(付费软件)。
      • 即它不依赖于其“加密”的数据。
  • 信息特征:

    1. 体积小,通常很难超过10MB 甚至1MB,该特征对多副本备份要求有利,易于保存在多个存储媒介上。
    2. 价值大,该类数据的确认丢失通常伴随着不可挽回的巨大损失,欲哭无泪的那种心情。 (还好平台账户还能找回密码!)
    3. 你不想让它公开(需要加密),也不想彻底丢失它(多副本备份)。
  • 保存方式:

    • 加密保存
    • 多副本备份,包括本地存储专用设备(移动硬盘,家庭 NAS)和网盘

#二级

  • 数据类别:

    1. 个人信息:

      • 常被以“个人隐私”统称,因个人经历生成、或包含可识别特定个人的身份信息,多为文档、多媒体类型。
      • 此处只且只能关心你可以控制的部分,至于上传到外部或在外部平台上产生的,最好在源头控制它,即永远上传最无关自己现实身份的最少信息,相信我,遵守该原则不会影响正常的网络社交。
      • 属于【个人信息】的文件举例:求职简历等“个人信息汇总型文档”(求职简历真的富矿),包含本人脸部(哪怕是低分辨率的非正脸)的照片视频;与他人在网络上的交流记录(聊天记录、邮件、别人发来的内含自己信息的文档等)
      • 【个人信息】和凭证的差别在于文件体积大小和含义,凭证就像钥匙,而【个人信息】就是宝藏本身。
    2. 其他因人而异的想保密的信息:

      • 比如虽然和狭义上的【个人信息】无关,但仍包含在广义的“个人隐私”中的部分(比如与个人兴趣相关的数据)。
      • 所有你不想让它公开或泄露的数据(不管它是否不宜公开,你有天然的权利使它保密,至少是权力)。
  • 信息特征:

    1. 体积不定且随年龄增大(经历增多)而增大,视个体兴趣性格职业差异, 体积多数可控制在500G之内(爱拍照摄影的时尚达人们可能仍不满足这个已经被高估的容量)。

    2. 价值不定,但对你来说这些是重要的,这就足够作为执行备份的理由了。 (对你有兴趣的坏东西和好朋友通常也对这些信息感兴趣。)

  • 保存方式:

    • 加密保存(加密所用密钥可保存在【一级数据】中)
    • 至少一份完整的本地备份,和可选的网盘备份

#三级

  • 数据类别:

    1. 在电子设备使用过程中积累在硬盘中的一般数据,包括程序和操作记录、文档等。加密与否无关紧要,但一般来说不会想丢失它。
  • 信息特征:

    1. 体积非常大,但只需要购买容量适合自己需求(包括未来几年的潜在需求)的额外存储设备。
    2. 价值较小,但值得花费钱和精力加一道保险。
  • 保存方式:

    • 至少一份完整的本地备份
    • 还要考虑定期将仅仅是存储在硬盘中但不常用的大文件转移到存储专用设备中

#其他与加密和备份相关的个人见解

#加密

来推荐工具吧!我已使用好几年且现在仍然在使用VeraCrypt作为所有加密相关操作的工具软件,开源、多平台且功能完备,而且曾经停滞过几年的它现在又活跃起来了!还有什么比一个长久又仍在活跃的开源软件项目更棒的呢。VeraCrypt 既可以加密整个 Driver,又可以建立一个强加密的“文件型 Driver”,解密挂载时是一个可存取文件的盘,卸载后就是一个 Portable 的文件。Portable=可以当作普通单一文件进行备份处理,完美。有个非程序小缺陷,直接从官网下载时非常慢,50kb/s(35M total),且只能单线程请求数据。别担心,我们还有sourceforge 的分流。(注意!不要被 VeraCrypt 的文件 Driver 功能迷惑了眼睛,我就是因为不读文档没做备份鲁莽试用 Bitlocker 时,将备份密钥存入文件 Driver,忘记了该文件本身储存在设置了 Bitlocker 的 Driver 中,迷惑操作。)

对于 Windows 专业版用户来说,Microsoft Windows BitLocker也是一个趁手的工具,作为商业级软件,它使用方便,且有微软的持续质量支持。但它只能加密 Driver,因此与备份操作结合时不太方便。使用 BitLocker 软件加密的 Driver,在备份前需要手动解密,或设置开机(登录)后自动解密,这样备份操作才不会因读取 Driver 失败而失败。作为副作用,这会让加密文件在备份过程中暴露在可被读取的未加密状态下,因此对备份时环境的安全性(断网关服务)要求严格些。

不好意思,我对 Mac 和 Linux 的常用软件集合了解不多,无法介绍对应其上的平台独有软件,VeraCrypt 是多平台的,或许你可以先试试它。

特别的,对【一级数据】而言,加密保存指使用另外一个人类可读的密钥(俗语:密码)加密存有【一级数据】的独立的 Driver(或其他可独立转移的“数据集合结构”)。这要求你至少记住这么一个“主密钥”,“主密钥”用来解密出其他密钥。我使用 VeraCrypt 提供的文件 Driver 保存此类信息,该方法很原始,但我固执认为它“更安全”。市面上还有许多诸如1Password等直接提供此类信息加密与备份服务的软件,甚至连 Firefox,Chrome 等现代浏览器中就内置了网站密码管理服务,或者你可以买一个U盘大小的硬件(比如 Yubikey)随身携带。稍加尝试就能找到合你口味的。

#备份

考虑备份要首先识别需要被备份的数据主体,可以认为一个主体是一个包含多个同类文件的,可独立转移的集合。举例,对于我来说,有一个【一级数据】,两个【二级数据】(个人保密文档和工作保密文档),五个【三级数据】(家里台式机,家里笔记本,工作笔记本,手机,平板电脑)(手机和平板电脑是独特的,它们实际上是备份在电脑硬盘的【三级数据】部分中,它们本身属于一二三级混合,我的方案是将它们的备份加密(作为【二级数据】处理),但随电脑的【三级数据】备份。)

#备份位置?

因为数据保存在电子介质上,是基于物理存在的存储设备的,因此对于备份位置的选择,我没有考虑过同存储位置内的冗余备份,而是做到硬件级隔离,先不管地理位置(在抽屉里的移动硬盘还是地上的 NAS 还是网盘服务的主机集群中),至少是硬盘级别的隔离。

我本人讨厌网络存储服务且没有多设备大量转移数据的需求(主观+客观原因),因此没有使用客观来讲确实经济实惠又方便的网盘服务。我也没有设置家庭 NAS,只是购买了两块大容量移动硬盘,定期把【二级数据】和【三级数据】备份在两块硬盘上,一块在公司柜子里,一块在家里,四舍五入也算异地容灾了,容个火灾和人祸。至于【一级数据】,保存在家里台式机、家里笔记本电脑、两块移动硬盘、公司笔记本电脑,共五个备份。

经过这次意外后我决定将【一级数据】和【二级数据】额外上传到 Microsoft OneDrive 上, 反正加密了,备份数量多多益善,而且大小不是很大,能快速完成备份。

PS:【一级数据】最好存在于每个【二级数据】所在的备份位置中,因为两者相互依赖,可以理解为钥匙配得比宝箱数量多,钥匙放在每一个宝箱旁,还有“主密钥”做为钥匙的保护机制。(像我这种使用独立加解密软件的人,还需要额外将加解密软件的免安装便携版与【一级数据】和【二级数据】放在一起。

#备份频率?

这是我本次经历的人祸所暴露出的备份体系中的最大问题备份不够频繁,准确的说是对于公司笔记本电脑备份不频繁。我决定将之后的备份频率设置到:

  • 家中和公司的本地移动硬盘上每周备份一次(顺便备份手机与平板电脑)。
  • 家中和公司的两个移动硬盘每月交叉形成两份完整备份。
  • 【一级数据】和【二级数据】在电脑上设置自动网盘上传,每次更改过后就上传。

#备份间的(自动化)同步问题

这个问题又要体现网盘的优势了,经过体验,OneDrive 在 Windows 上可以做到实时备份,可以使用该特性保证联网存储设备上备份间的一致性。如果不想使用网盘服务,也可自建家庭 NAS,只要是能保证储存设备间相互联网,总能有现成的解决方案建立起自动化的数据同步系统。比如 Windows10系统自带的"备份"功能,可做到目录级粒度最短每10分钟同步一次。但是无法联网的设备,比如我那两块移动硬盘,我把它看作商业级方案中的“磁带仓库”——容量大且便宜,保存介质稳定,但无法通过网络读写。只能通过手动操作的方式对其进行备份更新,但最多也只是按时把它拿出来插在电脑,剩下的应交给只需手动配置一次的电脑上的软件级备份工具。

#后记

本来作者的备份频率是一个月一次,在家里有好好遵守设定好的 TODO 为设备备份,但公司的电脑因为嫌沉发懒,一直没带回家,加之上班就是工作下班就是回家,这几个月都没在公司专门为工作笔记本备过份。更灵异的是,在出事前的昨天晚上,作者看视频时脑中突然蹦出“好像工作笔记本好久没备过份了”,随即被视频的精彩打消了顾虑,或许是冥冥中注定一劫让我清醒过来吧。还是要感谢这次意外的,因为虚假的安全比不设保险更危险。另外一个基于 SRE 理论的感悟是,重要操作前先备份,但别忘了无法做到先备份则应停止继续重要操作,Process fall in safe

updatedupdated2023-08-082023-08-08