第 10 章 数据管理

目录

10.1. 共享,拷贝和存档
10.1.1. 存档和压缩工具
10.1.2. 复制和同步工具
10.1.3. 归档语法
10.1.4. 复制语法
10.1.5. 查找文件的语法
10.1.6. 归档媒体
10.1.7. 可移动存储设备
10.1.8. 选择用于分享数据的文件系统
10.1.9. 网络上的数据分享
10.2. 备份和恢复
10.2.1. 备份和恢复策略
10.2.2. 实用备份套件
10.2.3. 个人备份
10.3. 数据安全基础
10.3.1. GnuPG 密钥管理
10.3.2. 在文件上使用 GnuPG
10.3.3. 在 Mutt 中使用 GnuPG
10.3.4. 在 Vim 中使用 GnuPG
10.3.5. MD5 校验和
10.3.6. 密码密钥环
10.4. 源代码合并工具
10.4.1. 从源代码文件导出差异
10.4.2. 源代码文件移植更新
10.4.3. 交互式移植
10.5. Git
10.5.1. 配置 Git 客户端
10.5.2. 基本的 Git 命令
10.5.3. Git 技巧
10.5.4. Git 参考
10.5.5. 其它的版本控制系统

以下是关于在 Debian 系统上管理二进制和文本数据的工具及其相关提示。

[警告] 警告

为避免 竞争情况,不应当对正在进行写操作的设备和文件,多个进程进行不协调的写操作。采用flock(1) 的 文件锁定 机制可用于避免这种情况。

数据的安全和它的受控共享有如下几个方面。

  • 存档文件的建立

  • 远程存储访问

  • 复制

  • 跟踪修改历史

  • 促进数据共享

  • 防止未经授权的文件访问

  • 检测未经授权的文件修改

这些可以通过使用工具集来实现。

  • 存档和压缩工具

  • 复制和同步工具

  • 网络文件系统

  • 移动存储媒介

  • 安全 shell

  • 认证体系

  • 版本控制系统工具

  • 哈希算法和加密工具

以下是 Debian 系统上可用的存档和压缩工具的预览。

表 10.1. 存档和压缩工具列表

软件包 流行度 大小 扩展名 命令 描述
tar V:907, I:999 3152 .tar tar(1) 标准的归档工具(默认)
cpio V:383, I:998 1140 .cpio cpio(1) Unix System V 风格的归档器,与 find(1) 一起使用
binutils V:148, I:652 99 .ar ar(1) 创建静态库的归档工具
fastjar V:2, I:22 183 .jar fastjar(1) Java 归档工具(类似 zip)
pax V:11, I:20 170 .pax pax(1) 新的 POSIX 归档工具,介于 tarcpio 之间
gzip V:878, I:999 242 .gz gzip(1), zcat(1), … GNU LZ77 压缩工具(默认)
bzip2 V:161, I:973 120 .bz2 bzip2(1), bzcat(1), … Burrows-Wheeler block-sorting 压缩工具有着比 gzip(1) 更高的压缩率 (跟 gzip 有着相似的语法但速度比它慢)
lzma V:2, I:23 149 .lzma lzma(1) LZMA 压缩工具有着比 gzip(1) 更高的压缩率(不推荐)
xz-utils V:436, I:980 612 .xz xz(1), xzdec(1), … XZ 压缩工具有着比 bzip2(1) 更高的压缩率(压缩速度慢于 gzip 但是比 bzip2 快; LZMA 压缩工具的替代品)
zstd V:7, I:34 1898 .zstd zstd(1), zstdcat(1), … Zstandard 快速无损压缩工具
p7zip V:83, I:468 987 .7z 7zr(1), p7zip(1) 有着更高压缩率的 7-zip 文件归档器(LZMA 压缩)
p7zip-full V:116, I:478 4664 .7z 7z(1), 7za(1) 有着更高压缩率的 7-Zip 文件归档器(LZMA 压缩和其他)
lzop V:14, I:120 164 .lzo lzop(1) LZO 压缩工具有着比 gzip(1) 更高的压缩和解压缩速度 (跟 gzip 有着相似的语法但压缩率比它低)
zip V:49, I:414 623 .zip zip(1) InfoZip:DOS 归档器和压缩工具
unzip V:142, I:788 385 .zip unzip(1) InfoZIP:DOS 解档器和解压缩工具

[警告] 警告

除非你知道将会发生什么,否则不要设置 "$TAPE" 变量。它会改变 tar(1) 的行为。

  • gzipped tar(1) 归档器用于扩展名是 ".tgz" 或者 ".tar.gz" 的文件。

  • xz-compressed tar(1) 归档器用于扩展名是 ".txz" 或者 ".tar.xz" 的文件。

  • FOSS 工具,例如 tar(1),中的主流压缩方法已经按如下所示的迁移: gzipbzip2xz

  • cp(1),scp(1) 和 tar(1) 工具可能并不适用于一些特殊的文件。cpio(1) 工具的适用范围是最广的。

  • cpio(1) 是被设计为与 find(1) 和其它命令一起使用,适合于创建备份脚本的场景,因此,脚本的文件选择部分能够被独立测试。

  • Libreoffice 数据文件的内部结构是 ".jar" 文件,它也可以使用 unzip 工具来打开。

  • 事实上跨平台支持最好的存档工具是 zip。按照“zip -rX”的方式调用可以获得最大的兼容性。如果最大文件大小需要纳入考虑范围,请同时配合“-s”选项使用。

如下是用不同的工具复制整个 "./source" 目录中的内容。

  • 本地复制: "./source" 目录 → "/dest" 目录

  • 远程复制:本地主机上的 "./source" 目录 → "user@host.dom" 主机上的 "/dest" 目录

rsync(8):

# cd ./source; rsync -aHAXSv . /dest
# cd ./source; rsync -aHAXSv . user@host.dom:/dest

你能够选择使用“源目录上的反斜杠”语法。

# rsync -aHAXSv ./source/ /dest
# rsync -aHAXSv ./source/ user@host.dom:/dest

或者,如下所示。

# cd ./source; find . -print0 | rsync -aHAXSv0 --files-from=- . /dest
# cd ./source; find . -print0 | rsync -aHAXSv0 --files-from=- . user@host.dom:/dest

GNU cp(1) 和 openSSH scp(1):

# cd ./source; cp -a . /dest
# cd ./source; scp -pr . user@host.dom:/dest

GNU tar(1):

# (cd ./source && tar cf - . ) | (cd /dest && tar xvfp - )
# (cd ./source && tar cf - . ) | ssh user@host.dom '(cd /dest && tar xvfp - )'

cpio(1):

# cd ./source; find . -print0 | cpio -pvdm --null --sparse /dest

你能够在所有包含 "." 的例子里用 "foo" 替代 ".",这样就可以从 "./source/foo" 目录复制文件到 "/dest/foo" 目录。

在所有包含 "." 的列子里,你能够使用绝对路径 "/path/to/source/foo" 来代替 ".",这样可以去掉 "cd ./source;". 如下所示,这些文件会根据工具的不同,拷贝到不同的位置。

  • "/dest/foo": rsync(8), GNU cp(1), 和 scp(1)

  • "/dest/path/to/source/foo": GNU tar(1), 和 cpio(1)

[提示] 提示

rsync(8) 和 GNU cp(1) 可以用 "-u" 选项来忽略接受端上更新的文件。

find(1) 被用作从归档中筛选文件也被用作拷贝命令 (参见第 10.1.3 节 “归档语法”第 10.1.4 节 “复制语法”) 或者用于 xargs(1) (参见第 9.4.9 节 “使用文件循环来重复一个命令”)。通过 find 的命令行参数能够使其功能得到加强。

以下是 find(1)基本语法的总结。

  • find 条件参数的运算规则是从左到右。

  • 一旦输出是确定的,那么运算就会停止。

  • “逻辑 OR" (由条件之间的 "-o" 参数指定的)优先级低于 "逻辑 AND" (由 "-a" 参数指定或者条件之间没有任何参数)。

  • ”逻辑 NOT" (由条件前面的 "!" 指定) 优先级高于 “逻辑 AND”。

  • "-prune" 总是返回逻辑 TRUE 并且如果这个目录是存在的,将会搜索除这个目录以外的文件。

  • "-name" 选项匹配带有 shell 通配符 (参见第 1.5.6 节 “Shell 通配符”) 的文件名但也匹配带有类似 "*" 和 "?" 元字符的 ."。(新的 POSIX 特性)

  • "-regex" 匹配整个文件路径,默认采用 emacs 风格的 BRE (参见第 1.6.2 节 “正则表达式”)。

  • "-size" 根据文件大小来匹配 (值前面带有 "+" 号匹配更大的文件,值前面带有 "-" 号匹配更小的文件)

  • "-newer" 参数匹配比参数名中指定的文件还要新的文件。

  • "-print0" 参数总是返回逻辑 TRUE 并将完整文件名 (null terminated) 打印到标准输出设备上。

如下是 find(1) 语法格式。

# find /path/to \
    -xdev -regextype posix-extended \
    -type f -regex ".*\.cpio|.*~" -prune -o \
    -type d -regex ".*/\.git" -prune -o \
    -type f -size +99M -prune -o \
    -type f -newer /path/to/timestamp -print0

这些命令会执行如下动作。

  1. 查找 "/path/to" 下的所有文件

  2. 限定全局查找的文件系统并且使用的是 ERE (参见第 1.6.2 节 “正则表达式”)

  3. 通过停止处理的方式来排除匹配 ".*\.cpio" 或 ".*~" 正则表达式的文件

  4. 通过停止处理的方式来排除匹配 ".*/\.git" 正则表达式的目录

  5. 通过停止处理的方式来排除比 99MB (1048576字节单元) 更大的文件

  6. 显示文件名,满足以上搜索条件并且比 "/path/to/timestamp" 新的文件

请留心以上例子中的 "-prune -o" 排除文件的习惯用法。

[注意] 注意

对于非 Debian 系的 Unix-like 系统,有些参数可能不被 find(1) 命令所支持。在这种情况下,应该考虑调整匹配方法并用 "-print" 替代 "-print0"。你可能同样需要更改其他相关的命令。

为重要的数据存档寻找 存储设备 时,你应该注意它们的局限性。对于小型的个人数据备份,我使用品牌公司的 CD-R 和 DVD-R 然后把它放在阴凉、干燥、清洁的地方。(专业的一般使用磁带存档介质)

[注意] 注意

防火安全是对于纸质文档来说的,大多数的计算机数据存储媒介耐热性比纸差。我经常依赖存储在多个安全地点的加密拷贝。

网上(主要是来源于供应商信息)可以查看存储介质的最大使用寿命。

  • 大于100年:用墨水的无酸纸

  • 100年:光盘存储(CD/DVD,CD/DVD-R)

  • 30年:磁带存储(磁带,软盘)

  • 20年:相变光盘存储(CD-RW)

这不包括由于人为导致的机械故障等等。

网上(主要来源于供应商信息)可以查看存储介质的最大的写次数。

  • 大于250,000次:硬盘驱动器

  • 大于10,000次:闪存

  • 1,000次:CD/DVD-RW

  • 1次:CD/DVD-R,纸

[小心] 小心

这里的存储寿命和写次数的数据不应该被用来决定任何用于关键数据的存储媒介,请翻阅制造商提供的特定产品的说明。

[提示] 提示

因为 CD/DVD-R 和 纸只能写一次,它们从根本上阻止了因为重写导致的数据意外丢失。这是优点!

[提示] 提示

如果你需要更快更频繁的进行大数据备份,那么通过高速网络连接的远端主机上的硬盘来实现备份,可能是唯一可行的方法。

[提示] 提示

如果你在使用一个可重复写入的介质作为你的备份介质,使用支持只读快照的 btrfszfs 文件系统,也许是一个好注意。

可移动存储设备可能是以下的任何一种。

它们可以通过以下的方式来进行连接。

像 GNOME 和 KDE 这样的现代桌面环境能够在 "/etc/fstab" 文件中没有匹配条目的时候,自动挂载这些可移动设备。

  • udisks2 包提供了守护进程和相关的实用程序来挂载和卸载这些设备。

  • D-bus 创建事件来触发自动处理。

  • PolicyKit 提供了所需的特权。

[提示] 提示

umount(8) 在自动挂载设备的时候可能会带有 "uhelper=" 参数。

[提示] 提示

只有当这些可移动设备没有在 "/etc/fstab" 文件中列出时,桌面环境下才会自动挂载。

现代桌面环境下的挂载点被选为 "/media/username/disk_label",它可以被如下所示的来定制。

  • FAT 格式的文件系统使用 mlabel(1) 命令

  • ISO9660 文件系统使用带有 "-V" 选项的 genisoimage(1) 命令

  • ext2/ext3/ext4 文件系统使用带有 "-L" 选项的 tune2fs(1) 命令

[提示] 提示

挂载时可能需要提供编码选项(参见 第 8.1.3 节 “文件名编码”)。

[提示] 提示

在图形界面菜单上移除文件系统,可能会移除它的动态设备节点例如 "/dev/sdc"。如果你想要保留它的设备节点,你应该在命令行提示符上输入 umount(8) 命令来卸载它。

当你通过可移动存储设备与其他系统分享数据的时候,你应该先把它格式化为被两种操作系统都支持的通用的 文件系统。下面是文件系统的列表。


[提示] 提示

查看第 9.9.1 节 “使用 dm-crypt/LUKS 加密移动磁盘”来获得关于使用设备级加密的跨平台的数据共享的信息。

FAT 文件系统被绝大多数的现代操作系统支持,它对于通过可移动硬盘进行的数据交换是非常有用的。

当格式化像装有 FAT 文件系统的跨平台数据共享的可移动设备时,以下应该是保险的选择。

当使用 FAT 或 ISO9660 文件系统分享数据时,如下是需要注意的安全事项。

  • tar(1),或cpio(1)命令压缩文件,目地是为了保留文件名,符号链接,原始的文件权限和文件所有者信息。

  • split(1) 命令把压缩文件分解成若干小于 2GiB的小文件,使其免受文件大小限制。

  • 加密压缩文件保护其内容免受未经授权的访问。

[注意] 注意

因为 FAT 文件系统的设计,最大的文件大小为 (2^32 - 1) bytes = (4GiB -1 byte)。对于一些老旧的 32 位系统上的应用程序而言,最大的文件大小甚至更小(2^31 -1) bytes = (2GiB -1 byte)。Debian 没有遇到后者的问题。

[注意] 注意

微软系统本身并不建议在超过 200MB 的分区或者驱动器上使用 FAT。他们的 " Overview of FAT, HPFS, and NTFS File Systems 这篇文章突出显示了微软系统的缺点,例如低效的磁盘空间利用。当然了,我们在 Linux 系统上还是应该使用 ext4 文件系统。

[提示] 提示

有关文件系统和访问文件系统的更多信息,请参考 "Filesystems HOWTO"。

我们都熟知计算机有时会出问题,或者由于人为的错误导致系统和数据损坏。备份和恢复操作是成功的系统管理中非常重要的一部分。可能有一天你的电脑就会出问题。

[提示] 提示

保持你的备份系统简洁并且经常备份你的系统,有备份数据比你采用的备份方法的技术先进要重要的多。

有3个关键的因素决定实际的备份和恢复策略。

  1. 知道要备份和恢复什么。

  2. 知道怎样去备份和恢复。

    • 安全的数据存储:保护其免于覆盖和系统故障

    • 经常备份:有计划的备份

    • 冗余备份:数据镜像

    • 傻瓜式操作:单个简单命令备份

  3. 评估涉及的风险和成本。

    • 数据丢失的风险

      • 数据至少是应该在不同的磁盘分区上,最好是在不同的磁盘和机器上,来承受文件系统发生的损坏。重要数据最好存储在一个只读文件系统上。[4]

    • 数据非法访问的风险

      • 敏感的身份数据,比如 "/etc/ssh/ssh_host_*_key", "~/.gnupg/*", "~/.ssh/*", "~/.local/share/keyrings/*", "/etc/passwd", "/etc/shadow", "popularity-contest.conf", "/etc/ppp/pap-secrets", and "/etc/exim4/passwd.client" 应当使用加密备份。[5] (参见 第 9.9 节 “数据加密提示”。)

      • 即使在信任的系统上,也不能够硬编码系统登录密码或者加密密码到任何脚本里面。(参见 第 10.3.6 节 “密码密钥环”。)

    • 数据丢失的方式及其可能性

      • 硬件(特别是硬盘)将会损坏

      • 文件系统可能会损坏,里面的数据可能被丢失

      • 对违规安全访问而言,远程存储系统不能够被信任

      • 弱的密码保护能够被轻松的破解

      • 文件权限系统可以被破解

    • 备份所需的资源:人力,硬件,软件,…

      • 使用 cron 任务或者 systemd 计时器任务来自动化调度备份工作

[注意] 注意

除非你知道自己做的是什么,否则不要备份 /proc, /sys, /tmp, 和 /run 目录下的伪文件系统(参见 第 1.2.12 节 “procfs 和 sysfs”第 1.2.13 节 “tmpfs”)。它们是庞大且无用的数据。

[注意] 注意

当备份数据的时候,你可能希望停止一些应用程序的守护进程例如 MTA(参见第 6.2.4 节 “邮件传输代理 (MTA)”)。

以下是 Debian 系统上值得注意的实用备份程序套件的列表。

表 10.5. 实用备份程序套件列表

软件包 流行度 大小 说明
dump V:1, I:5 351 4.4 BSD dump(8) 和 restore(8) 命令用于 ext2/ext3/ext4 文件系统
xfsdump V:0, I:8 865 在 GNU/Linux 和 IRIX 上用 xfsdump(8) 和 xfsrestore(8) 命令来备份和恢复 XFS 文件系统
backupninja V:3, I:4 367 轻量的可扩展的 meta-backup 系统
bacula-common V:10, I:13 2158 Bacula: 网络数据备份,恢复和核查-常见的支持文件
bacula-client I:3 183 Bacula: 网络数据备份,恢复和核查-客户端元软件包
bacula-console V:1, I:4 107 Bacula: 网络数据备份,恢复和核查-文本终端
bacula-server I:1 183 Bacula: 网络数据备份,恢复和核查-服务器端元软件包
amanda-common V:0, I:2 10090 Amanda: 马里兰大学开发的高级自动化网络磁盘归档器(库)
amanda-client V:0, I:2 1149 Amanda: 马里兰大学开发的高级自动化网络磁盘归档器(客户端)
amanda-server V:0, I:0 1117 Amanda: 马里兰大学开发的高级自动化网络磁盘归档器(服务器端)
backup-manager V:0, I:1 571 命令行备份工具
backup2l V:0, I:1 115 用于可挂载媒介 (基于磁盘的) 的低维护的备份/恢复工具
backuppc V:2, I:3 3184 BackupPC 是用于备份 PC 机数据(基于磁盘)的高性能的企业级工具
duplicity V:15, I:36 1867 (远程) 增量备份
flexbackup V:0, I:0 243 (远程) 增量备份
rdiff-backup V:5, I:13 769 (远程) 增量备份
restic V:2, I:4 21080 (远程) 增量备份
slbackup V:0, I:0 151 (远程) 增量备份

备份工具有各自的专用的用途。

  • Mondo Rescue 是一个备份系统,它能够方便的从备份 CD/DVD 等设备中快速恢复整个系统,而不需要经过常规的系统安装过程。

  • BaculaAmandaBackupPC 是全功能的备份实用套件,主要用于联网的定期备份。

  • 定期备份用户数据,可以通过一个简单的脚本实现 (第 10.2.3 节 “个人备份”)。

第 10.1.1 节 “存档和压缩工具”第 10.1.2 节 “复制和同步工具” 描述的基础工具能够通过自定义脚本来帮助系统备份。这些脚本的功能可以通过如下的工具来增强。

  • restic 软件包能够增量备份(远程)。

  • rdiff-backup 软件包能够增量备份(远程)。

  • dump 软件包用于高效增量的归档和恢复整个文件系统。

[提示] 提示

参见 "/usr/share/doc/dump/" 和 "Is dump really deprecated?" 来了解 dump 程序。

对于运行 testing 套件的个人 Debian 桌面系统来说,只需要保护个人数据和关键数据。我不管怎样每年都会重新安装一次系统。因此没理由去备份整个系统或者安装全功能的备份实用程序。

与此同时,有一定频率的最近的个人数据和系统配置快照的备份,加上偶尔个人数据的全备份,是非常有价值的。

我经常使用一个简单的 shell 脚本 bss 来制作这些快照和备份。这个脚本是一个短小的 shell,使用标准工具:btrfs 子卷快照rsync。对于加密的数据,磁盘镜像由 fallocate(1) 创建并由 cryptsetup(8) 配置。

[提示] 提示

你能够用 "debconf-set-selections debconf-selections" 命令恢复 debconf 配置数据,可以用 "dpkg --set-selection <dpkg-selections.list" 命令恢复 dpkg 筛选数据。

数据安全基础设施是数据加密,讯息摘要和签名工具的结合。


参见 第 9.9 节 “数据加密提示”dm-cryptfscrypt,它们通过 Linux 内核模块实现了自动数据加密架构。

如下是 GNU 隐私卫士 基本的密钥管理命令。


信任码含义.


如下命令上传我的 "1DD8D791" 公钥到主流的公钥服务器 "hkp://keys.gnupg.net"。

$ gpg --keyserver hkp://keys.gnupg.net --send-keys 1DD8D791

默认良好的公钥服务器在 "~/.gnupg/gpg.conf" (旧的位置在 "~/.gnupg/options")文件中设置,此文件包含了以下信息。

keyserver hkp://keys.gnupg.net

从钥匙服务器获取无名钥匙。

$ gpg --list-sigs --with-colons | grep '^sig.*\[User ID not found\]' |\
  cut -d ':' -f 5| sort | uniq | xargs gpg --recv-keys

有一个错误在 OpenPGP 公钥服务器 (先前的版本 0.9.6),会将键中断为 2 个以上的子键。新的 gnupg (>1.2.1-2) 软件包能够处理这些中断的子键。参见 gpg(1) 下的 "--repair-pks-subkey-bug" 选项.

md5sum(1) 提供了制作摘要文件的一个工具,它使用 rfc1321 里的方式制作摘要文件.

$ md5sum foo bar >baz.md5
$ cat baz.md5
d3b07384d113edec49eaa6238ad5ff00  foo
c157a79031e1c40f85931829bc5fc552  bar
$ md5sum -c baz.md5
foo: OK
bar: OK
[注意] 注意

MD5 校验和的 CPU 计算强度是比 GNU Privacy Guard (GnuPG) 加密签名要少的.在通常情况下,只有顶级的摘要文件才需要加密签名来确保数据完整性.

这里有许多源代码合并工具。如下的是我感兴趣的工具。

表 10.10. 源代码合并工具列表

软件包 流行度 大小 命令 说明
patch V:73, I:711 248 patch(1) 给原文件打补丁
vim V:100, I:394 3546 vimdiff(1) 在 vim 中并排比较两个文件
imediff V:0, I:0 169 imediff(1) 全屏交互式两路/三路合并工具
meld V:14, I:37 3086 meld(1) 比较和移植文件(GTK)
wiggle V:0, I:0 174 wiggle(1) 应用被拒绝的补丁
diffutils V:871, I:994 1598 diff(1) 逐行比较两个文件
diffutils V:871, I:994 1598 diff3(1) 逐行比较和合并三个文件
quilt V:3, I:29 788 quilt(1) 管理系列补丁
wdiff V:9, I:64 644 wdiff(1) 在文本文件中,显示单词的不同
diffstat V:15, I:139 81 diffstat(1) 通过 diff 生成一个改变柱状图
patchutils V:18, I:136 232 combinediff(1) 从两个增量补丁创建一个积累补丁
patchutils V:18, I:136 232 dehtmldiff(1) 从一个 HTML 页面提取出一个 diff
patchutils V:18, I:136 232 filterdiff(1) 从一个 diff 文件里面提取或者排除 diff 文件
patchutils V:18, I:136 232 fixcvsdiff(1) 修复由 CVS patch(1) 错误创建的 diff 文件
patchutils V:18, I:136 232 flipdiff(1) 交换两个补丁的顺序
patchutils V:18, I:136 232 grepdiff(1) 显示哪些文件是由匹配正则表达式的补丁修改
patchutils V:18, I:136 232 interdiff(1) 显示在两个统一格式 diff 文件(基于同一个文件的两个不同 diff 文件)之间的差异
patchutils V:18, I:136 232 lsdiff(1) 显示哪些文件由补丁修改
patchutils V:18, I:136 232 recountdiff(1) 重新计算通用内容 diff 文件的数量和偏移
patchutils V:18, I:136 232 rediff(1) 修复手工编辑 diff 文件的数量和偏移
patchutils V:18, I:136 232 splitdiff(1) 隔离出增量补丁
patchutils V:18, I:136 232 unwrapdiff(1) 识别已经被分词的补丁
dirdiff V:0, I:2 166 dirdiff(1) 显示目录树之间的不同并移植改变
docdiff V:0, I:0 555 docdiff(1) 逐词逐字地比较两个文件
makepatch V:0, I:0 100 makepatch(1) 生成扩展补丁文件
makepatch V:0, I:0 100 applypatch(1) 应用扩展补丁文件

Git 是这些天选择的用于 版本控制系统 version control system (VCS) 的工具,因为 Git 能够同时在本地和远程源代码管理上,做任何事情。

通过 Debian Salsa 服务,Debian 能够提供免费的 Git 服务。在 https://wiki.debian.org/Salsa 能找到它的说明文档。

下面是一些 Git 相关软件包。


Git 操作涉及几个数据。

  • 工作树目录保持面向用户的文件,你可以对它们做出改变。

    • 需要被记录的改变,必须明确的被选择并暂存到索引。这是 git addgit rm 命令。

  • 索引保持暂存文件。

    • 在接下来的请求之前,暂存文件将被提交到本地仓库。这个是 git commit 命令。

  • 本地仓库保持已经提交的的文件。

    • Git 记录提交数据的链接历史并在仓库里面将它们作为分支组织。

    • 本地仓库通过 git push 命令发送数据到远程仓库。

    • 本地仓库能够通过 git fetchgit pull 命令从远程仓库接收数据。

      • git pull 命令在 git fetch 后执行 git mergegit rebase 命令。

      • 这里,git merge 联合两个独立分支的历史结尾到一个点。(在没有定制的 git pull ,这个是默认的,同时对上游作者发布分支到许多人时,也是好的 )

      • 这里,git rebase 创建一个远程分支的序列历史的单个分支,跟着本地分支。(这是定制 pull.rebase true 的情况,对我们其余的用途有用。)

  • 远程仓库保持已经提交的文件。

    • 到远程仓库的通信,使用安全的通信协议,比如 SSH 或 HTTPS。

工作树是在 .git/ 目录之外的文件。在 .git/ 目录里面的文件,包括索引、本地仓库数据和一些 git 配置的文本文件。

这里是主要的 Git 命令概览。


下面是一些 Git 技巧。

表 10.13. Git 技巧

Git 命令行 功能
gitk --all 参看完整的 Git 历史和操作,比如重置 HEAD 到另外一个提交、挑选补丁、创建标签和分支……
git stash 得到一个干净的工作树,不会丢失数据
git remote -v 检查远程设置
git branch -vv 检查分支设置
git status 显示工作树状态
git config -l 列出 git 设置
git reset --hard HEAD; git clean -x -d -f 反转所有工作树的改变并完全清理它们
git rm --cached filename 反转由 git add filename 改变的暂存索引
git reflog 获取参考日志(对从删除的分支中恢复提交有用)
git branch new_branch_name HEAD@{6} 从 reflog 信息创建一个新的分支
git remote add new_remote URL 增加一个由 URL 指向的远程仓库 new_remote
git remote rename origin upstream 远程仓库的名字从 origin 重命名到 upstream
git branch -u upstream/branch_name 设置远程跟踪到远程仓库 upstream 和它的分支名 branch_name
git remote set-url origin https://foo/bar.git 改变 origin 的 URL
git remote set-url --push upstream DISABLED 禁止推送到 upstream(编辑 .git/config 来重新启用)
git checkout -b topic_branch ; git push -u topic_branch origin 制作一个新的 topic_branch 并把它推送到 origin
git branch -m oldname newname 本地分支改名
git push -d origin branch_to_be_removed 删除远程分支(新的方式)
git push origin :branch_to_be_removed 删除远程分支(老的方式)
git checkout --orphan unconnected 创建一个新的 unconnected 分支
git fetch upstream foo:upstream-foo 创建本地(可能是孤立的)upstream-foo 分支,作为upstream 仓库 foo 分支的一个拷贝
git rebase -i origin/main origin/main 重新排序、删除、压缩提交到一个干净的分支历史
git reset HEAD^; git commit --amend 压缩最后两个提交为一个
git checkout topic_branch ; git merge --squash topic_branch 压缩整个 topic_branch 到一个提交
git fetch --unshallow --update-head-ok origin '+refs/heads/*:refs/heads/*' 反转一个浅克隆到一个所有分支的完整克隆
git ime 分开最后的提交到一系列单个逐一文件的小提交。(要求 imediff
git repack -a -d; git prune 本地仓库重新打包到一个单独的包中(这可能限制从删除分支里面恢复丢失数据等机会)

[警告] 警告

不要使用带空格的标签字符串。即使一些工具,如 gitk(1) 允许你使用它,但会阻碍其它 git 命令。

[小心] 小心

如果一个本地分支推送到一个已经变基或者压缩过的仓库,推送这样的分支有风险,并要求 --force 选项。这通常对 main 分支来说不可接受,但对于一个移植到 main 分支前的特定分支,是可以接受的。

[小心] 小心

从命令行通过 "git-xyz" 直接调用 git 子命令的方式,从 2006 年早期开始就被取消。

[提示] 提示

如果有一个可执行文件 git-foo 在路径环境变量 $PATH 里面,在命令行输入没有中划线的 "git foo",则将调用 git-foo.这是 git 命令的一个特性。

参见下面内容。



[4] 一个只能写一次的媒介,例如 CD/DVD-R, 能防止覆盖事故。(参见 第 9.8 节 “二进制数据” 怎样在 shell 命令行写入存储媒介。GNOME 桌面图形环境可以让你轻松的通过菜单:“位置 → CD/DVD 刻录”来实现写入操作。)

[5] 这些数据中的一些,不能够通过在系统里面输入同样的字符串来重新生成。

[6] 如果你使用 "~/.vimrc" 代替 "~/.vim/vimrc",请进行相应的取代。