@
046569 #17
6/7 、举一个我认为很典型、很能体现模型基本能力的例子:
我前段时间在一个 Ceph 集群的 MDS 完全无法正常工作的情况下,研究 CephFS 存在 metadata 池中的文件元数据。由于 Ceph 是完全自定义的数据结构,从池中导出来的内容中几乎没有明文文本,想要在没有源代码的情况下分析数据内容(懒得找),就得靠找规律切出每条数据后,结合已知的其他外部信息结合分析,这属于典型的黑盒逆向。
而 GPT4 能做到什么程度?
在我通过人工判断快速确定了文件元数据所在的位置后,随手复制一大段 16 进制状态的数据丢进去,告诉它这应该是一个自定义的数据结构,其中可能包含了多个文件的元数据,要求它分析数据结构、找出规律。然后 GPT4 不仅找出了规律,逐个列出了切出来的单条数据,还大致判断出了每条数据中可能包含了哪些信息、字段可能的格式是什么样。并且在我没有要求的情况下,还将其中包含的少数明文文本内容(为 16 进制状态,混在那一大段数据中)也处理成了明文进行描述。
而在我根据规律切出数据,再补充上当时能匹配上的一些文件的元数据信息之后,GPT4 几乎给出了准确的数据结构定义,除了提供的样例数据中没有的情况和一些可能是数据丢失或是其他数据结构的情况导致异常以外,直接基于这份数据结构的定义暴力解析出大致的元数据是完全没问题的。
事实上对 Ceph 的数据结构分析也不仅是 CephFS 的 metadata ,其他的数据我也尝试这么逆向分析过,包括后续的根据分析结果编写处理代码在内,整个流程中 GPT4 都给我省了相当多的事。这个水平,市面上的其他同类模型就没有一个能打的,包括 Claude 、PaLM 这种评测排行仅次 GPT4 的商业模型在内。