跳转到内容

用prompt识别个人信息,包含年龄、位置、性别甚至收入等

研究人员利用AI分析 Reddit 上的帖子,直接通过用户的写作方式就能够准确地识别其年龄、位置、性别甚至收入等个人信息。 瑞士苏黎世联邦理工学院的Robin Staab和Mark Vero让九个LLMs分析Reddit帖子数据库,从用户的写作方式中提取身份信息。GPT-4以85%的总体准确率取得了最高成绩。 他们随机选择了1500个活跃用户的个人资料,然后将其缩减到520个用户,对于这些用户,他们能够自信地识别出出生地、收入档次、性别和位置等属性,无论是在他们的个人资料还是帖子中。 当给定这些用户的发帖历史时,一些LLMs能够高度准确地识别出这些属性。GPT-4以85%的总体准确率取得了最高成绩,而相对低功率的LLM LlaMA-2-7b的准确率最低,为51%。Staab表示:“这告诉我们,我们在互联网上无意中泄露了很多个人信息。 许多人可能不会认为你可以直接从他们的写作方式推断出他们的年龄或位置,但LLMs是相当有能力的。” 有时,个人详细信息会在帖子中明确说明。例如,一些用户在有关财务建议的论坛中发布他们的收入。但是,一些特征对AI来说比其他特征更容易辨识。GPT-4在猜测性别方面的准确率为97.8%,而在收入方面的准确率仅为62.5%。 英国萨里大学的Alan Woodward表示:“我们才刚刚开始理解LLMs的使用可能如何影响隐私。” 详细报道:https://newscientist.com/article/2400514-ais-can-guess-where-reddit-users-live-and-how-much-they-earn/