AIGC与信息垃圾与区块链
用区块链的思路筛选有价值的信息。
写在前面
最近 OpenAI 发布了 sora,可以根据提示词生成60秒长度真假难辨的拟现实视频,AIGC(人工智能生成内容)能力又迈出了一大步。这一头部团队的重磅炸弹又一次引发了一大批相关从业者的狂欢(与焦虑)。
不过这次我想讨论的不是AIGC本身,而是它带来的一个副作用——信息垃圾。
信息垃圾可能不是一个十分准确的专有名词,不过我这里借用这个词组想描述的是一个很直接的概念,即充斥在优质有效信息中的低质量甚至错误的信息。
举个栗子
比如我的需求是想知道北医三院怎么挂号,那么下面就是一个有效信息的例子,
微信挂号:北医三院服务号 在线挂号开放七天内号源(含当日),每天上午7:00开放第七天号源,当日号源截止挂号时间: 上午10:00前,下午15:00前。 更新时间:2024-01-12
来自官网,信息全面、简洁、且准确。对于挂号,通常最需要的信息就是:
- 挂号平台。
- 每日放号时间。
- 放号提前天数。
官网通告准确的描述了这几个内容,甚至为了避免歧义,精确的描述了含当日。
低质信息可能是这样的,来自某医药平台。
“北医三院”公众号,每天12:00放号,可预约4日内号源。
大部分信息是错误或已经失效的:
- 可以挂号的公众号是“北医三院服务号”,而不是“北医三院”。
- 放号时间错误。
- 放号周期错误。
下面则是近乎完全无效的垃圾信息。
如果亲人们是来北京看病的话,大家一定是听过北医三院的,北京大学第三医院(简称“北医三院”)建于1958年,国家卫生健康委委管医院,集医疗、教学、科研、预防、康复与保健为一体的综合性三甲医院。 如果想挂号的话呢,可以选择网上挂号、微信公众号、114电话、现场挂号多种方式。 北医三院作为知名医院平常人是非常多的,如果亲人们要挂号一定要提早准备呀。 不知道你还知道哪些关于“北医三院挂号”的事呢?欢迎留言和小编一起讨论交流呀~ 更多信息欢迎关注 xxxx
来自:自己编的,但相信大家一定看到过类似的
百度百科上复制的专业内容加上看似贴合内容的废话加上浓浓的“小编”味。这些信息垃圾通常来自廉价雇佣的网络水军,而在ChatGPT爆火的2024年,有理由相信这类信息生产的主力已经变成了AI。
最先被这种生成内容攻陷的是百度知道这类传统问答平台或者一些门槛较低的自媒体平台,最近看知乎和公众号也有类似的趋势。
AIGC的副作用
毫无疑问的,AIGC的发展会进一步加剧互联网中垃圾信息的占比。以我自己的经验来看,对于前面例子中非专业的生活主题内容,如果没有官方页面的情况下,通常要打开搜索结果前两页的近十几条搜索结果总结比对后才能得到基本可用的结果。对终端用户来说无疑是一种体力消耗与精神折磨。
上面例子来自中文互联网,但英文内容应该也会面临类似的问题,毕竟英文NLP难度在许多场景下其实要比中文容易的多。
最近与朋友们聊天惊讶的发现他们在搜索教程攻略类内容的时候开始放弃传统搜索引擎,而开始使用抖音作为第一选择。抖音理工学院诚不我欺。
究其原因,很可能与视频内容与文字内容的成本差异有关,视频内容的制作需要更多的时间人力投入,因此信息质量通常会更高(至少更可能是真人做的)。而随着AIGC的发展,这种差异正被逐渐抹平。
未来以来,现实已死。
垃圾治理
如何摆脱信息垃圾化不断加剧的困境呢?
机智的 “AI万能论”的朋友们可能会想,能不能用 AI 来甄别信息质量然后进行过滤呢?这种以彼之道还施彼身的方案是优雅的,但我觉得可能不是本质的。也许可以在一定程度上缓解,但不能根本解决。
诚然,AI 可以做很多事,可以帮助你写作,绘画,编程。AI 可以根据各种规则执行预设的动作,但 AI 似乎不能,至少目前不能,甚至不应该,代替人类进行判断。
脑洞大开的AI先贤们在无数科幻作品中都描绘过类似的场景,机器人因为无法基于常知、伦理与人性上思考而违背人类最初的设计,最终酿成悲剧。比如为了消灭战争而决定消灭人类。
AI 可以比较准确的判断出猫和狗的区别,因为二者有比较清晰的定义。但AI比较难判断一条信息是否有价值。这个问题在于信息的正确与否,有价值与否是因人而异并且需要逐渐迭代的。
这里扯远一点,我一直觉得AI是没法进行漏洞挖掘的,至少在复杂的漏洞场景下是无法做到的。
一方面是因为漏洞成因本身千奇百怪又可能极其复杂,甚至是人类都很难搞清楚的。比如我见过浏览器的JavaScript引擎的源码中一个字符(不是长度或者大于小号写反这种简单的情况)的差异,就形成了可以导致远程代码执行的漏洞。
另外一方面在于漏洞本身的定义与判定就是很难达成统一的。有些问题可能是漏洞,有些问题可能只是一些功能特性,而一些特性又可能在某些边缘场景中产生危害而成为漏洞。Bug hunters和产品厂商间历年不断的 bug or feature 争论孽缘缠正源于此。
最后一点在于漏洞挖掘场景中对于假阳性的容忍性比较低。AI生成的文章中有一句话不合逻辑也许无伤大雅,可能是99分变成98分。但对于漏洞来说,不是就不是,误报就是100分变成0分。WAF如果输出一万条告警但只有一条是真的,那运营人员要骂娘;报200个issue 199条won’t fix,那厂商要拉黑你。
信息价值的判断也是类似的,没有清晰统一的标准,而且这个标准还会因为人的需求更迭而不断变化。就像不断改需求的产品经理,实在有些强AI所难了。
那么信息的价值到底由什么来判断?一个事实标准就是共识。大部分人觉得正确,觉得有用,就大概率是有价值的。就像问答平台中的点踩机制一样。
币圈的解决方案
提到共识,区块链同学就不困了。
区块链,从金融角度上看主要解决了资产发行与交易的问题,从技术角度上看主要解决了分布式系统一致性的问题。
而在我看来,金融只是应用,技术只是工具。区块链中最有魅力的创新是通过利益分配驱动系统运行的巧妙思想与落地实现。
BTC网络通过算力限制提高作恶成本,通过分发手续费给予收益,当矿工作恶的期望收益低于诚实工作时,理性的矿工就会选择诚实工作。
Uniswap 如何保证币价合理?当币价偏离正常值时套利者就会出面低买高卖,赚取差价收益,使币价回归正常值。
在理性经济人的前提假设下,基于系统参与者们对价值的共识,通过合理的利益分配,驱动参与者共同维护整个系统的良好运转。
按照这个套路也许可以实现一个高质量的UGC平台,先叫它 HGC (Human Generated Content)
平台吧。
首先,传统艺能,发行一种名叫 $HGC
的Token。大部分做流动性,少部分空投给普通用户。普通用户可以用 HGC 发布问题悬赏。
问题的回答引入三方:
- Creator 质押一定量的HGC后参与内容生产。发布到平台上等待审核。
- Reviewer 质押一定量的HGC后可以审核 Creator 发布的内容,如果内容有效则 accept。内容通过一定数量的 accept 后则可以正式发布。发布后 Creator 和 Reviewers 均可获得 HGC 奖励。
- Judger 用于监督 Reviewer 与 Creator 避免共谋。当遇到有异议的内容时发起投票,投票通过时罚没Reviewer 与 Creator 质押的 HGC 分配给 Judgers 与社区。
三方互相牵制,理想情况下只有大家都认可的高质量内容才能出现在平台上。细节尚要完善,但基本思路应该可以跑通。
“喂 你这其实和十年前的百度知道也没啥差别吧 就是人家发积分你发币吧”
嗯,不管怎么说,想法已经有了,就差一个程序员了。