过去一个月,语音社交产品在中国陆续遭遇“滑铁卢”。继Clubhouse被封之后,映客推出的“中国版Clubhouse"也因技术调整而紧急下架。从这些风险事件来看,内容监管、数据安全和隐私保护是摆在数字内容风控面前最大的难题,也是所有入场语音社交的团队必须解决的问题。
针对上述痛点,网易易盾推出面向语音社交平台的一站式融合解决方案,打通内容安全和移动安全能力,助力语音社交产品轻松化解各类数字内容风险。
01 专业内容安全 护航“语音+社交”新模式
在Clubhouse中,用户可以认识陌生人,随意游走在各类聊天室之间。在陌生人社交场景下,用户发言难以控制,让内容风险暴露无遗。近年来,我国在互联网内容治理方面取得一系列突破,与文本、图像相似,语音内容同样面临《网络安全法》、《网络安全审查办法》、《互联网信息服务管理办法》等法规的监管。
○ 在语音聊天室内出现涉黄、涉暴、涉政、违禁等内容,将会危及语言社交产品的持续运营。一旦出现上述越过监管红线的行为,风险将不可估量,轻则下线整顿,重则彻底关停。
○ 导流广告、谩骂、错误价值观导向等内容,也是不可忽视的内容监管"规定动作"。这些内容可能转化为更深层次的危机,不法分子处心积虑地将用户导向其他平台进行卖淫招嫖、网络诈骗、“杀猪盘”等违法活动。
○ 除硬性规定之外,社交语音产品的内容监控需求也可能源于自身平台的运营调性。借助内容风控技术,平台设置内容监管的"选择动作",及时发现不符合平台运营价值的言论。
以声音作为传播媒介,这让语音社交产品面临在内容治理上更困难的现实,音频给内容控制带来了一系列截然不同的挑战。首先,有别于文本、图像识别所面对的挑战,小语种、方言、语音、语调、语速、背景音都会导致语音识别准确率下降。其次,在陌生人社交场景下,语音社交产品还面临检测时效性挑战。语音内容被短暂保留,用于检验用户是否违规发布。开发者必须快速检测一条条实时聊天音频,而整个过程过于琐碎、费时。
当前,网易易盾技术研发组让实时、精准的语音检测技术成为可能。一条语音的检测依次经过语音处理、语义识别、文本安全、声纹检测等流程,即可审查:第一类,带语义的问题语音,检测对话是否涉及色情、政治、谩骂、广告等语义,一次性掌控若干种类型的内容风险;第二类,无语义的问题语音,例如色情范畴下的娇喘、ASMR,政治类别下的重要领导人的声纹、反动禁歌的音调。
图 | 网易易盾一站式数字内容风控解决方案
基于上述技术实力,易盾推出了基础语音识别、智能声纹识别、用户维度识别和社交场景识别,为语音社交平台提供四重数字内容风控防护。
第一重:基础语音识别
网易易盾的基础语音识别技术集语音处理、语义模型、文本安全于一体。先将接收后的语音进行预处理,下一步通过先进的人工智能技术将语音转化为文本,突破高度狡猾的语音变种内容,例如方言、小语种、同音词、变速、背景音等,在调用文本检测技术,负责监测语音文本中是否存在违规内容。
第二重:智能声纹识别
无语义的问题语音监测借力于智能声纹识别得以实现。当发现违规的语音内容时,网易易盾会提取违规语音的声纹特征,给每一种违规语音分门别类,根据性别、人物身份、违规类型打上标签,建立声纹库。当前,易盾支持多种声纹监测,区分male与female的人声性别检测、重点领导人声纹监测、涉及"黄、暴、政"违规的声纹黑名单。
第三重:用户维度
内容维度对语音本身进行检测,用户维度则是从用户关系、用户行为、用户画像入手进行风险预知。结合易盾的业务安全实力,对问题语音的发出者进行定位,将问题内容与衍生风险扼杀在摇篮中。
从社交关联图谱的视角,整合社交行为(例如,加好友、互粉、私聊、群组/聊天室)以及账号基础属性(例如,头像、昵称、签名)数据构建用户亲密度网络:一方面,应用Fast-Unfolding、GraphCut等图聚类算法从中挖掘出潜在的团伙子图;另一方面,应用动态DeepWalk、Struct2Vec算法实现用户节点的向量化表达,聚类发现黑灰产账号(例如,水军、机器人、色情账号或者营销账号)明显区别于正常用户的社交行为模式。
从业务风控治理的视角,黑产用户以获利转化为最终目的,在每一个业务节点上的行为大都是异常的。基于此,易盾在用户注册、登录、业务行为、UGC内容发布等关键业务环节引入验证码、设备指纹、反作弊策略,努力将每一个业务节点的问题率控制在最低。此外,每个业务节点的数据、结论相互辅助,从而确保内容风控整体效果。
截至目前,两个模型已广泛应用于易盾社交行业线,风险识别准确率高于95%,对垃圾变种有显著的召回增益。
第四重:社交场景综合检测
主打"语音+社交"的clubhouse们,在语音内容检测之外,也必须关注社交场景下的检测字段,包括头像、签名、昵称在内的用户资料、聊天室的房间标题,等等。
在服务大中型UGC平台的多年实践中,网易易盾沉淀了一套针对社交媒体的监测经验和方法论,从内容纬度和用户纬度出发建立联合监测算法,适用于IM私信、多人聊天室、用户资料、弹幕、留言、评论等大部分社交场景。
目前,易盾语音检测在通用领域的识别准确率达到90%以上,小语种ASR在实验室环境下平均识别准确率约达90%,尤其在电商、电话客服等领域,经过针对性定制优化,识别性能达到行业领先水平。
02 移动安全 守护用户数据与隐私
一位身份不明的用户将来自Clubhouse多个房间的音频传送到自己的第三方网站上。这起音频窃取事件引发了用户信任危机,暴露了语音社交爆发背后的隐忧,也给同类产品设计带来警示。
针对此类问题,网易易盾提供多重“安全措施”来防止此类事件再次发生,集合数据加密、应用加固、用户隐私政策合规于一体的移动安全解决方案,从音频数据保护到应用代码安全,让产品更安心。
第一重:端对端数据加密
用户创造的音频是语音社交产品的重要通讯数据,也是黑产觊觎的“肥肉”,在储存和传输中伴随着显著风险。如果客户端应用与服务端采用明文传输,攻击者可以轻易获得通信内容,从而伪造通信报文、篡改核心数据。
如何让音频数据带有高强度的自防护能力?开发商可以对通信中的语音数据加密后再发送,并结合多维度的校验机制,防范篡改、劫持、重放等攻击行为,保证网络数据传输的安全性。
数据传输安全:通信数据加密SDK融合了传统的对称、非对称加密和哈希加密的思想,任何时候移动终端只存有加密的公钥,服务器端只存有解密的私钥。当客户端和服务端完成密钥交换之后,数据得以传输。重要通讯数据也可重点适配“一次一密”模式,即在密钥生成中添加时间随机数,每次加密都使用新的密钥体系完成,有效防止了语音信息被窃取。
数据储存安全:安全存储SDK用于用户隐私信息、应用配置文件、本地重要信息的加密保护,支持AES、DES、3DES、SM4等标准的加解密算法,保护本地隐私文件免受篡改、窃取。
便捷的集成方式助力客户快速接入,自动实现关键数据加密。语音社交产品通过加载SO文件,在需要进行数据保护的环节直接调用易盾安全存储SDK的Java函数。加密后的音频数据即便被第三方“黑产”恶意拦截、窃听也无须担心。
图 | 网易易盾端对端通信数据加密解决方案
第二重:应用加固保护
在用户数据与隐私保卫战中,移动应用本身是防御重镇。移动端仿佛一座敏感数据的仓库,率先成为黑产窃取攻击的目标。
大量诸如账号、密码、手机号码、信用卡号、银行卡号、身份证件号码、家庭住址信息、公司地址信息、家庭成员信息、个人私密信息、商业信息等敏感数据被保存移动设备中。社交产品中以文本、图片、音频为载体的聊天记录也是不可忽视的重要信息资产。
攻击者利用“逆向工程”原理,对没有加固的应用进行逆向分析及研究,得知代码逻辑,找到接口或程序中的漏洞,进而编制恶意程序,入侵和窃取用户信息。
网易易盾提供专业“函数级”代码加固服务,助力开发商可以对应用加壳、加密,从而降低应用代码被第三方逆向出来的可能性,阻止应用程序被二次打包、破解或篡改。
阻止代码破解:对APP代码逻辑进行形式转换,包括隐藏,混淆,加密等操作,基于Android与iOS系统特性进行区别保护,将兼容性、适配性、安全性风险降到最低。
避免接口被刷:对重要通信接口参数的加密保护,有效防止接口被分析后重要参数泄漏,导致攻击者通过接口模拟方式进一步破解程序。
防止截屏录屏:对所有录屏软件开启“黑名单”模式,阻止第三方恶意程序开启截屏、录屏功能,有效保护信息泄露。同时,支持追踪开启录屏功能的用户身份,主要是通过预制策略、用户设备信息、用户行为识别风险用户。
第三重:用户隐私政策合规
声名鹊起的Clubhouse深受用户隐私问题困扰,其用户隐私协议中的多项条款被指违反《一般数据保护条例》(GDPR),也不符合中国多部门近年来陆续出台的个人隐私保护法规:未经用户同意,调用用户手机中的联系方式,分析联系人数据吸引新用户加入;用户隐私协议只有英文版,非英语母语用户理解困难;针对录音取证和账号删除等个人数据处理情况,未能建立明确的规则。
根据《关于开展App违法违规收集使用个人信息专项治理的公告》,App运营者要遵循合法、正当、必要的原则,不收集与所提供服务无关的个人信息;收集个人信息时要以通俗易懂、简单明了的方式展示个人信息收集使用规则,并经个人信息主体自主选择同意;不以默认、捆绑、停止安装使用等手段变相强迫用户授权,不得违反法律法规和与用户的约定收集使用个人信息。
可以看到,Clubhouse违反了上述多项条款。易盾建议,用户隐私保护是大势所趋,考虑进入语音社交领域的开发商应该深入政策规划,既是为了避免损害使用者权益,也能够维护品牌商誉和商业运营,在用户隐私政策合规处理上多加注意。
“APP隐私合规检测”是易盾全新启动的一项自动化代码排查服务,精准定位到涉及违规获取隐私权限的代码位置,提供一对一用户隐私合规专家,通过安全测评报告向APP开发者提供专业整改建议,助力APP通过官方监管机构的评估。
03 总结
新社交形态的出现,扩展了网络安全的探讨空间。在政策法规的驱使下,内容监管、数据安全和个人隐私保护是语音社交绕不开的安全重点。后续,主打陌生人语音社交的开发商需要兼顾各类安全问题,排除内容安全与移动安全隐患,确保产品安全上线与平稳运营。
网易易盾高效赋能基于不同场景,切入声音赛道的社交产品搭建“安全"基础设施,灵活输出多层次、强有力的数字内容风控与数据隐私保护技术,让开发者专注形式创新与用户体验,助力产品取得成功。点击免费试用易盾音频检测服务