普文门户网站

您现在的位置是:首页 > 社会 > 正文

社会

泄露个人隐私、窃取商业机密?数据爬取的合理边界在哪

2019-11-09 22:01:16热度4558
10月9日,四川成都。武侯区的李光琼老人88岁生日,消防指战员接老人到队里庆生。37年来,老人免费为消防队员送去鞋垫、袜子4万余双,走遍了成都39个消防中队。

数据爬行的基本原理是什么?数据爬行是非法的吗?如何在大数据环境中标准化和管理数据爬网?10月11日,在上海社会科学院国际创新中心举办的“数据治理系列沙龙”第四届——“数据爬行治理”共享会议上,一些法律专家和行业人士就这些问题进行了深入讨论。

上海“数据治理系列沙龙”第四阶段——“数据爬行治理”共享会议网站

数据爬行的技术原理

数据抓取(Data crawling)是指使用“爬虫”在互联网上抓取信息的行为或过程。

益登(上海)智能科技有限公司首席执行官朱向异表示,数据爬行最初就像一个搜索探头。根据指定的规则,通过遍历网络内容来收集和提取所需的网页数据,然后由技术人员存储或重新处理。到目前为止,数据抓取已经获得了多种信息,不仅在互联网网站上抓取信息,还在不同场景中抓取公民身份、电信、旅游、社交网络、电子商务、银行记录等维度的数据。

朱向异提到,从数据源来看,爬虫可以分为网络爬虫和界面爬虫。网络爬虫是一种早期的爬虫,它根据网页上的超链接进行遍历,并从网页中提取数据和信息。它最常用于搜索引擎。在大数据时代,新的接口爬虫通过准确构建特定api接口的请求来获取所需的数据信息。目前,造成问题的爬虫公司通常使用授权信息登录网站或访问api,在网站或应用程序上的注册协议和隐私协议中获得用户的自愿或无意授权后,获取用户的个人数据和网站数据。有些爬虫甚至能够突破网站本身设置的控制来获取受保护的数据。这些数据并不是完全公开的,涉及用户隐私和网站业务信息,对爬虫来说,它们恰恰是有害的来源。

他认为需要辩证地看待数据爬行。善意的爬虫是一座桥梁,对网站和用户都有好处。例如,搜索引擎抓取网站的所有页面,为其他用户提供快速搜索和访问,从而为网站带来流量。但是,非法爬虫会威胁到存储在网站服务器上的用户和互联网服务提供商的个人数据,从而侵犯用户隐私和服务提供商的业务信息,带来法律风险。在现实的商业世界中,大量案例与爬虫入侵商业数据和形成不正当竞争有关。

数据爬行的法律纠纷

数据爬行作为一种高效的数据收集方式,是国内外许多互联网企业非常普遍甚至是一种生存手段。然而,随着围绕数据自动化技术的爬行和挖掘活动的迅速增加,在数据所有权、知识产权和商业秘密保护、个人信息隐私限制、不公平竞争等方面出现了巨大的争议。近年来,数据爬行案件频繁发生在金融、内容、电子商务等各个领域,对互联网和大数据业务格式产生了重大影响,引起了行业、监管机构和全社会的广泛关注。

2019年1月,中央网络信息办公室、工业和信息化部、公安部、市场监督总局发布《关于应用程序违法违规个人信息采集和使用专项管理的公告》,开展个人数据爬行专项执法活动。5月发布的《数据安全管理办法(征求意见稿)》第16条明确规定,网络运营商应当采取自动化手段获取和收集网站数据,不得妨碍网站的正常运行。这种行为严重影响网站的运营。如果自动访问和收集流量超过网站日平均流量的三分之一,网站应在请求停止自动访问和收集时停止。

上海交通大学数据法律研究中心执行主任、法学院副教授何远表示,从数据类型的角度来看,数据爬行可能侵犯的合法权益包括“三个安全一个稳定”和“两个秘密一个隐私”,如计算机信息系统安全、公民个人信息、版权、国家秘密、商业秘密、市场竞争秩序等。从数据抓取方式来看,存在非法获取数据的法律风险,如危及计算机信息系统安全、非法获取公民个人信息、非法获取商业秘密、破坏版权保护措施等。从结果来看,存在不正当竞争、侵犯版权和侵犯人格权等非法使用数据的法律风险。

公安部第三研究所网络安全法研究中心主任黄道里认为,数据爬行行为是否涉及处罚,需要综合考虑数据类型、爬行方法和爬行结果。数据类型是否属于受法律保护的数据,如个人信息、版权数据、商业秘密、国家秘密等。正常情况下,是否获得权利人的合法授权直接影响上述数据抓取行为的法律定性。就爬行方法而言,它需要查看服务器是否被入侵以及数据是否被非法获取。就爬行结果而言,对方网站和服务器的正常运行是否受到损害是影响犯罪和非犯罪判断的重要因素。一般来说,对合法权益的侵害越大,风险就越高。

黄道里提到,个人信息、商业秘密、版权数据和国家秘密以外的一般数据的爬行一般不构成侵犯公民财产权,但更有可能面临竞争法风险。相应地,在刑事领域,一般不构成财产犯罪,更有可能面临侵犯计算机信息系统安全和数据安全犯罪的刑事责任风险。

上海成金田律师事务所高级合伙人吴伟明表示,需要澄清数据爬行的合理界限。对于对象的法律方面,有必要判断爬行的数据类型,避免爬行禁止收集的数据类型,并根据数据类型设置不同的入口阈值。在法律手段方面,必须通过公开或合作渠道遵守权利声明和披露规则的限制,不得使用侵入性或非法工具。此外,还需征得相应权利人的同意,如个人信息主体、版权所有者、信息系统权利人、网站经营者等。必须在数据爬网中获得。

数据爬行的相关治理

上海市委互联网信息办公室政策法规司司长孙洁表示,随着今年以来数据治理政策在中国的大力推行,数据爬行已经成为中央和地方互联网信息监管部门关注的领域之一。积极研究数据爬行治理问题,探索有效的监管模式,对上海各界具有重要意义。上海经济信息委员会软件与信息服务部刘文认为,目前各类互联网企业都将参与不同类型的数据抓取应用。在监管和合规压力日益加大的背景下,帮助企业规范数据抓取业务,提高合规能力成为确保上海数字经济产业高质量发展的现实需求。

阿里巴巴法律研究中心副主任谷玮从公司的实际角度分析了数据抓取的实际困境。他提到,目前的半封闭应用已经成为一种趋势,数据四处爬行,但并没有破解加密技术,而且经常存在法律风险。在大数据时代,人工智能等技术的发展需要大量的数据支持。此外,行业竞争越来越激烈,“搭便车”行为激增,数据竞争破坏越来越严重。他认为,当前需要以包容和审慎的态度对待数据爬行,重点是通过反不正当竞争法和生产权利法解决纠纷,通过立法规范爬行确保利益平衡,并进一步促进网络平台上数据的有序开放。网络运营商应明确倡导数据所有权和协议保护,采取应用接口加密、访问ip限制等技术措施,收集明显侵犯合法权益的爬行行为证据,举报或起诉明显违法或侵犯公司合法权益的行为,积极寻求商业合作空间。

腾讯网络安全与犯罪研究基地高级研究员张宝丰认为,通过采取反爬行技术措施,设置明确的反爬行声明和版权信息,及时监控,积极维护权利,可以防止恶意爬行。关于网络爬虫技术的合理应用,他提出应遵守互联网行业中的机器人协议,检查ip屏障和认证机制等反爬虫措施,避免逃避认证系统和加密算法获取数据和主观恶意。为了区分爬行数据的性质,应该避免爬行未经授权的个人信息、他人的受版权保护的内容、企业或机构的内部数据、商业秘密等。,并制定禁止爬行的信息类型列表。为了限制数据使用的目的,个人应严格在授权范围内使用数据。商业目的应避免使用“不劳而获,吃人又发胖”的形式,避免替代其他商业主体,从而承担不公平竞争的责任。控制抓取的频率和数量,避免因抓取的频率和数量等给目标网站服务器造成很大负担。

上海数据治理沙龙(Shanghai Data Governance Salon)是由上海数据治理与安全产业发展委员会在上海经济和信息化委员会和上海市委互联网信息办公室的指导下组织的公益性专业研讨会。聚焦数据治理和网络安全前沿热点问题,汇聚研究、用户、制造商、律师事务所咨询机构等各方的专业力量进行持续交流,吸收各方意见和建议,向国家和上海相关行政部门提出建议,为上海数字经济健康发展贡献专业力量。本次沙龙由上海金田市律师事务所和网络研究所主办,上海社会科学院互联网研究中心和阿里巴巴数据安全研究中心协办。

在线买彩票 天天电玩城 快3 江苏福彩快三 赛车pk10