各领域公开数据集下载,衍生数据是数据专有权

2019-05-03 22:24 来源:未知

用了两种形式的数据,一个是泛型List,一个是数据int[]。记录一下,作为自己学习过程中的笔记。

转自:https://zhuanlan.zhihu.com/p/25138563
金融
美国劳工部统计局官方发布数据
上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票
深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票
深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票
MT4平台外汇交易历史数据
Forex平台外汇交易历史数据
几组外汇交易逐笔(Ticks)数据
美国股票新闻数据【Kaggle数据】
美国医疗保险市场数据【Kaggle数据】
美国金融客户投诉数据【Kaggle数据】
Lending Club 网贷违约数据【Kaggle数据】
信用卡欺诈数据【Kaggle 数据】
某个金融产品实时交易数据【Kaggle数据】
美国股票数据XBRL【Kaggle数据】
纽约股票交易所数据【Kaggle数据】

衍生数据是指原生数据被记录、存储后,经过算法加工、计算、聚合而成的系统的、可读取、有使用价值的数据,例如购物偏好数据、信用记录数据等。能够建立知识产权的数据是衍生数据在大数据的环境下,以数据内容的产生方式为标准,数据可以分为原生数据和衍生数据。准确认定衍生数据的性质衍生数据与相关概念如数据、信息与数据库等,确认它们之间的联系与区别非常重要,关系到立法确认的概念及其性质的准确性,也关系到作为数据权利的性质和保护范围。以衍生数据为客体建立的权利是数据专有权衍生数据具有重要的财产价值。数据内容主体与数据载体主体存在权利冲突,衍生数据也不例外,因而分为两大类:一是衍生数据本身可识别数据主体,二是衍生数据不可识别数据主体。

图片 1图片 2

交通
2013年纽约出租车行驶数据
Udacity自动驾驶数据
纽约 Uber 接客数据 【Kaggle数据】
英国车祸数据(2005-2015)【Kaagle数据】
芝加哥汽车超速数据【Kaggle数据】
KITTI 自动驾驶任务数据【数据太大仅有一部分】
Cityscapes 场景标注数据【数据太大仅有介绍】

衍生数据;知识产权;计算;加工;记录;数据专有权;数据是;聚合;数据主体;客体

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace 冒泡排序算法
{
    class Program
    {
        static void Main(string[] args)
        {
            List<int> _list = new List<int>() { 29, 20, 49, 84, 3, 48, 86, 95, 69, 28 };
            Bubble(_list);
            foreach (var item in _list)
            {
                Console.WriteLine(item);
            }
            int[] bortargs = { 29, 20, 49, 84, 3, 48, 86, 95, 69, 28 };
            Bubble(bortargs);
            foreach (var article in bortargs)
            {
                Console.WriteLine(article);
            }
            Console.ReadKey();
        }
        static void Bubble(List<int> list)
        {
            int temp = 0;
            for (int i = list.Count; i > 0; i--)
            {
                for (int j = 0; j < i - 1; j  )
                {
                    if (list[j] > list[j   1])
                    {
                        temp = list[j];
                        list[j] = list[j   1];
                        list[j   1] = temp;
                    }
                }
            }
        }

        static void Bubble(int[] args)
        {
            int temp = 0;
            for (int i = args.Length; i > 0; i--)
            {
                for (int j = 0; j < i - 1; j  )
                {
                    if (args[j] > args[j   1])
                    {
                        temp = args[j];
                        args[j] = args[j   1];
                        args[j   1] = temp;
                    }
                }
            }
        }

    }
}

商业
Amazon 食品评论数据【Kaggle数据】
Amazon 无锁手机评论数据【Kaggle数据】
美国视频游戏销售和评价数据【Kaggle数据】
Kaggle 各项竞赛情况数据【Kaggle数据】
Airbnb 开放的民宿信息和住客评论数据

衍生数据是指原生数据被记录、存储后,经过算法加工、计算、聚合而成的系统的、可读取、有使用价值的数据,例如购物偏好数据、信用记录数据等。能够建立知识产权的数据是衍生数据,而不是原生数据。

View Code

推荐系统
Netflix 电影评价数据
MovieLens 20m 电影推荐数据集
WikiLens
Jester
HetRec2011
Book Crossing
Large Movie Review
Retailrocket 商品评论和推荐数据

制定我国《民法总则》应当将衍生数据作为知识产权客体的一种,即数据专有权的客体。这具有重要意义,将成为世界范围内规范数据权利及其客体的首创性规定。

医疗健康
人识别物体时大脑核磁共振影像数据
人理解单词时大脑核磁共振影像数据
心脏病心房图像及标注数据
细胞病理识别
FIRE 视网膜眼底病变图像数据
食物营养成分数据 【Kaggle数据】
EGG 大脑电波形状数据【Kaggle数据】
某人基因序列数据【Kaggle数据】
癌症CT影像数据【Kaggle数据】
软组织肉瘤CT图像数据【Kaggle数据】
美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】
Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】
TCGA-LUAD 肺癌CT图像数据
RAID 肺癌CT图像数据

能够建立知识产权的数据

图像数据
综合图像
Visual Genome 图像数据
Visual7w 图像数据
COCO 图像数据
SUFR 图像数据
ILSVRC 2014 训练数据(ImageNet的一部分)
PASCAL Visual Object Classes 2012 图像数据
PASCAL Visual Object Classes 2011 图像数据
PASCAL Visual Object Classes 2010 图像数据
80 Million Tiny Image 图像数据【数据太大仅有介绍】
ImageNet【数据太大仅有介绍】
Google Open Images【数据太大仅有介绍】

是衍生数据

场景图像
Street Scences 图像数据
Places2 场景图像数据
UCF Google Street View 图像数据
SUN 场景图像数据
The Celebrity in Places 图像数据

在大数据的环境下,以数据内容的产生方式为标准,数据可以分为原生数据和衍生数据。原生数据是指不依赖于现有数据而产生的数据,例如用户发表的评论数据、用户使用服务的日志数据等。衍生数据是指原生数据被记录、存储后,经过算法加工、计算、聚合而成的系统的、可读取、有使用价值的数据,例如购物偏好数据、信用记录数据等。能够建立知识产权的数据是衍生数据,而不是原生数据。

Web标签图像
HARRISON 社交标签图像
NUS-WIDE 标签图像
Visual Synset 标签图像
Animals With Attributes 标签图像

从数据的生产方式来看,原生数据是指数据从0到1的过程;衍生数据是从1到f的过程(注:从0到1仅表示从无到有的含义,f()仅表示数据的加工、计算、聚合的操作过程,均不表示具体含义)。原生数据是不能再生的数据,衍生数据由于是在原生数据的基础上加工、计算、聚合的结果,因此在理论上,衍生数据是可再生的数据。加工、计算、聚合是衍生数据的最重要特征。

人形轮廓图像
MPII Human Shape人体轮廓数据
Biwi Kinect Head Pose 头部姿势数据
上半身人像数据
INRIA Person 数据集

被记录,是数据的重要特征之一。但是被记录下的数据并非必然具有价值。当数据量小时,数据价值依赖于原始的数据内容,从数据内容中依据逻辑思维直观地获取价值。当面对海量数据时,原生数据可以直观获取的价值是有限的,数据价值依赖于算法加工计算后,从总量数据的相关性中获取价值。数据价值挖掘方式的变化,使得数据的加工、计算、聚合成为一个非常关键的问题。原生数据并不能直接使用。数据的加工、计算、聚合,实现了从“一般数据”到“可用数据”的过程,而这种可用数据就是衍生数据。

视觉文字识别图像
Street View House Number 门牌号图像数据
MNIST 手写数字识别图像数据
3D MNIST 数字识别图像数据【Kaggle数据】
MediaTeam Document 文档影印和内容数据
Text Recognition 文字图像数据
NIST Handprinted Forms and Characters 手写英文字符数据
NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据
NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据

准确认定衍生数据的性质

特定一类事物图像
著名的猫图像标注数据
Caltech-UCSD Birds200 鸟类图像数据
Stanford Car 汽车图像数据
Cars 汽车图像数据
MIT Cars 汽车图像数据
Stanford Cars 汽车图像数据
Food-101 美食图像数据
17_Category_Flower 图像数据
102_Category_Flower 图像数据
UCI Folio Leaf 图像数据
Labeled Fishes in the Wild 鱼类图像
美国 Yelp 点评网站酒店照片
CMU-Oxford Sculpture 塑像雕像图像
Oxford-IIIT Pet 宠物图像数据
Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】

衍生数据与相关概念如数据、信息与数据库等,确认它们之间的联系与区别非常重要,关系到立法确认的概念及其性质的准确性,也关系到作为数据权利的性质和保护范围。

材质纹理图像
CURET 纹理材质图像数据
ETHZ Synthesizability 纹理图像数据
KTH-TIPS 纹理材质图像数据
Describable Textures 纹理图像数据

衍生数据的性质属于智力成果。智力成果是指人们通过智力劳动创造的精神财富或精神产品。衍生数据具有这样的特征:第一,原生数据不具有创造性,只具有记录性;但在记录了原生数据之后,对其加工、计算、聚合,使其脱离了原生数据,创造成为新的、具有使用价值的衍生数据,包含了智力创造。第二,无论是衍生数据还是原生数据,都具有非物质性,都不具有客观的外在物理形态,但是原生数据没有创造,因而不具有产品的性质,而衍生数据是非物质化的知识形态的劳动产品,属于智力成果。第三,从表面上看,衍生数据不具有公开性,也就是在取得权利之前不能予以公布周知,但正是如此,这种智力成果才与商业秘密相似,具有有限的公开性。故衍生数据的性质属于知识产权赖以建立的权利客体,即智力成果。

物体分类图像
COIL-20 图像数据
COIL-100 图像数据
Caltech-101 图像数据
Caltech-256 图像数据
CIFAR-10 图像数据
CIFAR-100 图像数据
STL-10 图像数据
LabelMe_12_50k图像数据
NORB v1.0 图像数据
NEC Toy Animal 图像数据
iCubWorld 图像分类数据
Multi-class 图像分类数据
GRAZ 图像分类数据

衍生数据与数据不同。数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。而衍生数据仅指原生数据被记录、存储后,经过算法加工、计算、聚合而成的数据。因此,数据是衍生数据的上位概念,是一般性概念,衍生数据是数据的具体类型。在数据市场交易和需要民法规制的数据,是指衍生数据,而不是一般的数据。

人脸图像
IMDB-WIKI 500k 人脸图像、年龄性别数据
Labeled Faces in the Wild 人脸数据
Extended Yale Face Database B 人脸数据
Bao Face 人脸数据
DC-IGN 论文人脸数据
300 Face in Wild 图像数据
BioID Face 人脸数据
CMU Frontal Face Images
FDDB_Face Detection Data Set and Benchmark
NIST Mugshot Identification Database
Faces in the Wild 人脸数据
CelebA 名人人脸图像数据
VGG Face 人脸图像数据
Caltech 10k Web Faces 人脸图像数据

衍生数据与信息不同。信息是指音讯、消息、通信系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。不过,在法律层面使用信息概念,主要还是限于个人信息的范围。而衍生数据所产生的原生数据确实带有个人信息或者个人隐私的要素,但是,衍生数据并非是指原生数据本身,而是将带有个人身份信息或者个人隐私信息的原生数据在被记录、存储后,经过算法加工、计算、聚合,经过脱敏(即完全过滤掉个人信息要素)处理,生成新的、系统的、可读取、有使用价值的数据。

姿势动作图像
HMDB_a large human motion database
Human Actions and Scenes Dataset
Buffy Stickmen V3 人体轮廓识别图像数据
Human Pose Evaluator 人体轮廓识别图像数据
Buffy pose 人类姿势图像数据
VGG Human Pose Estimation 姿势图像标注数据

衍生数据与数据库不同。数据库是按照数据结构来组织、存储和管理数据的仓库,是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、与应用程序彼此独立的数据集合。衍生数据不是对原生数据的简单整理、存储和管理,而是在原生数据被记录、存储后,经过算法加工、计算、聚合,在原生数据的基础上,新产生的系统的、可读取、有使用价值的数据,因此与数据库具有本质的区别。对于数据库,主要采用著作权法的保护方式予以保护;而对于衍生数据,应当单独规定一个数据的权利予以保护。

指纹识别
NIST FIGS 指纹识别数据
NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据

其它图像数据
Visual Question Answering V1.0 图像数据
Visual Question Answering V2.0 图像数据

视频数据
综合视频
DAVIS_Densely Annotated Video Segmentation 数据
YouTube-8M 视频数据集【数据太大仅有介绍】
YouTube 网站视频备份【数据太大仅有介绍】

人类动作视频
Microsoft Research Action 人类动作视频数据
UCF50 Action Recognition 动作识别数据
UCF101 Action Recognition 动作识别数据
UT-Interaction 人类动作视频数据
UCF iPhone 运动中传感器数据
UCF YouTube 人类动作视频数据
UCF Sport 人类动作视频数据
UCF-ARG 人类动作视频数据
HMDB 人类动作视频
HOLLYWOOD2 人类行为动作视频数据
Recognition of human actions 动作视频数据
Motion Capture 动作捕捉视频数据
SBU Kinect Interaction 肢体动作视频数据

目标检测视频
UCSD Pedestrian 行人视频数据
Caltech Pedestrian 行人视频数据
ETH 行人视频数据
INRIA 行人视频数据
TudBrussels 行人视频数据
Daimler 行人视频数据
ALOV 物体追踪视频数据

密集人群视频
Crowd Counting 高密度人群图像
Crowd Segmentation 高密度人群视频数据
Tracking in High Density Crowds 高密度人群视频

其它视频
Fire Detection 视频数据

音频数据
综合音频
Google Audioset 音频数据【数据太大仅有介绍】

语音识别
Sinhala TTS 英语语音识别
TIMIT 美式英语语音识别数据
LibriSpeech ASR corpus 语音数据
Room Impulse Response and Noise 语音数据
ALFFA 非洲语音数据
THUYG-20 维吾尔语语音数据
AMI Corpus 语音识别

自然语言处理
RCV1英语新闻数据
20news 英语新闻数据
First Quora Release Question Pairs 问答数据
JRC Names各国语言专有实体名称
Multi-Domain Sentiment V2.0
LETOR 信息检索数据
Yale Youtube Vedio Text
斯坦福问答数据【Kaggle数据】
美国假新闻数据【Kaggle数据】
NIPS会议文章信息数据(1987-2016)【Kaggle数据】
2016年美国总统选举辩论数据【Kaggle数据】
WikiLinks 跨文档指代语料
European Parliament Proceedings Parallel Corpus 机器翻译数据
WikiText 英语语义词库数据
WMT 2011 News Crawl 机器翻译数据
Stanford Sentiment Treebank 词汇数据

社会数据
希拉里邮件门泄露邮件
波士顿 Airbnb 公开数据【Kaggle数据】
世界各国经济发展数据【Kaagle数据】
世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】
世界范围显著地震数据(1965-2016)【Kaagle数据】
美国婴儿姓名数据【Kaagle数据】
全世界鲨鱼袭击人类数据【Kaagle数据】
1908年以来空难数据【Kaagle数据】
2016年美国总统大选数据【Kaagle数据】
2013年美国社区统计数据【Kaagle数据】
2014年美国社区统计数据【Kaagle数据】
2015年美国社区统计数据【Kaagle数据】
欧洲足球运动员赛事表现数据【Kaagle数据】
美国环境污染数据【Kaagle数据】
美国H1-B签证申请数据【Kaggle数据】
IMDB五千部电影数据【Kaggle数据】
2015年航班延误和取消数据【Kaggle数据】
凶杀案报告数据【Kaggle数据】
人力资源分析数据【Kaggle数据】
美国费城犯罪数据【Kaggle数据】
安然公司邮件数据【Kaggle数据】
历史棒球数据【Kaggle数据】
美联航 Twitter 用户评论数据【Kaggle数据】
波士顿 Airbnb 公开数据【Kaggle数据】

处理后的科研和竞赛数据
NIPS 2003 属性选择竞赛数据
台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据
Large-scale 分类建模数据
几个UCI 中 large-scale 分类建模数据
Social Computing Data Repository 社交网络数据

版权声明:本文由韦德娱乐1946_韦德娱乐1946网页版|韦德国际1946官网发布于网络编程,转载请注明出处:各领域公开数据集下载,衍生数据是数据专有权