データ流通において、流通過程の中では、様々な点でデータセットの品質評価が重要になることは、漠然と多くの人が理解している。そんなわけで、データ流通推進協議会でも、データ品質についての議論をしているのだが、どうも品質というものについて語るときに、とても重要なことを理解していない人が多い気がする。
僕は、民生家電の大量生産の世界から社会人としての仕事をスタートしたこともあり、品質というのは結構いろいろと叩き込まれた。当時は、QCサークルなんて活動も、今以上に活発だった。
品質というとQC=Quality Controlだけを語る人が多いが、QA=Quality Assurance なしに、QCは出来ない。たとえば、時速100kmで走行できる自動車という要求仕様に対して、設計者はエンジンなどの各部品の仕様上のバラツキや、組み立て条件などの変動などを考慮して設計し、製品のスペック を定める。この設計であれば、出来上がった自動車は、製造や部品のバラツキがあったとしても、時速105kmの性能となるというのが設計品質で、これを検証し、保証するというのは、QAだ。
さて、いくら設計品質上時速105kmが出るとしても、実際に製品をつくると、110km、106km、108km などと様々な条件によってバラツキは出る。この場合、いづれも要求仕様の100kmは満足しているので、問題ないかというと、そんなことはない。実際には、そのバラツキによっては、100kmを下回るものが出てくるような分散傾向があれば、それは問題になる。そこで、分散の範囲を一定に入るように、組み立てだったり検査だったりで、管理するのがQCだ。
そして、こういう品質を定量的に評価するのであれば、おなじ測定方法、測定条件のもにと、評価する必要があるので、その方法などを規定するのがEvaluation Methodなわけだ。
さて、データ流通において、データ品質の標準化が必要....と、物知り顔で宣う人が多いのだが、では何を標準化するのと聞くと、言葉につまるケースが多い。こういう人は、漠然と"品質"という言葉を使っているだけなのではと思ってしまう。
最近は、"国際標準化"という言葉も、とてもよく聞くのだけど、これも言葉だけ使ってる感が否めない。"国際標準化"を進めるというのであれば、どこのSDOで、なにを出力にするのかが、明確であるべきだろう。
というわけで、"データ品質の標準化"とかいう言葉を使う人には、まさにこの辺りを明確にしてねと小一時間....