TRECVID Interactive Experimental Design

	T1	T2
S1	V1	V2
S2	V2	V1

This design has the property that the "treatment effect", here the difference (V1-V2) in search performance between the two system variants as measured for example by average precision, can be estimated free and clear of the main (additive) effects of searcher and topic. Here, searcher and topic are treated statistically as blocking factors. This means that even in the presence of differences between searchers and topics, which clearly are anticipated, the design will provide estimates of V1-V2 that are not contaminated by these differences.

Here is a model equation for the latin square. For example, the performance of S1 using V1 on T1 can be modeled (ignoring for now any interactions) as:

    m + s1 + v1 + t1 + e

(where: m is the grand mean of all performances, s1 is the effect of searcher 1, v1 is the effect of system variant 1, t1 is the effect of topic 1, and e is "error" - the effect of everything else.)

The treatment effect (x), i.e., the difference between systems' performance, is estimated by the mean of the two V1-V2 differences, from which the main effects of topic and searcher fall out, leaving the system difference:

x  = ( [(m+s1+t1+v1+e)-(m+s1+t2+v2+e)] + [(m+s2+t2+v1+e)-(m+s2+t1+v2+e)] ) / 2

   = ( [ t1-t2+v1-v2] + [t2-t1+v1-v2] ) / 2

   = ( 2*v1 - 2*v2 ) / 2

   = v1 - v2

Two designs for interactive video search experiments

Design for measuring and comparing the effectiveness of 2 systems

Design for measuring the effectiveness of 1 system

	T1	T2	T3	T4	T5	T6	T7	T8	T9	T10	T11	T12	T13	T14	T15	T16	T17	T18	T19	T20	T21	T22	T23	T24
S1	V1	V1	V1	V1	V1	V1							V2	V2	V2	V2	V2	V2
S2	V2	V2	V2	V2	V2	V2							V1	V1	V1	V1	V1	V1
S3	V1	V1	V1	V1	V1	V1													V2	V2	V2	V2	V2	V2
S4	V2	V2	V2	V2	V2	V2													V1	V1	V1	V1	V1	V1
S5							V1	V1	V1	V1	V1	V1	V2	V2	V2	V2	V2	V2
S6							V2	V2	V2	V2	V2	V2	V1	V1	V1	V1	V1	V1
S7							V1	V1	V1	V1	V1	V1							V2	V2	V2	V2	V2	V2
S8							V2	V2	V2	V2	V2	V2							V1	V1	V1	V1	V1	V1

	T1	T2	T3	T4	T5	T6	T7	T8	T9	T10	T11	T12	T13	T14	T15	T16	T17	T18	T19	T20	T21	T22	T23	T24
S1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1
S2	V1	V1	V1	V1	V1	V1							V1	V1	V1	V1	V1	V1
S3	V1	V1	V1	V1	V1	V1													V1	V1	V1	V1	V1	V1
S4							V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1
S5							V1	V1	V1	V1	V1	V1							V1	V1	V1	V1	V1	V1
S6													V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1

	T1	T2	T3	T4	T5	T6	T7	T8	T9	T10	T11	T12	T13	T14	T15	T16	T17	T18	T19	T20	T21	T22	T23	T24
S1	V1	V1	V1	V1	V1	V1							V2	V2	V2	V2	V2	V2
S2	V2	V2	V2	V2	V2	V2							V1	V1	V1	V1	V1	V1
S3	V1	V1	V1	V1	V1	V1													V2	V2	V2	V2	V2	V2
S4	V2	V2	V2	V2	V2	V2													V1	V1	V1	V1	V1	V1
S5							V1	V1	V1	V1	V1	V1	V2	V2	V2	V2	V2	V2
S6							V2	V2	V2	V2	V2	V2	V1	V1	V1	V1	V1	V1
S7							V1	V1	V1	V1	V1	V1							V2	V2	V2	V2	V2	V2
S8							V2	V2	V2	V2	V2	V2							V1	V1	V1	V1	V1	V1

	T1	T2	T3	T4	T5	T6	T7	T8	T9	T10	T11	T12	T13	T14	T15	T16	T17	T18	T19	T20	T21	T22	T23	T24
S1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1
S2	V1	V1	V1	V1	V1	V1							V1	V1	V1	V1	V1	V1
S3	V1	V1	V1	V1	V1	V1													V1	V1	V1	V1	V1	V1
S4							V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1
S5							V1	V1	V1	V1	V1	V1							V1	V1	V1	V1	V1	V1
S6													V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1

	T1	T2	T3	T4	T5	T6	T7	T8	T9	T10	T11	T12	T13	T14	T15	T16	T17	T18	T19	T20	T21	T22	T23	T24
S1	V1	V1	V1	V1	V1	V1							V2	V2	V2	V2	V2	V2
S2	V2	V2	V2	V2	V2	V2							V1	V1	V1	V1	V1	V1
S3	V1	V1	V1	V1	V1	V1													V2	V2	V2	V2	V2	V2
S4	V2	V2	V2	V2	V2	V2													V1	V1	V1	V1	V1	V1
S5							V1	V1	V1	V1	V1	V1	V2	V2	V2	V2	V2	V2
S6							V2	V2	V2	V2	V2	V2	V1	V1	V1	V1	V1	V1
S7							V1	V1	V1	V1	V1	V1							V2	V2	V2	V2	V2	V2
S8							V2	V2	V2	V2	V2	V2							V1	V1	V1	V1	V1	V1

	T1	T2	T3	T4	T5	T6	T7	T8	T9	T10	T11	T12	T13	T14	T15	T16	T17	T18	T19	T20	T21	T22	T23	T24
S1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1
S2	V1	V1	V1	V1	V1	V1							V1	V1	V1	V1	V1	V1
S3	V1	V1	V1	V1	V1	V1													V1	V1	V1	V1	V1	V1
S4							V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1
S5							V1	V1	V1	V1	V1	V1							V1	V1	V1	V1	V1	V1
S6													V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1	V1